013 クラスライブラリ(正規表現のパターンを扱うクラス) 019 問題

問題

与えられたテキストからURLを抽出するプログラムを書いてください。

ヒント

  1. 正規表現の使用:
    • URLは一般的に特定のパターンに従います。正規表現を使用してこれらのパターンを特定し、URLを抽出します。
  2. URLの一般的なパターン:
    • URLの一般的な形式は http(s)://www.example.com のようになっています。これにマッチする正規表現を作成します。ただし、URLの形式は多岐にわたるので、用途によって適切な正規表現を選択する必要があります。
  3. 正規表現のテスト:
    • 正規表現をテストするために、いくつかのサンプルテキストを用意しておくと良いです。例えば、HTMLのソースコードからURLを抽出する場合は、HTMLソースの一部を使用してテストすると良いでしょう。
  4. グループ化:
    • URLにはプロトコル、ホスト、パスなどがあります。これらの部分を正確に抽出するために、正規表現内でグループ化を使用すると便利です。例えば、(http://)(www\\.)?(example\\.com) のようにグループを作成します。
  5. Matcherクラスの利用:
    • Pattern クラスで正規表現をコンパイルし、Matcher クラスを使用してテキストと一致させます。find() メソッドを使用して一致を見つけ、group() メソッドでグループを取得します。
  6. 重複を防ぐ:
    • 同じURLが複数回出現する可能性がある場合は、重複を防ぐ仕組みを考慮すると良いです。

これらのヒントを考慮して、特定のテキストからURLを抽出するための正規表現を作成し、Javaの正規表現機能を使用してプログラムを実装してみてください。

解答例

「013 クラスライブラリ」問題集リスト