問題
与えられたテキストからURLを抽出するプログラムを書いてください。
ヒント
- 正規表現の使用:
- URLは一般的に特定のパターンに従います。正規表現を使用してこれらのパターンを特定し、URLを抽出します。
- URLの一般的なパターン:
- URLの一般的な形式は
http(s)://www.example.com
のようになっています。これにマッチする正規表現を作成します。ただし、URLの形式は多岐にわたるので、用途によって適切な正規表現を選択する必要があります。
- URLの一般的な形式は
- 正規表現のテスト:
- 正規表現をテストするために、いくつかのサンプルテキストを用意しておくと良いです。例えば、HTMLのソースコードからURLを抽出する場合は、HTMLソースの一部を使用してテストすると良いでしょう。
- グループ化:
- URLにはプロトコル、ホスト、パスなどがあります。これらの部分を正確に抽出するために、正規表現内でグループ化を使用すると便利です。例えば、
(http://)(www\\.)?(example\\.com)
のようにグループを作成します。
- URLにはプロトコル、ホスト、パスなどがあります。これらの部分を正確に抽出するために、正規表現内でグループ化を使用すると便利です。例えば、
- Matcherクラスの利用:
Pattern
クラスで正規表現をコンパイルし、Matcher
クラスを使用してテキストと一致させます。find()
メソッドを使用して一致を見つけ、group()
メソッドでグループを取得します。
- 重複を防ぐ:
- 同じURLが複数回出現する可能性がある場合は、重複を防ぐ仕組みを考慮すると良いです。
これらのヒントを考慮して、特定のテキストからURLを抽出するための正規表現を作成し、Javaの正規表現機能を使用してプログラムを実装してみてください。
→解答例