hrefsによって指示される実際のリンクを取得する方法

私は、WebページのHTMLコードを解析しており、正規表現を使用してhrefとして言及されているすべてのリンクを取得していますが、例えば、wikipediaのWebサイトでは、hrefsを言い換えれば、
例えば:

コードは言う:

href = "#cite_note-Types_of_Test_Item_Formats -

but link is actually: http://en.wikipedia.org/wiki/Test_(assessment)#cite_note-Types_of_Test_Item_Formats-15

ウェブページのソースのみを使用してこれらのリンクにアクセスするにはどうすればよいですか?

編集:javaでコーディング

どのようなヘルプがありがとう

ベストアンサー

彼らはパラフレーズではなく、フラグメント識別子です。
は、ページのフラグメントの識別子を導入します。だからあなたが引用したのは、現在のページの相対URLで、別のフラグメント識別子です。
URLについてのWikipediaのページと、それがリンクするRFCの詳細があります。

フラグメントは、必ずしも単独で表示されるわけではありません。それらは、任意のURL、相対、または絶対にすることができます。
URLを処理する場合は、相対URLを解決する方法を明確にする必要があります。たとえば、
http://example.com/foo/bar.html
ページにいると仮定すると、次のようになります。

  • #frag
    resolves to
    http://example.com/foo/bar.html#frag
  • ../alt.html
    =>
    http://example.com/foo/alt.html
  • /bonzo/nifty#stuff
    =>
    http://example.com/bonzo/nifty#stuff
  • //stackoverflow.com/questions/8110960/8110987#8110987
    (note the lack of protocol)
    =>
    http://stackoverflow.com/questions/8110960/8110987#8110987

    (yes, really)

…等

コメントする

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です