私は、WebページのHTMLコードを解析しており、正規表現を使用してhrefとして言及されているすべてのリンクを取得していますが、例えば、wikipediaのWebサイトでは、hrefsを言い換えれば、
例えば:
コードは言う:
href = "#cite_note-Types_of_Test_Item_Formats -
but link is actually: http://en.wikipedia.org/wiki/Test_(assessment)#cite_note-Types_of_Test_Item_Formats-15
ウェブページのソースのみを使用してこれらのリンクにアクセスするにはどうすればよいですか?
編集:javaでコーディング
どのようなヘルプがありがとう
ベストアンサー
彼らはパラフレーズではなく、フラグメント識別子です。
#
は、ページのフラグメントの識別子を導入します。だからあなたが引用したのは、現在のページの相対URLで、別のフラグメント識別子です。
URLについてのWikipediaのページと、それがリンクするRFCの詳細があります。
フラグメントは、必ずしも単独で表示されるわけではありません。それらは、任意のURL、相対、または絶対にすることができます。
URLを処理する場合は、相対URLを解決する方法を明確にする必要があります。たとえば、
http://example.com/foo/bar.html
ページにいると仮定すると、次のようになります。
-
#frag
resolves to
http://example.com/foo/bar.html#frag
-
../alt.html
=>
http://example.com/foo/alt.html
-
/bonzo/nifty#stuff
=>
http://example.com/bonzo/nifty#stuff
-
//stackoverflow.com/questions/8110960/8110987#8110987
(note the lack of protocol)
=>
http://stackoverflow.com/questions/8110960/8110987#8110987
(yes, really)
…等