Jan 19, 2016
参照共起分析のWeb ディレクトリへの適用
NTT 未来ねっと研究所○ 原田昌紀 風間一洋 佐藤進也[email protected]
研究の背景
ロボットが収集したデータを利用して、Web ディレクトリの構築を自動化できないか?
サーチエンジン=ロボット+全文検索エン
ジン
○ Webページ単位で詳細な 検索ができる。○ 網羅性が高い。× 質の低いWebページが 検索される(スパムもある)。
Web ディレクトリ=人手で収集、評価、分類
○ Webサイト単位で階層的に 分類されている。○ 完成度の高いWebサイト のみが登録されている。× 網羅性が低い。維持と構築に要する
人的コストが問題。
発表の概要研究の目的とアプローチ関連研究Web ディレクトリ拡大手順の提案関連 Web サイト発見アルゴリズム(2種類)評価実験まとめ
本研究の目的とアプローチ目的: Web ディレクトリの自動拡大の実現アプローチ 各カテゴリに分類された Web サイト群を元に、
ロボットで収集したデータから、それらに関連する Web サイトを発見し、登録 Web サイト数を増大させる。
ハイパーリンクによる参照関係の解析を応用与えられた Web サイト群に関連し、
重要度の高い Web サイトを発見することが狙い。
関連研究: テキストの自動分類
テキストの自動分類 テキストをあらかじめ決められたカテゴリに分類
する。
ハイパーテキストの自動分類 ノードをあらかじめ決められたカテゴリに分類す
る。 近傍のノードの分類結果によって補正する。
問題点 多数のカテゴリへの高精度の分類は困難。 Web 上のテキストは多様であり、特に難し
い。テキストの自動分類による Web ディレクトリ構築は困難。
→ テキストの内容を用いない方法を検討する。
関連研究 : 特定トピックのオーソリティ発見
HITS [Kleinberg1998] トピックを表すキーワード
の検索結果の近傍からオーソリティとハブを抽出。
オーソリティ…多数のハブから参照される、重要な Webページ。
ハブ…多数のオーソリティを参照する、リンク集的なWeb ページ。
カテゴリ名によるオーソリティ発見…詳細な分類には不向き。
ハブ オーソリティ
・・・・・・
例:ゲーム全般 / ゲーム / ゲーム販売店 / ショッピング / 趣味とおもちゃ /ゲーム / ゲーム開発企業 / ビジネス / エンターテインメント / ゲーム /
関連研究 : 関連 Web ページ発見手法
:リンク 6リンク 7リンク 8リンク 9 :
シード Web ページ
L 以内
L 以内
関連 Web ページ
関連 Web ページ
関連 Web ページ
Web ディレクトリ拡大手順
1. 大域 Web グラフを作成する。
2. 各カテゴリで関連 Web サイトを発見する。
3. 重複した Web サイトを除去する。
1.大域 Web グラフの作成ロボットで大量の Web ページを収集し、それらの参照関係から Web グラフを作成する。
WWW サーバ間のハイパーリンクのみ辺とする。
Web サイトを点とした Web グラフを作成。 Web ディレクトリにおける検索の単位。 実装では同じサーバで同じパスを持つファイル群
を Web サイトとみなした。http://www.ntt.co.jp/product/http://www.ntt.co.jp/product/index-j.htmlhttp://www.ntt.co.jp/product/product.html
http://www.ntt.co.jp/product/ *
2.関連 Web サイト発見アルゴリズムの適用
各カテゴリに登録されている Web サイト群に、それらと関連するオーソリティを加える。
http://www.asahibeer.co.jp/http://www.gekkeikan.co.jp/http://www.kirin.co.jp/http://www.moritakk.com/http://www.ozeki.co.jp/http://www.sapporobeer.co.jp/http://www.suntory.co.jp/
http://www.asahibeer.co.jp/http://www.gekkeikan.co.jp/http://www.kirin.co.jp/http://www.moritakk.com/http://www.ozeki.co.jp/http://www.sapporobeer.co.jp/http://www.suntory.co.jp/http://www.budweiser.co.jp/http://www.takara.co.jp/http://www.heineken.co.jp/http://www.kirin-seagram.co.jp/http://j-entertain.co.jp/guiness/http://www.kizakura.co.jp/http://www.hakutsuru.co.jp/
:
関連 Web サイト発見アルゴリズムを適用
例:ビジネス / 食品 / 飲料 / 酒類
関連度22.119.514.412.511.88.88.2 :
3.重複 Web サイトの削除重複して発見された Web サイトは関連度が最大のカテゴリのみに残す。
http://www.cocacola.co.jp/http://www.morinagamilk.co.jp/http://www.nestle.co.jp/http://www.ucc.co.jp/http://www.yakult.co.jp/
http://www.ajinomoto.co.jp/http://www.nipponham.co.jp/http://www.sangaria.co.jp/http://www.dydo.co.jp/http://www.ucc.co.jp/http://www.cclemon.com/
:
http://www.hanamaruki.co.jp/http://www.heiwa-food.co.jp/http://www.soysauce.or.jp/http://www.kagome.co.jp/http://www.marukome.co.jp/
http://www.ajinomoto.co.jp/http://www.nipponham.co.jp/http://www.higeta.co.jp/http://www.takeya-miso.co.jp/http://nitanda.com/http://www.aohata.co.jp/
:
ビジネス / 食品 / 飲料 ビジネス / 食品 / 食材・調味料
関連度9.98.98.48.17.75.8 :
関連度11.19.28.37.75.95.7 :
関連 Web サイト発見アルゴリズム
関連 Web ページ発見アルゴリズムを拡張。 複数のシードに関連する Web サイトを発見する。 ステップ3で比較可能な関連度を出力する。
(1) Companion+ シードセットの近傍に HITS を適用し、オーソリティを
発見。
(2) MultiCocitation 多くのシードと参照共起関係にある Web サイトを発見。
(1) Companion+
Companion+[ 豊田 2000] を複数シードに拡張。 シードセット全体の近傍からオーソリティを発
見する。 (近傍 : 参照元 Web サイト + 参照共起関係にある Web サイト)
関連度=(オーソリティスコア) 2
× 近傍 Web サイト数シードセット
(2) MultiCocitationCocitation[Dean1998] を複数シードに拡張。 多くの異なるシードと参照共起関係にある Web サイト
を発見。
関連度=参照共起関係にあるシードの数 +
0.1×Σ シードと参照共起する回数
シードセット
シード
関連 Web サイト ( 関連度: 1.3)関連 Web サイト ( 関連度: 2.2)
評価実験: 対象データWeb ディレクトリ Open Directory Project の日本語カテゴリ
http://dmoz.org/World/Japanese/ 登録 Web サイト数 6,143URL カテゴリ数 702
大域 Web グラフ サーチエンジン ODIN の検索対象Web ページ
Web ディレクトリの登録サイトを起点として収集。
総Web ページ数 約 1130万 URL辺となるハイパーリンク 約 1350万本辺の起点 約 80万個,辺の終点 約 110万個
実験1: 精度の評価関連 Web サイトが正しいカテゴリに配置されるか? 各カテゴリから、評価用 Web サイトを一つずつ取
り出す。 それらを除いた Web ディレクトリに拡大手順を施
す。 評価用 Web サイトが発見されたときの精度を評価。 元々のカテゴリで発見された評価用 Webサイト精度= 評価用 Web サイトのうち発見されたもの
注意:元々Web ディレクトリに登録されていた Web サイトのみを評価。
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
5 10 15 20 25 30 N
精度
MultiCocitation
Companion+
実験1:精度の評価結果
MultiCocitation は実用的な精度を達成。Companion+ ではトピックドリフトが発生。 被参照数の大きいシードにのみ関連する Web サイト
が発見されやすい。
各カテゴリで最大 N 件の関連Webサイトを発見した場合の精度
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1 5~ 6 10~ 11 15~ 16 20~ 21 25~
シードセットサイズ
(N=20)
精度
Companion+ MultiCocitation
実験1:シードセットサイズと発見精度
登録 Web サイト数が大きいカテゴリでは精度が低下 シード数が大きいカテゴリは、他のカテゴリの関連
Webサイトを奪うことがある。→関連度の定義に改善の余地がある。
実験2 -1 : 適合度の評価被験者:ネットワーク分野の研究者8名。カテゴリ:被験者がよく知っている分野を2つ。関連 Web サイトのトピックとの適合性を判断。
適合する +2点どちらかといえば適合する +1点 評価不能(アクセスできないなど) 0点どちらかといえば適合しない -1点 適合しない -2点
カテゴリの適合度=関連 Web サイト全体の平均点注意:分類精度の評価とは異なる。
実験2 -1 : 適合度の評価
00.20.40.60.81
1.21.41.61.82
A B C D E F G H I J K L M N O P カテゴリ
適合
度
Companion+ MultiCocitation
Companion+ 平均0.99MultiCocitation 平均 1.44 カテゴリによって適合度の高低がある。
× アート / 映画 /洋画 ○ ニュース / 新
聞○ / 音楽 / ビートルズ
実験2 -1 : 適合度の評価
0
0.5
1
1.5
2
2.5
0 5000 10000 15000Web近傍 グラフのサイズ
Web
関連
サイ
トの
適合
度
適合度の低いカテゴリがある理由 リンク集における分類と、 Web ディレクトリの分類の不一致。例:アート / 映画 / 洋画…邦画の Web サイトが発見される。
近傍 Web グラフが小さいカテゴリでは、少数の関連 Web サイトしか得られない。
シードセット中に被参照数の大きい Web サイトが一つは必要。
実験2 - 2: 重要度の評価登録する価値がある Web サイトが発見されるか? 知名度、信頼性、情報量、オリジナリティ、デザインで判断。
登録すべき +2点どちらかといえば登録すべき +1点 評価不能(アクセスできないなど) 0点どちらかといえば登録すべきでない -1点 登録すべきではない -2点
各カテゴリで重要度(平均点)を比較 シードセットの Web サイト。 発見された関連 Web サイトのうち、「適合する」あるいは「どちらかといえば適合する」Web サイト
シードセット 平均 1.00Companion+ 平均 0.96MultiCocitation 平均 0.74
シードセット 平均 1.00Companion+ 平均 0.96MultiCocitation 平均 0.74
実験2 - 2:重要度の評価結果
-1.5
-1
-0.5
0
0.5
1
1.5
2
-1 0 1 2
シードセットの重要度
Web
関連
サイ
トの
重要
度
Companion+ の評価 被参照数の大きい Web サ
イトを発見しやすい。→トピックに適合していれ ば、重要な Web サイト。
MultiCocitation の評価 網羅的なリンク集の影響
で、重要度の低い Web サイトを発見しやすい。
シードセットの重要度と正の相関がある。
まとめと今後の課題関連 Web ページ発見アルゴリズムを拡張し、Web ディレクトリの自動拡大を実現した。 多数のカテゴリを持つ Web ディレクトリでも、高い精
度で関連 Web サイトを発見できた。 シードセットの重要度が高いときには、トピックに適合
し、重要度の高い Web サイトを発見できた。
今後の課題 適合度と重要度を両立するアルゴリズムの検討。 カテゴリ間の関係 (階層構造 )の利用。
http://odin.ingrid.org/ にてデモシステムを公開予定。