レイアウト情報を利用したWeb情報検索システムの有効性検証

橋村雄介 (0651096)


インターネットの普及に伴い,World Wide Web空間に蓄積される情報量及びWebページ数は増加し続けている.その膨大な情報から必要な情報を探し出すための手段として,Web検索エンジンがある.現在利用されているGoogleなどの一般的なWeb検索エンジンは,Webページ全文における検索語の出現頻度によるスコアリング方式に加え,リンク構造に基づいたスコアリング方式を行っている.Web検索エンジンは,これらのスコアリング方式が算出したスコアに基づいてスコアの高いWebページ順に検索結果を提示している.

一方,今日のWebページコンテンツは多様性を増し,関連性のない話題が単一のページに混在しているサイトも増加している.Webページ全文を単位とした検索では,複数の話題が混在することを考慮に入れていないという欠点があるため,例えばAND検索において,検索語が関連性のない話題に点在する場合には,低い検索精度の原因となる.そこで,Webページ全文を単位とする検索に代わり,Webページを分割し,分割後の要素(以下,ブロック)を単位とすることで検索精度を改善する試みが注目されている.しかし,ブロック単位で検索を行う際に,検索語の出現頻度のみに依存したランキングでは,例えば検索語句が多数出現するが検索語句に関する情報はリンク先に記述されているブロックのスコアも高くなり,そのブロックを含むWebページが上位にランク付けされてしまうなど,適切な検索結果が得られるとは限らない.利用者の情報要求を満たすためには,検索語の出現頻度以外の指標が必要であると考えられる.

本発表ではこの課題に対して,ブロック単位でのWeb情報検索に対して,ブロックのレイアウト情報を考慮に入れた手法の提案を行う.ここで,レイアウト情報とはブロックの表示位置や,大きさといったWebページの画面イメージにおける表示形式に関する情報のことである.一般的なWebページは,ヘッダーにWebページのタイトル,サイドバーにナビゲーションバー,フッターに著作権や連絡先情報が記述されるなど,コンテンツと表示形式には関連性がある.ブロックのレイアウト情報を考慮することで,例えば利用者の情報要求を満たし得ないブロックの特徴をフィルタリングして排除するなどの利用が可能である. 提案手法では,利用者の情報要求を満たすようなブロック(適合ブロック)に高いスコアを与えため,適合ブロックであるかどうかの判定にレイアウト情報を利用する.この判定には,2値分類問題を解くSVM(Supprot Vector Mashine)を用いる.SVMの特徴空間を,レイアウト情報を用いて拡張することで,検索語句だけでなくレイアウト情報に基づいた判定が可能である.
そこで本発表では提案手法の有効性を検証するため,レイアウト情報を考慮することによって,利用者によるブロックの適合性判定に見合った判定を行うことができるかどうかを調査する.そのため,以下の実験を行った.

・実験1: 人手による適合ブロックの収集
・実験2: 適合性判定にレイアウト情報を考慮することの有効性の検証

実験1では,どのようなブロックが情報要求に適合しているブロックであるのかを判定するために,まず人手によるブロックの適合性判定を行う.実験2では,実験1で収集した適合判定済みのブロック集合を用いて,ブロックの適合性判定にレイアウト情報を考慮することの有効性を検証する.レイアウト情報を考慮する場合と考慮しない場合それぞれの分類器(SVMモデル)を構築し, ブロック集合に対して適合・不適合の分類を行い,その精度(適合率,再現率)を比較する.レイアウト情報を考慮したSVMモデルが,レイアウト情報を考慮しないSVMモデルに比べ,より正確にブロック集合を分類できた場合,レイアウト情報を考慮することが有効であるといえる.

結果,実験1では被験者10名により適合性判定が行われたブロックを合計407個収集できた.実験2では,収集したブロック集合に対して,レイアウト情報を考慮した場合適合率約81%,再現率65%,レイアウト情報を考慮しない場合適合率63%,再現率63%となり,レイアウト情報を考慮した場合の方がより正確に分類できることを確認できた.再現率には課題の残る結果となったが,適合率において高い値を示したことから,レイアウト情報を考慮することがブロックの適合性判定に有効であることが確認できた.従って,レイアウト情報を考慮することで利用者の情報要求を満たすブロックに高いスコアを与えることが期待できるため,本手法による検索精度の改善が期待できる.