NAIST-IS-MT0051019: Isao Ogawa

ブラウザ履歴からの関連キーワード抽出による検索支援方式の提案と評価

小川功 (0051019)

インターネットの急速な普及により、多くの人々がWorld Wide Webを利用するようになった。WWWとは、欧州核物理学研究所(CERN)によって開発された音声や画像も含めたハイパーテキストページの集合である。WWWでは、ユーザはハイパーテキスト中に埋め込まれたリンクをクリックすることにより他のハイパーテキストを参照できる。WWWを構成するWebページはHyper Text Markup Language(HTML)という言語を用いて容易に作成可能であり、インターネットサービスプロバイダ(ISP)のサービス等を利用して個人の情報発信が可能である。これらの要因により、インターネット上に存在するWebページは爆発的に増加している。このような膨大なWebページの中から目的とする情報を獲得する方法として、WWW検索システムの利用がある。

WWW検索システムはロボット型検索システムとディレクトリ型検索システムの2つに大別される。ロボット型検索システムではロボットにより収集されたWebページ群に対し、ユーザは検索キーワードを入力して検索する。ロボットとは、Web空間上を巡回し自動的にWebページを収集するプログラムのことである。ディレクトリ型検索システムでは、ユーザはカテゴリ別に登録されたWebページの集合に対し、大まかなジャンルから細かいジャンルへのリンクをたどって検索する。

本研究では、ロボット型検索システムを対象としている。ロボット型検索システムにおいては、従来、Webページの著しい増加によりページの収集が追い付かない、あるいは、検索結果にユーザにとって不必要な情報が多数含まれ、検索精度が低下する問題が発生している。この問題を解決する方法として、Web特有のリンク構造を用いた検索技術が注目を集めている。しかし、この検索技術は不特定多数の人々に対して検索精度を向上させるものであり、特定のユーザ個人に対して検索支援を行うものではない。そのため、これらの検索技術を用いても、多義性を持つ検索キーワードを入力した場合、同一キーワードの異なる意味に関連するWebページが検索結果として返される場合があり、検索精度が低下する。

そこで本研究ではこの問題点に着目し、ブラウザ履歴をデータベース化し、検索時にデータベースから検索キーワードの関連語を抽出する。そして、それを検索キーワードに追加して検索することにより、検索キーワードの多義性を解消するシステムを提案する。検索キーワードの多義性は検索キーワードが同綴異義語である場合に発生する。一般に名詞である同音異義語が複合語内に存在すれば、前後の単語から同音異義語が特定できる場合が多い。この傾向を検索キーワードが同綴異義語である場合に適用する。過去に閲覧したWebページ中に検索キーワードが存在しそれが同綴異義語である場合、その単語の意味を前後の単語を調べることによって把握できると考える。提案システムでは、その語の前後の単語のうち関連の高い語を検索キーワードに追加して検索する。

評価実験として、検索キーワードの単一の意味に関するWebページを履歴として集め、関連キーワードを抽出し検索した。実験の結果、既存の検索システムに比べ有効であることが確認された。

ブラウザ履歴からの関連キーワード抽出による検索支援方式の提案と評価

小川 功 (0051019)

小川功 (0051019)