ベクトル空間モデルを用いた論文検索における\\ベクトル化法およびその評価

岡澤 仁 (9751022)


近年、計算機の普及に伴って文書の電子化が急速に進み、利用の際には計算機 支援による情報検索・抽出機構の必要性が増している。本学の電子図書館にお いても、現在、電子図書館の文書の検索には、書誌情報からの検索と全文検索 が用意されているが、検索機能の面などにおいて、ユーザの負担が少ないとは 言い難い。そこで、本論文では、現在の検索シス テムの欠点を解消するため に、ベクトル空間モデルの利用を考え、その有効性を残したままいかに効率よ く文書間の類似度を計算するかを考察した。具体的には、特徴素としてどのよ うな単語をどの程度の個数選べば、類似度の精度および計算効率の両面におい て最適なベクトル空間モデルを構成できるかを考察し、実験を通して評価した。 その結果、全体から$tf \cdot idf$値で最低5,000個程度の次元数を取れば十 分であることがわかった。この結果は、元の文書データから検索された専門用 語の総数30,000よりも遥かに少ない特徴素数で同等の性能が達成できることを 示しており、文書間の類似度等の計算における計算量の観点からは、非常に有 用な結果であるといえる。