ベクトル空間モデルを用いた論文検索における\\ベクトル化法およびその評価
岡澤 仁 (9751022)
近年、計算機の普及に伴って文書の電子化が急速に進み、利用の際には計算機
支援による情報検索・抽出機構の必要性が増している。本学の電子図書館にお
いても、現在、電子図書館の文書の検索には、書誌情報からの検索と全文検索
が用意されているが、検索機能の面などにおいて、ユーザの負担が少ないとは
言い難い。そこで、本論文では、現在の検索シス テムの欠点を解消するため
に、ベクトル空間モデルの利用を考え、その有効性を残したままいかに効率よ
く文書間の類似度を計算するかを考察した。具体的には、特徴素としてどのよ
うな単語をどの程度の個数選べば、類似度の精度および計算効率の両面におい
て最適なベクトル空間モデルを構成できるかを考察し、実験を通して評価した。
その結果、全体から$tf \cdot idf$値で最低5,000個程度の次元数を取れば十
分であることがわかった。この結果は、元の文書データから検索された専門用
語の総数30,000よりも遥かに少ない特徴素数で同等の性能が達成できることを
示しており、文書間の類似度等の計算における計算量の観点からは、非常に有
用な結果であるといえる。