XML情報検索における部分文書クラスタリングの利用に関する研究

吉井 迪利 (0651142)


本研究ではXML文書の部分文書をクラスタリングすることにより、検索におけるコストを軽減することを目指す。

近年、様々な種類のXML文書が増えてきている。その中でも大容量のXML文書が注目されており、その一例としてWikipedia 等がある。これらのXML文書を上手く利用するために、文書の内容だけでなく、XMLの文書構造も考慮した部分文書に関する 様々な手法が考えられている。しかしその問題点として、部分文書を対象とすると検索対象が膨大になってしまう点が 挙げられる。そこで本研究では部分文書をクラスタリングにより分割し、検索対象となる部分文書を制限することにより 出来るだけ検索精度を落とさず検索にかかる処理コストを軽減させる。そして、クラスタリングの有無や、クラスタリングに 関するパラメタを変化させ、評価実験を行う。その結果からXML部分文書検索において、精度を落とさず探索範囲を 軽減するようなクラスタリング手法を示す。

キーワード

クラスタリング、XML、情報検索