統計情報を用いた話題特定と文脈の再構築による複数テキスト要約

福原 知宏 (9751090)


WWWに代表される大量のテキスト集合から目的の情報を得るには、 テキスト検索に加え、自動分類・自動要約が必要となる。 従来研究は小規模なテキスト集合を要約対象とし、大量テキストを 扱った研究は少ない。 本論文では大量テキストを対象とした要約を扱う。

本論文では、(1)歪度と尖度を用いた話題特定、 (2)文脈の再構築による要約文生成手法を提案する。 話題特定には単語出現頻度分布の歪度と尖度を用いる。 歪度と尖度から話題の一般性を特定する。 要約文生成では、文の主題と焦点をつなぐことで要約文を展開する。

提案手法を実装したシステムTopic Showcaseを作成した。 実装システムは、(1)キーワードを元にテキストを検索、 (2)検索結果をクラスタリング、(3)クラスタ毎に共通話題を特定、 (4)共通話題を展開して要約文を生成する。

本システムを用いた評価実験の結果、 (1)テキスト集合中の共通話題の特定 (2)要約文からのテキスト集合の概要把握 に提案手法の有効性を確認した。