時系列情報を考慮した文書間関係の整理

秋間 大輔 (1351003)


 今日,活用されている自然言語処理技術のひとつとして,自動文書要約がある.自動文書要約技術は,要約の目的,対象とする文書の数,要約方法などによりさまざまに分類されるが,このうち複数の文書を対象とした多文書要約は,ニュースサイトや新聞などに掲載される報道記事を整理し,時事の概要を明瞭化して提示する上で有効な技術とされている.  その一方で,要約のために必要な,事件のいきさつや報道記事同士の関連付けには,報道文書の集合から抽出される重要文の情報を比較し,事態間の推移や文中の時間表現の時系列にしたがった適切な順序付けを行うことが不可欠である.

 本研究では,報道記事を対象とした多文書要約で必要となる時系列順序関係,事象間の推移関係を推定するために,複数の文書を対象とした言語解析・文書間関係推定のシステムを提案した.そして,これを実装するための前提として,文書中の時間表現を抽出し,各事象表現と対応付けて時系列順序を推定する機能について,先行研究の調査と一部の実装を行った.

 本研究において,目標とするのは,要約前の記事文書の集合から必要な情報を抽出・選択し,時系列順序を含む関係を推定することによって,人手による要約と同等の文書を自動生成することである.本研究では,目標を達成するシステムを実現するために,文書間をまたぐ二文間の類似度を推定し,類似度が閾値を上回る組み合わせにおいて,より多くの時系列推定に必要な情報を含む側を選択する機能を実装した.また,各文書が持つ掲載日時の情報を用いて,事象の発生した時区間の推定を補完する機能を提案し,その実装を試みた.