質問応答システムにおける段落抽出の方法に関する方法

松永 香(9951101)


近年,自然言語で書かれた情報が膨大になってきており,必要な情報を抽出するこ とが重要な課題となっている.このような状況で質問応答(Question Answering:QA)が新たなタスクとして注目を集めている.

そのQAシステムにおいて, 候補としてあげられた大量のテキストをユーザが読む 労力を減らすことが望ましい.

本論文では, 新聞記事を対象にしたQAシステムを作成する.QAシステムの最終目 標はユーザの質問の答えとなる文字列を出力することである.よって出力するパッ セージを小さくしていく必要がある.従って,本研究では一度抽出した記事に,前 処理を加え,そして形式段落を抽出することを目的とする. してどのような情報がQAシステムの向上に役立つのかを検討する.

前処理としては, 新聞記事においての, 見出し, 日付, 代名詞, 省略などの情報を付加して段落抽出をおい行う.

その結果, 全体的には, 代名詞, 省略, 日付の情報を加えたものが一番精度がよかった. しかし, 全ての前処理において,質問の種類ごとに有益であることがわかった.