そのQAシステムにおいて, 候補としてあげられた大量のテキストをユーザが読む 労力を減らすことが望ましい.
本論文では, 新聞記事を対象にしたQAシステムを作成する.QAシステムの最終目 標はユーザの質問の答えとなる文字列を出力することである.よって出力するパッ セージを小さくしていく必要がある.従って,本研究では一度抽出した記事に,前 処理を加え,そして形式段落を抽出することを目的とする. してどのような情報がQAシステムの向上に役立つのかを検討する.
前処理としては, 新聞記事においての, 見出し, 日付, 代名詞, 省略などの情報を付加して段落抽出をおい行う.
その結果, 全体的には, 代名詞, 省略, 日付の情報を加えたものが一番精度がよかった. しかし, 全ての前処理において,質問の種類ごとに有益であることがわかった.