質問応答システムの研究動向

川口弘昭 (0451042)


内容梗概

ユーザーの「ニルヴァーナのリードシンガーは誰ですか?」という問いに対し, 構文解析と固有表現抽出により,“ニルヴァーナ”がバンド名であると認識し, 百科事典や新聞記事やWebなどの文書集合から“ニルヴァーナ”を含む記事を 検索し,その中から “...涅槃という意味である.メンバーはカート・コバーン(Kurt Cobain, ボーカル,ギター),クリス・ノボセリック(Krist Novoselic,ベース), デイブ・グロール(Dave Grohl,ドラム)の3人.1987年に...”という1文から, 「カートコバーン」または「Kurt Cobain」の文字列を抽出し,抽出した文字列を回答として ユーザーに返すシステムが質問応答システムである.

近年,大規模な記録媒体が普及し,またWebやそれを支えるインフラが普及している 傾向は現在でも変わらず続いている.これにより,人々は膨大な情報を 短時間のうちに手に入れることが可能になった. しかしこの傾向は,新たな不満をも生み出している. 情報は絶え間なく増え続けるが,それらを思い通りに入れる方法が未だ整っていないためである.

サーチエンジンに代表される現行の情報検索技術では, 関連度などの付加情報を与えはするものの,情報の存在や%%居 場所を教える以上のことは行なわない. ユーザーがこの情報検索技術で知りたい情報を探そうとすると,知りたい情報を``含む''情報は 手に入るものの,知りたい情報``そのもの''を見つからない場合がある.

一方,質問応答システムはユーザーの要求に対して回答``そのもの''を返すことを目的としている. 正確には,ユーザーが自然言語で質問し,システムは簡潔で且つ文脈に対しても十分妥当な回答を 出力することが目的である.

また研究者の間でも,Text REtrieval Conference (TREC) に質問応答のタスクが導入されて以来, 汎用ドメイン質問応答システムに対する関心が高まっている.最近の大会の最も成績の良かった システムは,事実に基づく質問に対し7割以上回答能力があると評価されている.

本稿は,その質問応答研究に対する一般的な背景知識, ワークショップ,質問応答システムのアーキテクチャについて説明する. まず2章では,過去における質問応答システムの様々な用途ついて概観する. 3章では,大規模文書情報源から回答を抽出する現代の質問応答システムについての様々な観点での分類と 研究における一般的な問題点について説明する. 4章では,近年開催されている国内外で開催されている 汎用ドメイン質問応答システムについての評価型ワークショップのタスクとその変遷について説明する. 5章では,現在の典型的な質問応答システムのアーキテクチャにについて説明し, TREC の2004年大会で成績上位だったチームのシステムについて説明する. 6章では,汎用ドメイン質問応答システムについての現状での問題点についてまず説明し, 現在の質問応答研究の動向について説明する. 7章では以上についての内容をまとめる.