合理的な論証構築のための情報探索対話戦略の最適化

勝見 久央 (1751028)


論証とは,事実を論理的に組み上げて特定の主張を行うものである. こうした論証に基づく対話システムは広く研究されている. 合理的な論証を構築・提示するためには, その主張を支持するような情報を保持している必要がある. しかし,実際の対話において,システムがこうした情報を事前にすべて保持していることは稀である. そこで,情報探索対話と呼ばれるような, システムが対話を通して主張を支持する情報を他の対話参与者から聞き出す方法が考えられる. 例えば,論証に基づく対話システムが, 裁判における裁判官として,「被告人は窃盗の罪で有罪である.」 という主張を論証によって提示するケースでは, システムは「被告人が商品を盗んでいるのを見た目撃者がいる.」といった主張を保持する情報を検察や目撃者から 聞き出し,合理的に論証(判決)を提示する必要がある.

既存の情報探索対話を行うシステムとして, 欠落した情報を網羅的に順に質問していくような対話戦略を人手で構築したものが存在する. こうしたシステムは, 時間をかけて事実を網羅的に収集することを目的とするものであり, 合理的な論証を構築するために必要な情報を集めることを目的として構築されたものではない. また,システムが扱う論証の規模が大きくなるに連れてシステムの質問候補の数は膨大になるため, 実際にユーザとの対話によって論証のための事実を収集する場合, 合理的な論証構築のための情報収集戦略が重要となる.

そこで本研究では,1つ目の提案手法として, 情報探索対話をマルコフ決定過程 (MDPs) を用いて定式化し, 深層強化学習 (DRL) を適用することで対話戦略の最適化を行った. DRLによって,システムは合理的な論証構築に必要な情報を, より早く効率的に収集する戦略を学習することができる. さらに,2つ目の提案手法として, システムが情報収集のために問い合わせを行う対話相手の知識分布を, 混合Bernoulli分布によって予測し,最も相手が保持している可能性の高い情報から順に聞き出すような対話戦略を構築した. 異なる2つのドメインの論証に基づく対話データセットを用いて評価実験を行ったところ, MDPsによる情報探索対話の定式化が適切であり, DRLおよび混合Bernoulli分布モデルによって最適化された対話戦略が既存のヒューリスティクスに基づく対話戦略を上回る性能を持つことが示された.