既存の情報探索対話を行うシステムとして, 欠落した情報を網羅的に順に質問していくような対話戦略を人手で構築したものが存在する. こうしたシステムは, 時間をかけて事実を網羅的に収集することを目的とするものであり, 合理的な論証を構築するために必要な情報を集めることを目的として構築されたものではない. また,システムが扱う論証の規模が大きくなるに連れてシステムの質問候補の数は膨大になるため, 実際にユーザとの対話によって論証のための事実を収集する場合, 合理的な論証構築のための情報収集戦略が重要となる.
そこで本研究では,1つ目の提案手法として, 情報探索対話をマルコフ決定過程 (MDPs) を用いて定式化し, 深層強化学習 (DRL) を適用することで対話戦略の最適化を行った. DRLによって,システムは合理的な論証構築に必要な情報を, より早く効率的に収集する戦略を学習することができる. さらに,2つ目の提案手法として, システムが情報収集のために問い合わせを行う対話相手の知識分布を, 混合Bernoulli分布によって予測し,最も相手が保持している可能性の高い情報から順に聞き出すような対話戦略を構築した. 異なる2つのドメインの論証に基づく対話データセットを用いて評価実験を行ったところ, MDPsによる情報探索対話の定式化が適切であり, DRLおよび混合Bernoulli分布モデルによって最適化された対話戦略が既存のヒューリスティクスに基づく対話戦略を上回る性能を持つことが示された.