本研究では実問題である不完全情報ゲームHeartsの自己対戦による戦略獲得をマルチエージェント強化学習 の問題として定式化し, シングルエージェント系での部分観測マルコフ決定過程(POMDP)における強化学 習の問題として近似的に扱う.
不完全情報ゲームの戦略獲得はカードゲームを中心に盛んに 研究が行なわれている. しかし, 非観測な状態を持つため完全情報ゲー ムの場合よりもずっと困難な課題である.
POMDPは非観測な状態を推定することによる決定問題で, 定式化が十分に進んで いる. そのため, 不完全情報ゲームをPOMDPとして扱うアプローチは魅力 的である.
しかし, POMDPの厳密解を求めること自体の計算量は膨大であり, それに加えて, シングルエージェントであってもHeartsは状態数が膨大な実問題である. そのため, いかに 近似して解くかが実装上重要である.
本研究で提案する手法は, 計算機上で実行可能な段階まで計 算時間の削減に成功した. また学習実験により, 提案手法はシングルエージェント系に近似し たものではあるが, マルチエージェント系である不完全情報ゲームHeartsに対して有効な手法であることが示された.