NAIST-IS-MT0051104: Masaoki Mitsutake

部分観測ゲームにおけるマルチエージェント強化学習法

発表梗概

本研究では実問題である不完全情報ゲームHeartsの自己対戦による戦略獲得をマルチエージェント強化学習の問題として定式化し, シングルエージェント系での部分観測マルコフ決定過程(POMDP)における強化学習の問題として近似的に扱う.

不完全情報ゲームの戦略獲得はカードゲームを中心に盛んに研究が行なわれている. しかし, 非観測な状態を持つため完全情報ゲームの場合よりもずっと困難な課題である.

POMDPは非観測な状態を推定することによる決定問題で, 定式化が十分に進んでいる. そのため, 不完全情報ゲームをPOMDPとして扱うアプローチは魅力的である.

しかし, POMDPの厳密解を求めること自体の計算量は膨大であり, それに加えて, シングルエージェントであってもHeartsは状態数が膨大な実問題である. そのため, いかに近似して解くかが実装上重要である.

本研究で提案する手法は, 計算機上で実行可能な段階まで計算時間の削減に成功した. また学習実験により, 提案手法はシングルエージェント系に近似したものではあるが, マルチエージェント系である不完全情報ゲームHeartsに対して有効な手法であることが示された.