部分観測環境下におけるマルチエージェント系強化学習法

藤田 肇 (0251102)


本研究では,マルチエージェント系の一例としてカードゲームである Heartsを取り上げ,そこでのエージェントの行動学習として,相手モデルに基づ くマルチエージェント系強化学習法を提案する.Heartsでは非観測なカードが多 く存在するため,本手法では部分観測マルコフ決定過程(POMDP)として定式化し ている.学習エージェントは観測できない状態を推定によって補い,動的に変化 する環境の振舞いを予測することで,自身の行動を決定する.本手法が一般的な 実問題に対しても有効であることを,計算機シミュレーションにより示す.