部分観測環境における内部状態遷移モデルを用いた強化学習法

谷口 雄基 (0651202)


これまで, マルコフ過程として定式化できる完全観測環境を仮定した問題に対す る多くの強化学習法が提案されてきた. しかし実世界環境では多くの場合ノイズ や障害が存在する. 近年, そのような環境における問題を解く手法として, 有限 状態コントローラ(Finite State Controller; FSC)を用いた方策勾配法である IState-GPOMDPが提案された. FSCは, 内部状態を持つ確率的な方策である. しかし実際に学習に 用いられることはあまりなかった.

本研究では, 特に抽出すべき特徴が単純であ る場合にIState-GPOMDPが有効であることに着目し, 部分観測環境におけるマルチエージェントによる 協調行動を目的とした新しいベンチマークタスクである Synchronized-cooperative goal (SCG) problem を考案し, コンピュータシミュ レーションにより, IState-GPOMDPがそのようなタスクに有効であることを示す.

また汎用性を高めるため, これまで離散変数として定式化されていた内部状態を 連続変数に拡張した連続状態コントローラ (Continuous State Controller; CSC)を新しく提案した. 部分観測線形力学 システムを用いた計算機実験により, その制御が可能であることを示す.