他エージェントの行動予測を利用したマルチエージェント強化学習のゴール毎の状態空間分割による高速化

稲垣 浩司 (0151011)


マルチエージェント系における適応行動の実現は,工学及び認知科学の観点から興味深い課題である.その中でも,学習による適応行動の自律的獲得に関する研究が,強化学習の発展を契機として近年注目を集めている.

マルチエージェント系において,個々のエージェントが実行する行動の善し悪しは,他エージェントが実行する行動に依存する.この点に注目した先行研究として,他エージェントの行動を推定しながら学習を進行するマルチエージェント強化学習法が提案されている.しかしながら,この学習法は,状態空間が広いなど学習に時間を費やす問題に対して,他エージェントの行動推定の誤差が大きくなるという問題点が生じる.本研究では,他エージェントの実行する行動を予測しながら学習を進行するマルチエージェント強化学習法に,状態空間を複数に分割して学習を高速化する手法を導入した.

発表では,
・Q学習とその問題点について
・既に提案されているアルゴリズム(状態空間分割を用いたQ学習アルゴリズムと,他エージェントの行動を予測するマルチエージェント向けQ学習アルゴリズム)
・本研究の内容
・評価実験
・考察と今後の課題
の順で述べる.