NAIST-IS-MT0151011: Koji Inagaki

他エージェントの行動予測を利用したマルチエージェント強化学習のゴール毎の状態空間分割による高速化

稲垣浩司 (0151011)

マルチエージェント系における適応行動の実現は，工学及び認知科学の観点から興味深い課題である．その中でも，学習による適応行動の自律的獲得に関する研究が，強化学習の発展を契機として近年注目を集めている．

マルチエージェント系において，個々のエージェントが実行する行動の善し悪しは，他エージェントが実行する行動に依存する．この点に注目した先行研究として，他エージェントの行動を推定しながら学習を進行するマルチエージェント強化学習法が提案されている．しかしながら，この学習法は，状態空間が広いなど学習に時間を費やす問題に対して，他エージェントの行動推定の誤差が大きくなるという問題点が生じる．本研究では，他エージェントの実行する行動を予測しながら学習を進行するマルチエージェント強化学習法に，状態空間を複数に分割して学習を高速化する手法を導入した．

発表では，
・Q学習とその問題点について
・既に提案されているアルゴリズム（状態空間分割を用いたQ学習アルゴリズムと，他エージェントの行動を予測するマルチエージェント向けQ学習アルゴリズム）
・本研究の内容
・評価実験
・考察と今後の課題
の順で述べる．

他エージェントの行動予測を利用したマルチエージェント強化学習のゴール毎の状態空間分割による高速化

稲垣 浩司 (0151011)

稲垣浩司 (0151011)