マルチエージェント系において,個々のエージェントが実行する行動の善し悪しは,他エージェントが実行する行動に依存する.この点に注目した先行研究として,他エージェントの行動を推定しながら学習を進行するマルチエージェント強化学習法が提案されている.しかしながら,この学習法は,状態空間が広いなど学習に時間を費やす問題に対して,他エージェントの行動推定の誤差が大きくなるという問題点が生じる.本研究では,他エージェントの実行する行動を予測しながら学習を進行するマルチエージェント強化学習法に,状態空間を複数に分割して学習を高速化する手法を導入した.
発表では,
・Q学習とその問題点について
・既に提案されているアルゴリズム(状態空間分割を用いたQ学習アルゴリズムと,他エージェントの行動を予測するマルチエージェント向けQ学習アルゴリズム)
・本研究の内容
・評価実験
・考察と今後の課題
の順で述べる.