エージェント間の報酬共有に基づくボトムアップマルチエージェント強化学習
青谷 拓海 (1751001)
実世界のマルチエージェントタスクの実現に向けて,近年,ロボット制御や学習の分野でさまざまな研究が行われている.
特に,各エージェントが強化学習に基づいて報酬を頼りに自身の方策を適応的に学習する,マルチエージェント強化学習と呼ばれる手法が活発に研究されている.
しかしながら従来研究では,共通のマルチエージェントタスクと全体を管理する中央集権型システムを仮定したものが多い.
一方,実世界の大規模かつ複雑なマルチエージェントタスクの取扱いのためには,エージェントごとのタスクが扱え,計算・通信コストが低い自律分散型のシステム,いわばボトムアップマルチエージェント強化学習が必要である.
そこで本研究では,このような問題設定下で,エージェント間の報酬共有により秩序ある集団行動を獲得することを目指す.
このために,特にエージェント間で共有した報酬に基づいて適切な報酬操作を行うアルゴリズムを提案する.具体的には,共有した報酬をもとに他エージェントの報酬と利害関係を予測し,自身にとって価値の高いものを優先するよう報酬を操作することを考える.
協調タスクおよび競争タスクにおいて,提案手法により,集団の報酬を考慮した協調的な集団行動が獲得できることを数値シミュレーションにより示した.
また,同様のタスクにおいて,実機への有効性をロボットシミュレーションにより確認した.