連続空間におけるマルチエージェント強化学習

玉越 大輝 (9851205)


我々は知的な個体やその集合体が起こす社会現象に興味がある。知的な個体とは環境中で自ら考え能動的に行動し、変化する状況にも柔軟に対処していくような自律個体であり、ここではエージェントと呼ぶ。複数のエージェントからなるマルチエージェントシステムにおいて協調作業や競合動作といった社会現象の一部を観察したい。

個々のエージェントは環境中での自分の状態を知覚し、それに基づき行動する。与えられた仕事に対し、成功した、或いは失敗したといった情報に基づき、試行錯誤を繰り返しながら適切に行動を選択するよう学習していく。このような学習手法は強化学習と呼ばれる。強化学習のアルゴリズムの多くは環境が離散であることを仮定している。一方、現実環境では状態は連続であり、とる行動も連続値であることが考えられる。本研究ではそのような場合にも適用出来るよう、アルゴリズムを拡張した。

提案したアルゴリズムを評価するため、動きまわる獲物を二体のエージェントが協力して捕まえる追跡問題を考え、実験する。また、提案したアルゴリズムの問題点を解決するアルゴリズムを紹介し、その評価として追いかけるエージェントと逃げるエージェント一体ずつからなる問題を考え、実験を行う。