NAIST-IS-MT0451041): Takumi Kamioka 複数の価値関数を用いた多目的強化学習
上岡 拓未 (0451041)
強化学習は問題についての正確な知識を必要としないことからロボットの制御な ど多くの分野において応用が期待されている.強化学習に関するこれまでの多く の研究は単一問題の最適化として定式化されていた.すなわち,一つの目的関数 の最大化もしくは最小化する方策の獲得を目指している.しかし,実世界の問題 では一つの目的関数で表せない問題が多く存在する. 本研究では多目的最適化問題に対する強化学習法を提案する.複数の目的関数に 対して一つの価値関数を学習するのではなく,目的毎に報酬関数を設計すること で各目的に対する価値関数を学習し,それらのPareto最適解を得るというアプロー チをとる.学習アルゴリズムはActor-Criticアルゴリズムを複数の価値関数に拡 張した手法を用いる.Criticの複数の価値関数から求められるTD誤差を用いて Actorを更新することにより,複数の問題を最適化する方策を獲得する.Actorを 更新するために複数のTD誤差のスカラー化関数として,Min-max法と加重平均法 を用いた.生存条件が複数の報酬関数で与えられるシミュレーション実験によっ て,これらの手法の性能と各目的関数間の報酬スケールのロバスト性について検 証する.