NAIST-IS-MT0451041): Takumi Kamioka

複数の価値関数を用いた多目的強化学習　

上岡　拓未 (0451041)

強化学習は問題についての正確な知識を必要としないことからロボットの制御など多くの分野において応用が期待されている．強化学習に関するこれまでの多くの研究は単一問題の最適化として定式化されていた．すなわち，一つの目的関数の最大化もしくは最小化する方策の獲得を目指している．しかし，実世界の問題では一つの目的関数で表せない問題が多く存在する．本研究では多目的最適化問題に対する強化学習法を提案する．複数の目的関数に対して一つの価値関数を学習するのではなく，目的毎に報酬関数を設計することで各目的に対する価値関数を学習し，それらのPareto最適解を得るというアプローチをとる．学習アルゴリズムはActor-Criticアルゴリズムを複数の価値関数に拡張した手法を用いる．Criticの複数の価値関数から求められるTD誤差を用いて Actorを更新することにより，複数の問題を最適化する方策を獲得する．Actorを更新するために複数のTD誤差のスカラー化関数として，Min-max法と加重平均法を用いた．生存条件が複数の報酬関数で与えられるシミュレーション実験によって，これらの手法の性能と各目的関数間の報酬スケールのロバスト性について検証する．

複数の価値関数を用いた多目的強化学習

上岡 拓未 (0451041)

複数の価値関数を用いた多目的強化学習　

上岡　拓未 (0451041)