方策勾配法に基づく強化学習法と二足歩行ロボット制御への応用
森 健 (0251153)
強化学習法をロボット制御などの実問題に対して適用することは困難であ
る。高次元のシステムに対して強化学習法を適用する場合、高次元の状態行動空
間上の価値関数を正確に近似する必要がある。しかし、高次元空間での関数近
似は一般に難しい。
この問題を解決するために、
近年、方策空間に射影された低次元の価値関数を用いて学習を行う「方策勾配法に基づく
actor-critic法」が開発された。
この手法では、低次元の空間において価値関数の近似を行うため、価値関数の学
習が比較的容易であり、多くの実問題に対して有用であると考えられる。
高次元の状態空間を持つシステムである、生物を規範とした
ロボット制御機構であるCPGコントローラに対する強化学習法として、CPG-actor-critic
モデルがある。このモデルは従来の価値関数に基づいた強化学習法であり、学習
が困難な高次元で非線型な価値関数を近似する必要がある。
本論文では、CPG-actor-criticモデルに、比較的容易に学習できる低次元で線形
な価値関数を用いる「方策勾配法に基づくactor-critic法」を
適用した。二足歩行ロボットに対するシミュレーション実験を行い、
高次元のシステムの強化学習に対して提案手法が有効であることを示す。