強化学習による系列運動の獲得: 起立運動学習
森本 淳(9651114)
本研究では系列運動を実現するための制御則を強化学習に基づいて
獲得する方法の提案を行う.
ここで言う系列運動とは一連の制御出力を適切な
順序で出力することで初めて達成されるような運動のことである.
系列運動の中でも特に非定常な運動に着目し,
その運動を非線形力学系において獲得することを目指す.
さらに, 従来強化学習で扱われてきた系よりも
高次元の状態空間を持つ系において運動獲得を行うことを目標とする.
本研究では上述のような運動の例として起き上がり運
動を取り上げる. 具体的には人間の身体の形を単純化した3リンク
2関節を持つロボットをシミュレーション上で動作させる. このロ
ボットが地面に水平に倒れている状態から、地面に鉛直に立った状
態になるまでの運動系列の獲得を行う.
運動の獲得方法としては強
化学習アルゴリズムの一つであるTemporal Difference学習に基づ
いて行う. また学習を行うためには, 3リンク2関節のロボットの
持つ高次元連続状態空間中の関数を近似する必要がある. そこで,
そのための効率的な関数近似法の検討を行う.
またさらに, より学習を効率的
に行うための手法として,
サブゴールを用いた強化学習法について検討する.