NAIST-IS-MT0651132: Yamaguchi Akihiko

回避行動の再利用メカニズムを備えた強化学習手法と多関節ロボットの全身運動学習への応用

山口明彦 (0651132)

運動学習によって動作の目的のみからそれを実現する動作を自律的に獲得するとき，動作がジャンピング・サーブのように複雑になると膨大な学習コスト（転倒によるダメージなど）や学習時間が掛かる．これを人間のように効率的に行うには，過去に学習した動作知識の「再利用」が不可欠である．本研究では行動価値関数の分離学習によって強化学習に再利用メカニズムを導入することを提案する．これによりタスク非依存だと考えられる転倒回避などの「回避行動」が本来のタスクから分離して獲得され，回避行動を学習した行動価値関数が新たなタスクの学習で再利用されるようになる．さらにこの手法をロボットの全身運動学習に応用する．手法の有効性を示すために格子状空間・2次元連続平面での移動タスク，及び4リンクロボットによる跳躍・サーブ動作の学習に適用し，シミュレーション実験を行った．この結果，移動タスクでは回避行動の再利用により新たなタスクの学習で取るべきでない行動が大幅に避けられるようになり，全身運動学習では跳躍で分離学習した転倒回避行動を再利用してサーブを学習することで，再利用しない場合に比べて学習中の転倒ダメージの合計が半減した．