複数の状態予測と報酬予測モデルによる強化学習と行動目標の推定

杉本 徳和 (0151054)


強化学習により行動則を獲得するためには一般に膨大な時間を要する.さらに,環境が非定常に切り替わる場合は,そのたびに学習を最初からやり直さなくてはならない.そこで複数個のモジュールにより環境を文節化し,それらのスイッチングにより複雑なタスクを実行する制御アルゴリズムの提案を行なった.

本発表では強化学習の一般的な説明と提案アルゴリズムの説明を行ない,非線形・非定常な制御問題として行動の目標が試行の途中で切り替わる単振子の振り上げの成功例を示し,その後より複雑なCart Poleの振り上げ成功例をしめす. また,提案手法により,見まね制御が可能である事もしめす.