ガウス過程方策を用いた方策探索とロボットによる布操作タスクへの適用

小澤裕斗 (1651028)


近年, 経験データから試行錯誤を通して行動を最適化する手法として, 強化学習が注目を浴びている. 特に, 不確実な環境下でロボットが知的かつ頑健にタスクを遂行するためには, ロボットや環境のシステムといった未知のモデルを確率モデルで表現する必要があるため, 強化学習による研究が数多く行われている. しかし, ロボットの状態は多くの場合, 連続かつ高次元であるため, 強化学習をロボットの運用に適用するのは容易ではない.

そこで, 本研究では, 強化学習の中でも連続かつ高次元な状態を扱える, ガウス過程方策を用いた方策探索を提案する. 具体的には, 2つの手法を提案する. 1つ目に, データの効率的使用と過学習の回避を目標に, スパースガウス過程方策を用いた変分推論法を提案する. 2つ目に, ガウス過程方策の単峰性という課題を解決するために, 重複混合ガウス過程方策を用いた方策探索を提案する.

まず, 2つの提案法それぞれに対して, 複数のシミュレーションを行い, 提案法の有効性を確認する. 次に, 実機実験として, 4つ折りに折りたたまれた布の展開タスクを行い, 提案法のロボット制御への有効性を確認した.