Sasaki Hikaru

複雑報酬における変分スパースガウス過程方策探索

佐々木光 (1751049)

近年，ロボットの行動則である方策を試行錯誤データから学習する手法として方策探索が注目されている．特に，ガウス過程回帰やカーネル回帰などのノンパラメトリック手法を方策モデルとして用いたノンパラメトリック方策探索は高次元で冗長なセンサ入力を扱う方策を学習することができる．しかし，ノンパラメトリック方策探索は方策モデルに制限があるため，有効性が比較的報酬が単純である場合に限られる．そのため，報酬が複雑なタスクに応用すると方策の性能が劣化する可能性がある．本研究では，1)多峰性を持つ報酬，2)ノイズを持つ報酬の2つの複雑な報酬に着目し，それぞれの複雑な報酬におけるノンパラメトリック方策探索を提案する．方策モデルとしてスパース化によってガウス過程の計算量を削減したスパースガウス過程を用いる． 1)の複雑な報酬のために，多峰性ガウス過程方策探索を提案する．この手法は方策モデルを複数のスパースガウス過程に拡張することで多峰性を捉えることができる方策を学習する．また，2)の複雑報酬に対してロバストガウス過程方策探索を提案する．この手法では方策を学習するためにスチューデントのt分布を尤度関数として用いる． 2つの提案法の更新則は変分推論に基づいて閉形式で導出することができる．それぞれの手法をシミュレーションによる複数のロボットタスクに複雑な報酬に対する提案法の有効性を確認した．また，画像に基づく高次元特徴量を状態としたロボットタスクへの有効性も確認した．