NAIST-IS-MT1651073: Yoshihisa Tsurumine

生画像を入力とするサンプル効率の良い深層強化学習と双腕ロボットによる衣類操作への応用

鶴峯義久 (1651073)

画像等の高次元情報を入力とした方策を学習できる深層強化学習は様々なシミュレーションタスクに適用され，多くの成功を収めている．先行研究ではTVゲームや囲碁や将棋等のボードゲームに適用し，人間のプロフェッショナルと同等かそれ以上のパフォーマンスを発揮した．この様な深層強化学習を実ロボットに適用することにより，人間にしかできなかった複雑な作業をロボットに代替させることが期待されている．しかし，従来の深層強化学習の多くは学習に膨大なサンプルが必要であるため，実際の行動を通してデータのサンプルを行う実ロボットに適用することは困難である．

本研究ではサンプル効率の良い深層強化学習アルゴリズムを提案し，画像を入力とした行動方策を実ロボットに学習させる．限られたサンプル数から安定した学習が可能な動的方策計画と深層学習を組み合わせた深層動的方策計画を提案する．さらに，サンプル効率を向上させるために，提案手法に適した深層ネットワーク構造とノンエキスパートから収集したサンプルを用いた初期化手法を提案する．

提案手法の性能を調べるため，N関節アームによる位置制御のシミュレーションを実施し従来手法と比較した．実機実験では提案手法を双腕ロボットに適用し，従来手法より少ないサンプル数で布の裏返しタスクを学習できることを確認した．シャツ折り畳みタスクではより複雑なタスクが学習可能か検証した．

生画像を入力とするサンプル効率の良い深層強化学習と双腕ロボットによる衣類操作への応用

鶴峯 義久 (1651073)

鶴峯義久 (1651073)