ヒューマノイドロボットのための接触による制約を使った動作学習手法

中山 拓也 (1251078)


ロボットの動作を自律的に学習する仕組みが必要とされている.ロボットに何らかのタスクを行わせるには目的を達成する制御則を教示する必要があるが,環境との接触を伴うようなタスクをロボットに行わせる場合,接触時の摩擦,反力,対象物までの距離の誤差などモデル化が難しい場合があり,人が動作を作りこむことを難しくしている.接触を伴うタスクをロバストに達成するために制御に接触情報を用いる研究が行われており,接触のモデル化を必要としない強化学習による動作学習はこの問題へのアプローチの1つである.

本研究では接触情報を動作の制約に用いることで動作学習のパフォーマンスを改善することを目的とする.ここで,動作の目的であるゴールタスクと動作の制約では学習するべき方策が異なることから,それぞれに適した学習器があると考えられる.そこで,強化学習におけるゴールタスクと制約の分離学習を行い,それぞれの状態行動価値の学習に適した学習器を用いることで,学習のパフォーマンスを改善する方法を提案する.

提案する学習手法を制約付き迷路問題と,接触による制約を設けたロボットの立ち上がりタスクで評価する.

発表では行った予備実験について簡単に説明したのち,制約の学習手法について説明する.その後,迷路問題とロボットの立ち上がりタスクで行った評価実験について説明する.