本研究では接触情報を動作の制約に用いることで動作学習のパフォーマンスを改善することを目的とする.ここで,動作の目的であるゴールタスクと動作の制約では学習するべき方策が異なることから,それぞれに適した学習器があると考えられる.そこで,強化学習におけるゴールタスクと制約の分離学習を行い,それぞれの状態行動価値の学習に適した学習器を用いることで,学習のパフォーマンスを改善する方法を提案する.
提案する学習手法を制約付き迷路問題と,接触による制約を設けたロボットの立ち上がりタスクで評価する.
発表では行った予備実験について簡単に説明したのち,制約の学習手法について説明する.その後,迷路問題とロボットの立ち上がりタスクで行った評価実験について説明する.