そこで強化学習を用いて協調作業を獲得するといった研究が最近多くなされて いる.強化学習を用いる利点は環境が複雑であってもロボットが試行錯誤 することにより、最適な行動を獲得できる事である.しかし、従来の研究では行 動として前進・後退・回転など簡単な行動しか出力していない.これは強化学習の 出力が離散的なためロボットの移動速度などを出力する事が不可能だからである. そのため、そのような行動出力ではゴミ拾いなどの単純なタスクでは十分である かも知れないが、ロボットサッカーのようなパス・シュートなど複雑な動きが 要求されるタスクでは不十分であると考えられる.
本研究では強化学習の出力を従来研究のような簡単な行動ではなくシュー ト・パス・移動など抽象的な行動とし、その行動と状態により行動を達成するた めの速度を出力するという階層型の行動生成を提案する.本手法を用いる事によ り複雑な環境でも最適な行動が獲得できる強化学習の長所を残しつつ、移動速度 を最終的に出力できるため、細かい動きをロボットに行なわせる事が可能となっ ている.