早川 充洋(0151082)
強化学習は,即時報酬の時間累積和を最大化するような行動系列を,試行錯
誤を通して獲得する学習の枠組みである.明示的な教師を必要としない学習
法であるので,教師が与えられないような未知の問題にも適用が可能である.
一方で,強化学習では,多くのサブゴールが存在するような,比較的複雑な
タスクにおいては状態空間の爆発がおこり,望ましい学習性能が得られない.
このようなタスクに対しては,学習器の階層化や,学習に適した状態分割を
行うことで学習効率の向上が見込まれる.本研究では,複数のサブゴールが
存在する環境に対し,状態空間の分割と学習器の階層化を,自律的に達成す
る手法を提案する.提案モデルは,複数の強化学習モジュールとそれらの統
合部からなる階層型強化学習器において,進化的手法により,各学習モジュー
ルへの部分問題割り当てと,各部分問題に関する状態空間分割を自律的に行
う.提案モデルの概要と,それを用いて行なった計算機シミュレーショ
ン結果について発表する.