早川 充洋(0151082)


強化学習は,即時報酬の時間累積和を最大化するような行動系列を,試行錯 誤を通して獲得する学習の枠組みである.明示的な教師を必要としない学習 法であるので,教師が与えられないような未知の問題にも適用が可能である. 一方で,強化学習では,多くのサブゴールが存在するような,比較的複雑な タスクにおいては状態空間の爆発がおこり,望ましい学習性能が得られない. このようなタスクに対しては,学習器の階層化や,学習に適した状態分割を 行うことで学習効率の向上が見込まれる.本研究では,複数のサブゴールが 存在する環境に対し,状態空間の分割と学習器の階層化を,自律的に達成す る手法を提案する.提案モデルは,複数の強化学習モジュールとそれらの統 合部からなる階層型強化学習器において,進化的手法により,各学習モジュー ルへの部分問題割り当てと,各部分問題に関する状態空間分割を自律的に行 う.提案モデルの概要と,それを用いて行なった計算機シミュレーショ ン結果について発表する.