非定常環境におけるモジュール強化学習法

日栄 悠 (0751097)


実世界の環境は一般に非定常であり,最適制御は時間によって変化する. このような制御を,定常なマルコフ決定過程を仮定する強化学習を用いて学習することは,困難である.

近年,非定常環境を複数の定常環境と仮定,分割し,そのそれぞれを制御器と予測器の対から構成されるモジュールにより制御する強化学習法が銅谷らにより提案された.しかし,時間によって変化するタスク分割は潜在的に不安定であり,この不安定性を解消する新たなメカニズムが必要である.

本研究では,予測器の学習に斥力の働く自己組織化構造を導入,タスク分割の安定化を図り,制御器の学習に方策勾配法を導入し,累積報酬最大化基準の下での妥当な最適化を図る.また,非定常環境を表現する最適なモジュール数に対しモジュールの過不足がある場合,学習の遅延や制御の悪化が引き起こるため,獲得出来る状態行動系列を基に変分ベイズ法による最適モジュール数の探索を行うモデルを提案する.環境分割が困難な非定常n本腕バンディット問題により,提案手法が従来手法よりも高速,かつ,安定した学習を実現できることを示す.