統計的学習法に基づく連続力学システムの強化学習

吉本 潤一郎 (9851131)


本発表では,状態および行動の空間が連続である力学システムに対する 新しい強化学習法を提案する. 提案する強化学習法はactor-criticアーキテクチャを用いて学習が行われる. criticは現在の状態と行動の組に対する将来の期待報酬(Q関数)を近似する. actorはQ関数値が大きい行動ほど高い確率で選択される確率的行動関数を近似する. actorとcriticはともに正規化ガウス関数ネットワークによって近似され, オンラインEMアルゴリズムを用いて学習が行われる. 性能を調べるために,本手法を2つの最適制御問題に応用した. 結果として,本手法が少ない試行回数から良い制御を獲得できることが示された.