価値関数の分解による高速な強化学習法の提案

下谷篤史(0351064)


マルコフ決定過程 (MDP)において, 状態空間が高次元空間であるとき,価値関数の計算は困難となる. 従来,価値関数を入力が低次元である複数の関数に分解することで, 価値関数を高速に計算する手法が,いくつか提案されている. しかし,どのようなMDPにおいて, どのように価値関数を分解すれば, 良い近似が得られるかについては, 明らかではないため, これらの手法の適用範囲は限られる. そこで,本発表では,新しい価値関数の分解法を提案し, さらに,いくつかのMDPのクラスにおいて, その手法による近似の良さについて調べる. その解析に基づき,連続の状態行動空間を持つMDPにおいて, MDPが望ましい性質を満たすように,適応的に状態変換を決定することで, 価値関数の分解による近似を向上させる. 最後に,振り子の振り上げタスクのシミュレーションにおいて, 提案手法を用いて高速で安定した振り上げ学習ができることを示す.