自然TD学習:割引報酬におけるTD誤差を利用した自然方策勾配に基づいた強化学習法

森村哲郎 (0351202)


近年,環境との相互作用を通じて学習する手法である強化学習が注目されている.パラメー タ空間がリーマン構造であっても自然勾配は最急勾配方向を表すため,自然方策勾配に基づいた強化学習 は特に強力なツールになり得る.しかし,自然勾配法を実問題に適用するには3つ問題がある.1つは目 的関数が平均報酬の場合のみに制限されるため,割引報酬の場合に比べ学習に時間がかかる.2つめは入 力の分布を知る必要があるため膨大なサンプル数が必要になる.3つめは逆行列を計算する必要があるこ とである. 本論文では,初めに割引報酬における方策勾配の理論を定式化する.次に効率的な自然方策勾配法として 自然時間差分学習(自然TD学習)を提案する.自然TD学習では状態価値関数のTD誤差を状態空間ではな く状態行動空間で定義する.この時のTD誤差はBairdにより提唱されたアドバンテージ関数をコードするこ とを証明し,さらにTD誤差を推定した線形近似器が自然勾配を与えることを示す.また,自然TD学習を状 態マルコフ決定問題及び倒立振子問題のシミュレーション実験に適用して,有用性を示す.