動的な部分空間生成による価値の逐次推定を行う強化学習法

南條信人 (0651082)


強化学習では、価値関数の近似を行う際に、基底関数の設計が重要となる。基底関数の設計が悪いと、 漸近的に残る価値関数の近似誤差により、方策の収束が保証されなくなる。この問題を解決するために 近年基底関数により張られる部分空間を自動的に生成する手法が提案されたが、価値関数を更新するごとに 基底関数が増加し、パラメータ最適化問題が複雑化するという問題を抱えている。 我々は、逐次的な部分空間生成法を導入することにより、この問題を解決した。