強化学習における価値関数を カーネルトリックを使って近似的にバッチ学習する手法が研究されている. この手法を使うと価値関数を,より少ないメモリーで表現することができた. しかし,この手法を学習データ数の多いタスクに適用すると, 計算の途中過程で,非常に多くのメモリが必要になるため, 学習データ数の多いタスクに適用させること は困難であった.
本研究では,追加学習が可能であるインクリメンタルサポートベクターマシ ンを用いて価値関数を学習することでメモリ使用量を減らす手法を提案する. また,この手法によってオンライン学習が可能となる. 本研究では,この手法をTic-Tac-Toeに適用し,その有用性を示す.