NAIST-IS-MT0051046: Toshimitsu Shibayama

インクリメンタルサポートベクターマシンによる価値関数の学習

芝山敏満 (0051046)

本研究では，サポートベクターマシンを使って二人ゼロ和複数期間ゲームの価値関数を学習する上で，学習データ数が多い場合に従来よりもメモリ使用量の少ない学習法を提案する．

強化学習における価値関数をカーネルトリックを使って近似的にバッチ学習する手法が研究されている．この手法を使うと価値関数を，より少ないメモリーで表現することができた．しかし，この手法を学習データ数の多いタスクに適用すると，計算の途中過程で，非常に多くのメモリが必要になるため，学習データ数の多いタスクに適用させることは困難であった．

本研究では，追加学習が可能であるインクリメンタルサポートベクターマシンを用いて価値関数を学習することでメモリ使用量を減らす手法を提案する．また，この手法によってオンライン学習が可能となる．本研究では，この手法をTic-Tac-Toeに適用し，その有用性を示す．