近傍成分分析による行動指向的状態表現の獲得

大塚 誠 (0551028)


強化学習に用いる状態表現を自動獲得する手法は理論面,応用面ともに重要性が高い. 本研究では,予測最適行動をラベルとして用いた近傍成分分析により, 強化学習を行う低次元空間を自動的に構築する手法を提案する. また,近傍成分分析でタスクに適した距離計量を自動的に求めることにより, 低次元空間での学習手法として採用した実例に基づく強化学習で問題となるカーネル幅の設定問題を解決できることを示す. 最後に,シュミレーション実験で異なる次元圧縮手法を比較し, 提案手法ではタスクを解くために必要な特徴を引きのばし, 効率的な強化学習を行うための状態表現を自動的に構築していることを示す.