見かけ上の誤差に頑健な方策転移学習
則永 悠 (1651088)
近年,画像と行動の規則である方策の対応を学ぶend-to-endな強化学習が注目を集めている.
実環境での学習は高コストなため,
シミュレーションで学習した方策を実環境に転移したい.
しかし,シミュレーションと実環境間の見かけ上の誤差により,
end-to-endな方策を実環境に転移することは難しい.
本研究では,
シミュレーションで学習をしたend-to-endな方策を,
実環境に転移する手法の提案を目標とする.
シミュレーションと実環境に
共通する特徴量で制御するよう学習することで,
実環境画像を入力しても制御性能が劣化せず,
シミュレーションから実環境へ方策を転移することが出来ると考えられる.
本研究では,
シミュレーションと実環境の見かけ上の誤差と
方策の性能低下に頑健な特徴量を抽出し,
抽出された特徴量で
シミュレーションで学習を行うことで,
実環境に転移可能な方策を
学習する手法を提案した.
特徴量抽出の付加的な基準として,データの分散の保存と報酬値と特徴量の相関の保存の2種類を提案した.
シミュレーションで双腕ロボットによるリーチングタスクを学習し,実環境に転移する実験で提案手法の有効性の検証を行い,
データの分散を保存するよう特徴抽出する提案法の有効性を確認した.
発表では,問題解決の着想について説明し,その着想を実現する要素技術について説明する.
次いで,提案法の概要について説明し,有効性を確認するために行った実験について述べる.