見かけ上の誤差に頑健な方策転移学習

則永 悠 (1651088)


近年,画像と行動の規則である方策の対応を学ぶend-to-endな強化学習が注目を集めている.
実環境での学習は高コストなため, シミュレーションで学習した方策を実環境に転移したい.
しかし,シミュレーションと実環境間の見かけ上の誤差により, end-to-endな方策を実環境に転移することは難しい.
本研究では, シミュレーションで学習をしたend-to-endな方策を, 実環境に転移する手法の提案を目標とする.
シミュレーションと実環境に 共通する特徴量で制御するよう学習することで, 実環境画像を入力しても制御性能が劣化せず, シミュレーションから実環境へ方策を転移することが出来ると考えられる.
本研究では, シミュレーションと実環境の見かけ上の誤差と 方策の性能低下に頑健な特徴量を抽出し, 抽出された特徴量で シミュレーションで学習を行うことで, 実環境に転移可能な方策を 学習する手法を提案した.
特徴量抽出の付加的な基準として,データの分散の保存と報酬値と特徴量の相関の保存の2種類を提案した. シミュレーションで双腕ロボットによるリーチングタスクを学習し,実環境に転移する実験で提案手法の有効性の検証を行い, データの分散を保存するよう特徴抽出する提案法の有効性を確認した.
発表では,問題解決の着想について説明し,その着想を実現する要素技術について説明する.
次いで,提案法の概要について説明し,有効性を確認するために行った実験について述べる.