ガウス過程を用いた能動サンプリングに基づく強化学習法

竹田和博 (0651061)


強化学習法には方策を改善するために多くのサンプルを生成する必要があり、実 ロボットなどの制御対象を実際に学習する場合、故障や手間などの問題が生じる。 強化学習法で多くのサンプルが必要になる原因の一つとして、学習エージェント が従う方策から受動的にサンプルを生成しなければならないという問題がある。 そこで、能動的にサンプリングする強化学習法が望まれる。この論文では、ガウ シアンプロセスに基づいて能動サンプリングを行う新しい強化学習法を提案する。 これにより方策改善に必要なサンプルが減ることを示す。