鈴山 博史 (0251052)
ロボットに目的の行動を獲得させる手法として強化学習がある.強化学習では,
状態に対する正解行動を明示的に与えるかわりに,報酬と呼ばれるスカラーの評価値を与える.
学習者は環境とのインタラクションを通して,積算報酬を最大化するような
行動を獲得することができる.ただし学習がうまく進むためには,
適切な報酬関数をとメタパラメタを設計する必要があり,
従来は設計者が試行錯誤を通してそれらを与えていた.
本研究では,強化学習に用いる報酬関数とメタパラメタの影響について検討する.
移動ロボットの行動獲得の問題に対して,報酬関数とメタパラメタの違いが
強化学習に与える影響について調査する.