状態空間を自律的に構成する連続値強化学習法

武田 政宣 (9951067)


強化学習は,ロボットが環境に適応した行動を 自律的に獲得する手法として,近年注目を集めている. 強化学習では状態空間と行動空間を離散化する必要がある. そのため,センサの分解能を無駄にしており, ロボットの動作が滑らかではなかった. 強化学習のなかでも最も広く用いられている Q-learningではセンサ出力とモータコマンド, それぞれを離散化した状態と行動の組に対して 不連続なQ値を持つ. しかし,実際にはセンサ出力やモータコマンドは 連続値をとなるため, それらに対して連続なQ値を持つと考えられる.
そこで,ニューラルネットワークや関数近似の手法を用いて 状態,行動,Q値を連続値として扱う強化学習法が 数々提案されている. これらの手法は,連続な状態に対して最適行動は連続であるという 仮定のもとで議論されている. しかし,実際にはその仮定が成り立たない状態が存在する. この状態において補間などにより 連続な行動出力を得ようとすると, 不適切な行動となることがある. これを「最適行動の不連続問題」と呼ぶ.
本研究では線形近似により状態,行動,Q値を 連続値として扱うことができる ~Continuous~Valued~ Q-learning~ を用いて, 状態空間を適切に構成することによって 最適行動の不連続問題に対処できる 強化学習法を提案する.

あとは、自由に HTML でつくってもらって結構です。なお、全体の分量として は、このページをプリントアウトした時に、A4 一枚程度になるようにしてく ださい。