状態空間を自律的に構成する連続値強化学習法
武田 政宣 (9951067)
強化学習は,ロボットが環境に適応した行動を
自律的に獲得する手法として,近年注目を集めている.
強化学習では状態空間と行動空間を離散化する必要がある.
そのため,センサの分解能を無駄にしており,
ロボットの動作が滑らかではなかった.
強化学習のなかでも最も広く用いられている
Q-learningではセンサ出力とモータコマンド,
それぞれを離散化した状態と行動の組に対して
不連続なQ値を持つ.
しかし,実際にはセンサ出力やモータコマンドは
連続値をとなるため,
それらに対して連続なQ値を持つと考えられる.
そこで,ニューラルネットワークや関数近似の手法を用いて
状態,行動,Q値を連続値として扱う強化学習法が
数々提案されている.
これらの手法は,連続な状態に対して最適行動は連続であるという
仮定のもとで議論されている.
しかし,実際にはその仮定が成り立たない状態が存在する.
この状態において補間などにより
連続な行動出力を得ようとすると,
不適切な行動となることがある.
これを「最適行動の不連続問題」と呼ぶ.
本研究では線形近似により状態,行動,Q値を
連続値として扱うことができる
~Continuous~Valued~ Q-learning~ を用いて,
状態空間を適切に構成することによって
最適行動の不連続問題に対処できる
強化学習法を提案する.
あとは、自由に HTML でつくってもらって結構です。なお、全体の分量として
は、このページをプリントアウトした時に、A4 一枚程度になるようにしてく
ださい。