線形ベルマン方程式に基づくロボット制御 ~ システム同定と指数価値関数近似 ~

金城 健(09051040)


一般に最適制御則を求めるためには非線形なBellman方程式を解く 必要がある。これに対しTodorovらはコスト関数の形式に制限を加える ことでこれを厳密に線形化し、固有値問題に帰着して解析的に 価値関数そして最適制御則を導出する手法を提案した。

この手法を連続状態空間において適応する 際には固有関数を解く問題となるが、既にTodorovにより 関数近似を用いることで固有関数を導出する手法が示されている。

これら手法は、連続状態空間での非線形なダイナミクスもつシステムに対して 制御量を出力する最適制御則を得られる点で、ロボット制御の応用に適したもの であるが、前提条件としてシステムのダイナミクス が既知と仮定している。実機において、それらが既知であることは稀である。

本論文では状態と行動の系列からシステムのダイナミクスを推定し、 それに基づき最適制御則を求める方法を提案する。 そして、非線形なダイナミクスもつタスクのシミュレーションの結果から、 モデル化誤差が最適制御則の性能に与える影響について考察し、 実ロボットへの適用可能性について議論する。