複数の制御器の系列学習法による非線形制御

西村 政哉(0251089)


近年、強化学習によって非線形力学系に対する制御器を自律的 に設計する試みが行われている。 なぜなら、強化学習は制御対象の力学系が未知であっても制御則を獲得でき、 動的に変化する環境に対しても追従可能だからである。 しかしながら、 制御対象が強い非線形性を持ち制御変数が高次元である場合には、 関数近似器の性能に依存して学習が不安定になったり、 莫大な試行回数が必要となったりする。 このことが実機への応用を困難にしている。

本研究では、 この問題点を解決することを目指して、 実問題であるていど制御対象のダイナミクスが既知である場合を想定し、 不完全制御器を利用した強化学習法を提案する。 ここで、不完全制御器とは システムの部分線形化や経験則によって 設計された制御器で、それ単体では大域的な制御を行なう能力 を有しない制御器のことを指す。

検証実験として、単振子とacrobotの倒立制御課題に 本手法を適用した。 ここで、acrobotとは第二リンクの間接にのみアクチュエータ を持つ二重振子のことであり、強い非線形性をもった制御課題で ある。 この結果、各部分空間において適切な制御器が選択されるようになり、 非線形力学系に対しても良い制御を実現できることが示された。