遅れ報酬に基づく遺伝的アルゴリズムによる部分観測マルコフ決定問題の解決手法

山城 啓秀 (9851120)


強化学習が扱う環境は通常マルコフ性が仮定されている環境で行うことが多い。 しかし,実際にはエージェントの知覚が完全に状態を観測できるとは限ら ず,そのような場合マルコフ性が成り立たなくなることが多い。このような知覚 の見せかけ問題が起きると エージェントは違った状態を同一の状態として観測してしまう場合があり,この ような環境では,エージェントはタスクを解くことが困難となる。

本研究ではそのような知覚の見せかけ問題を伴う部分観測マルコフ決定問題 (POMDP)を解決する手法として「遅れ報酬に基づく遺伝的アルゴリズム (Delayed Reward-based Genetic Algorithm , DRGA)」を開発した。 DRGAは エージェントを複数のサブエージェントに分割し,タスクをサブタス クに分割することで,知覚の見せかけ問題を 解決する。 サブタスクに分割する部分を遺伝的アルゴリズム(GA)を用い,サブタ スクに分割された領域の遷移を強化学習を用いる。

生物が環境中で生存するための行動には遺伝による先天的な行動と,その行動の 組み合わせで環境に適応する動作を獲得する後天的な学習がある。本論文ではこ のような先天的行動,後天的学習をそれぞれGA,強化学習で表 現し組み合わせることで効果的な行動系列を獲得することを実現した。

エージェントは複数ある政策から環境に適した政策系列を遅れ報酬に 基づき,より環境に適応できる系列を学習する。政策自体はその学習結果より GAを用いて進化させる。 DRGAはエージェントの知覚を制限したグリッド空間 における迷路走破問題で部分観測マルコフ決定問題に対する有効性を確認した。