本研究ではそのような知覚の見せかけ問題を伴う部分観測マルコフ決定問題 (POMDP)を解決する手法として「遅れ報酬に基づく遺伝的アルゴリズム (Delayed Reward-based Genetic Algorithm , DRGA)」を開発した。 DRGAは エージェントを複数のサブエージェントに分割し,タスクをサブタス クに分割することで,知覚の見せかけ問題を 解決する。 サブタスクに分割する部分を遺伝的アルゴリズム(GA)を用い,サブタ スクに分割された領域の遷移を強化学習を用いる。
生物が環境中で生存するための行動には遺伝による先天的な行動と,その行動の 組み合わせで環境に適応する動作を獲得する後天的な学習がある。本論文ではこ のような先天的行動,後天的学習をそれぞれGA,強化学習で表 現し組み合わせることで効果的な行動系列を獲得することを実現した。
エージェントは複数ある政策から環境に適した政策系列を遅れ報酬に 基づき,より環境に適応できる系列を学習する。政策自体はその学習結果より GAを用いて進化させる。 DRGAはエージェントの知覚を制限したグリッド空間 における迷路走破問題で部分観測マルコフ決定問題に対する有効性を確認した。