NAIST-IS-MT9851120: Yoshihide Yamashiro

遅れ報酬に基づく遺伝的アルゴリズムによる部分観測マルコフ決定問題の解決手法

山城啓秀 (9851120)

強化学習が扱う環境は通常マルコフ性が仮定されている環境で行うことが多い。しかし，実際にはエージェントの知覚が完全に状態を観測できるとは限らず，そのような場合マルコフ性が成り立たなくなることが多い。このような知覚の見せかけ問題が起きるとエージェントは違った状態を同一の状態として観測してしまう場合があり，このような環境では，エージェントはタスクを解くことが困難となる。

本研究ではそのような知覚の見せかけ問題を伴う部分観測マルコフ決定問題 (ＰＯＭＤＰ)を解決する手法として「遅れ報酬に基づく遺伝的アルゴリズム (Delayed Reward-based Genetic Algorithm , ＤＲＧＡ)」を開発した。ＤＲＧＡはエージェントを複数のサブエージェントに分割し，タスクをサブタスクに分割することで，知覚の見せかけ問題を解決する。サブタスクに分割する部分を遺伝的アルゴリズム(ＧＡ)を用い，サブタスクに分割された領域の遷移を強化学習を用いる。

生物が環境中で生存するための行動には遺伝による先天的な行動と，その行動の組み合わせで環境に適応する動作を獲得する後天的な学習がある。本論文ではこのような先天的行動，後天的学習をそれぞれＧＡ，強化学習で表現し組み合わせることで効果的な行動系列を獲得することを実現した。

エージェントは複数ある政策から環境に適した政策系列を遅れ報酬に基づき，より環境に適応できる系列を学習する。政策自体はその学習結果よりＧＡを用いて進化させる。ＤＲＧＡはエージェントの知覚を制限したグリッド空間における迷路走破問題で部分観測マルコフ決定問題に対する有効性を確認した。

遅れ報酬に基づく遺伝的アルゴリズムによる部分観測マルコフ決定問題の解決手法

山城 啓秀 (9851120)

山城啓秀 (9851120)