現在の移動ロボットにおける主な強化学習手法は,入力状態が変化した時に報酬を一定の割合で割り引いて分配することで,行動政策を得ている.この固定した割引計算はアルゴリズムとして単純であるが,状態空間の分割の仕方によって同じ状態の評価値が全く異なる値となってしまうので,状態空間の再構成を適用できない.移動ロボットが行動するとき,目標状態までにかかる時間は状態空間の分割の仕方に関らず一定である.そこで,行動による時間経過を利用すれば,状態遷移にかかる時間を報酬の割引計算に組み込むことで実空間上の同じ位置における評価値は一定となる.
本提案手法は状態遷移にかかる時間,「遷移時間」を適用し割引率の時間関数化によって状態空間の再構成を可能にする.本提案手法の有効性を示すため,初めに提案手法と従来手法であるQ-learningとの比較を行う.次に提案手法の強化学習の特徴を表し.最後に学習途中で状態空間の再構成を行っても,なめらかに学習が行われ,状態空間の再構成を利用できることを示す.