状況認識と行動規則の同時学習方式の実環境への適用に関する研究

添田 宏彰 (9851203)


本研究では,「状況認識と行動規則の同時学習方式」を実環境へ適用し,実環境での性能の低下を改善する手法を提案する.

強化学習の一般的な問題点として,「入力の一般化問題」と「部分観測問題」が挙げられる. 「状況認識と行動規則の同時学習方式」は,問題として前者を対象としている. この学習方式は,現在シミュレーション環境のみで有効性が確認されている. しかし,実環境はセンサやアクチュエータなどの誤差があるため,実環境での性能低下により,有効性は保証できない. したがって,本研究ではこの学習方式を実環境に適用して,実環境での有効性を確認する.

本研究で提案する,実環境における性能の低下を改善する手法は,この学習方式の状態空間の構成において,状況の穴となる部分に注目する. この状況の穴となる部分は,性能の低下を引き起こす要因の一つと考えられ,不適切な負事例によって発生する. 提案手法は,この不適切な負事例を取り除くことにより,状況の穴となる部分を補間し,実環境における性能の低下を改善する.