強化学習のExploration-Exploitation問題に対する人間の行動決定

藤崎恵美子 (9951097)


強化学習において,Exploration-Exploitation(探索と搾取)の行動に関わるトレードオフがある.この2つの行動のバランスを決定するためには,計算量が多い,人間の手によるパラメータ調整が逐次必要,問題が変化したときに対応が難しい,などの問題がある.一方,人間はこの行動決定を,時間や計算のコストをかけずに効率良く行っている.本研究では,強化学習型課題を用いた2つの実験(実験1,実験2)により,人間の行動決定の特徴と要因を特定し,行動決定のメカニズムを明らかにする.
実験1では被験者に強化学習型課題を与え,その解決における行動パターンを5つのタイプに分類した.さらに行動決定の要因として,「残り行動数」と「報酬の最低基準量」を特定した.
実験2は,実験1で発見された2つの要因の特徴と行動決定への影響について分析するため,報酬の与え方とエピソードの長さ(1エピソード内の行動数)を変化させて行った.その結果,残り行動数のとらえ方と報酬の最低基準量には個人差があること,2つの要因の行動決定に対する重みづけは,課題の性質によりエピソード内でも変化することが明らかになった. また,エピソードの長さと探索行動もしくは搾取行動の割合には比例関係があることが示された.

以上の結果より,強化学習型課題において,人間はまず課題全体のエピソード数やエピソード内の行動回数に応じておおまかな方針を計画する.その後,報酬の最低基準量と残り回数をモニタリングしながら,動的に行動を決定しているようである. ただし,報酬の最低基準量や残り回数のとらえ方などには個人差が存在し,個人の方略の違いの原因となっていると考える.

発表では,本論文扱う問題と2つの実験の概略,実験により考察された人間の行動決定のメカニズムについて述べる予定である.