行動選択時の神経機構に関する実験的及び計算論的研究

林 卓治 (0351099)


近年, 行動選択時に強化学習が関わっている可能性を示唆する実験やモデルが報告されている. しかしながら実際に強化学習が脳内でどのように実現されているかなど詳しい機構は解明されていない. そこで本論文では, 行動選択時に強化学習がモデルとして利用されているかをfMRI実験, 計算機シミュレーションを用いて検証し, 行動選択時の計算機構を明らかにすることを目的とする.

まずはじめに, 行動選択課題中の脳活動のfMRI計測を行った. 課題には報酬確率をともなった二者択一課題を使用し, 眼球運動を用いて自由に行動選択させた. 結果として, 意思決定の際に頭頂葉, 背外側前頭前野, 前頭葉眼窩面皮質などといった, サルの行動選択に関する先行研究で報酬との関連が報告されている領域が見られた. さらに, 大脳基底核の強化学習モデルによる行動価値関数の存在を検証するために, 意思決定の際に活動の高まった領域で, 推定した行動価値関数との相関を検証した. 結果的には, 行動価値関数と相関のある領域は発見するに至らなかった.

次に, 「最適な行動を学習するために設定が必要なパラメタは適応的に制御されている」というメタ学習仮説を検証するため, 強化学習により獲得される行動に,大きな影響を与える割引率の適応的制御法を提案する. 2種類の3状態マルコフ決定課題が動的に切り替わる環境で, 複数の異なる割引率を用いた並列強化学習方式をシミュレーション実験で評価した. この結果, 割引率の適応的制御法が必要な状況を発見し, メタ学習仮説を支持するに至った.