目先の利益よりも, 長い目で見ると得をするような行動をとれるかどうかは, 人間や動物の知能を語る上で, 非常に重要な要素である. しかしそのような行動を可能にする脳内機構は未だ明らかになっていない.
本発表では強化学習のアルゴリズムをベースとし, 神経修飾物質のセロトニンがどれだけ先の報酬まで考慮に入れて予測するかといった, 報酬予測の時間スケールを制御するという仮説 (Doya, 2002) を紹介し, その検証に向け, 時間スケールの異なる報酬予測時の脳活動をfMRIによって測定した3種類の実験について述べる.
実験は将来的な報酬予測が必要な条件と, 即時的な報酬予測で十分な条件から成るタスクをMRI装置の中で行わせ, その間の脳活動を測定した. 被験者には「一連の行動の結果得られる報酬の累積値を最大化する」ように指示した.
その結果, 条件間の活動の比較により, 長期の報酬予測に関わる部位として, 背外側前頭前野, 帯状回後部, 視床下核, 淡蒼球, 小脳を特定することができた. これらの結果から, 異なる時間スケールの報酬予測は, 異なる皮質―線条体ループを介して行われることを明らかにした. 具体的には, 情動ループは直接的な, 即時報酬の予測に関わり, 認知・運動ループは間接的な, 将来の報酬の予測に関わることを明らかにした.
また, 個人の行動データから, 強化学習理論に基づいた方法で, 報酬の「予測値」と「予測誤差」を推定し回帰変数として用いた解析を行った結果, 報酬の予測と予測誤差は脳の異なる部位で行われているという, 大脳基底核の強化学習モデルを支持する結果が得られた. また, 腹内側前頭前野, 島皮質, 線条体に, 報酬予測の減衰定数gの値に対して空間的に連続して変化するマップが見られたことから, 情動ループにはさらに細かく分割されるループが存在することがわかった.
この結果は, 皮質−線条体間のトポグラフィックな組織と一致しており, 並列的に様々な値によって報酬を予測する学習機構の存在を示唆するものである.
われわれの新しい実験パラダイムは, 報酬や罰を予測する際の薬理学的な影響を評価するといった, 行動決定に障害を持つ患者の診断に有用な手段であるといえる.