確率的報酬課題におけるドーパミン細胞の活動度解釈
朝比奈 亜貴代 (0751003)
動物にとって、自己を取り巻く不確かな環境で生存するためには、未来に与えられる
報酬をできるだけ正確に報酬予測をすることが重要である。
霊長類の中脳にあるドーパミン作動性細胞は、報酬系に関与し、
学習や運動制御に関わることから多くの生理学的、計算論的研究がなされている。
計算論的知見では、ドーパミン細胞の作動性活動は、動物に環境適応を促す自立的な
学習の枠組みとして知られる強化学習のTD誤差を表現するという仮説が提案されている。しかし近年、確率的報酬課題におけるドーパミン細胞の活動頻度が、
実際の報酬を得る時刻に向けてなだらかに増加することが報告されており、
これは従来の単純なTDモデルでは一見説明できないことから議論を呼んでいる。
本研究では、確率的報酬課題に内在する不確かさに着目し、ドーパミン細胞の
予測的な上昇を説明できる計算論的モデルを提案する。
提案モデルでは、確率的報酬課題を表現するために隠れマルコフモデルを
用い、サルはこの環境モデルに基づき状態の良さを計る期待収益を推定しており、
ドーパミン信号はその誤差をコードしていると仮定した。
計算機実験では、確率的定式化によって定義された期待誤差が、報酬待ち時間の
ドーパミンの活動をより良く説明できることと、従来研究では説明できていなかった
単試行の結果をも再現できることを示す。