NAIST-IS-MT0251116:Matsuyama Kazuhiro

強化学習モデルによる大脳基底核の確率的行動選択に関する研究

松山和裕（0251116)

近年、大脳基底核は報酬に基づく行動学習に関係することが報告され、強化学習を用いた様々なモデルが提案されている．それらのモデルでは、大脳基底核の主な入力核であり中脳ドーパミン細胞からの投射を受ける線条体で報酬の予測が学習されると仮定されている．しかしこれまでのモデルでは、強化学習において本質的に重要な確率的な行動選択が行われるメカニズムや、ランダムさの制御のメカニズムは考慮されていない．そこで本研究では、線条体の投射先のうち大脳基底核の出力核である淡蒼球内節と黒質網様部で確率的な行動選択が行われ、その行動情報が視床を通じて線条体へフィードバックされることにより、選択された行動に対する報酬予測の学習が行われるという仮説を提案する．

この妥当性を検証するために、仮説に基づき大脳基底核の回路モデルを構築し、シミュレーション実験を行った結果、線条体のstriosomeとmatrixでは異なる価値関数の学習が行われ，特にmatrixでは行動価値関数が学習されていることや，行動選択のランダムさは淡蒼球内節と黒質網様部への視床下核からの入力により調節され得ることが明らかになった．