強化学習モデルによる大脳基底核の確率的行動選択に関する研究
松山和裕(0251116)
近年、大脳基底核は報酬に基づく行動学習に関係することが報告され、強化学習
を用いた様々なモデルが提案されている.それらのモデルでは、大脳基底核の
主な入力核であり中脳ドーパミン細胞からの投射を受ける線条体で報酬の予測
が学習されると仮定されている.しかしこれまでのモデルでは、強化学習にお
いて本質的に重要な確率的な行動選択が行われるメカニズムや、ランダムさの
制御のメカニズムは考慮されていない.そこで本研究では、線条体の投射先の
うち大脳基底核の出力核である淡蒼球内節と黒質網様部で確率的な行動選択が
行われ、その行動情報が視床を通じて線条体へフィードバックされることによ
り、選択された行動に対する報酬予測の学習が行われるという仮説を提案する.
この妥当性を検証するために、仮説に基づき大脳基底核の回路モデルを構築し、
シミュレーション実験を行った結果、線条体のstriosomeとmatrixでは異なる
価値関数の学習が行われ,特にmatrixでは行動価値関数が学習されていること
や,行動選択のランダムさは淡蒼球内節と黒質網様部への視床下核からの入力
により調節され得ることが明らかになった.