森健 | 石井信 | 杉本謙二 | 柴田智広 |
発表題目:確率方策勾配法に基づくactor-critic法と複雑システムの制御への応用
発表概要:強化学習におけるactor-critic法は、行動方策を改善するactorと価値関数を 近似するcriticの学習が、平行かつ相互依存して行われるために不安定になりや すい。近年、この問題の解決として、確率的方策勾配法に基づくactor-critic法 が提案され、その収束性が証明された。本発表では、この手法を、高次元線形問題である、 神経振動子ネットワークを用いた二足歩行ロボットの歩行制御問題に応用し、 その性能について議論する。また、今後の課題について述べる。 | |||
藤田肇 | 石井信 | 杉本謙二 | 柴田智広 |
発表題目:マルチエージェントカードゲームの強化学習法
発表概要:部分観測状況下における適応的戦略の獲得問題は,近年の情報社会を鑑みて,非 常に重要な課題であるといえる.たとえば計算機ネットワークにおいて,複数の ユーザや自律エージェントが協調あるいは競合する問題を扱う必要性がでてきて いるが,この例のように,マルチエージェント環境とみなせる系においてエージェント が問題解決を図る場合,環境が動的に変化し,状態数が膨大になるため に,様々な事例を事前に予測し,データベースとして管理することは難しい.し たがって,エージェントが自身の目的に応じた適応的な振舞いを自律的に獲得で きる手法の開発は重要な課題であり,強化学習はひとつのアプローチとして有効 であると考えられる.また,部分観測な状況から環境をモデル化する能力は,人 間の知的機能の本質であり,その研究は脳機能解明のための重要なアプローチ であると考えられる.さらに,機械学習の枠組みを用いることでより良い行動制 御を実現することは,様々な研究分野や産業へと応用できる可能性がある. 本研究は以上の背景に基づき,部分観測環境下におけるマルチエージェント系強 化学習アルゴリズムの開発,およびトップダウン的な脳機能の解明を目的とする. 本研究では,マルチエージェント系の競争的状況として非協力n人ゲーム (n=4)のカードゲームであるHeartsを取り上げ,そこでの行動学習として,相 手モデル学習を行う手法を提案している.Heartsは多くの非観測状態が存在する ため,部分観測問題である.本研究は,観測できない情報を推定によって補い, 動的に変化する環境の中で自身の目的に応じた適応的戦略を,強化学習の枠組み を用いて獲得することを目指す.これまでの研究により,本手法に基づく学習エージェント の戦略が,熟練レベルの強さを持つルールベースエージェントの戦略を上回る という結果が得られた.本発表では,主に手法の紹介と今後取り組むべき 課題について述べる. | |||
平山淳一郎 | 石井信 | 杉本謙二 | 柴田智広 |
発表題目:大脳皮質のオンライン学習と神経修飾物質系の機能
発表概要: 脳研究のひとつの手法として,近年重要性を増してきているものが,理論面からのトップダウンアプローチである.とくにベイズ推定などの統計手法をもちいた研究は,視覚系などを中心に,これまでに大きな成果をあげている.本研究の目的は,統計的学習の理論を応用し,同じくトップダウンの立場から大脳皮質の学習モデルを提案することである.さて,脳内には状況に応じてメタレベルでの学習制御を行う機構が存在すると考えられており,広域に投射する神経修飾物質系がこれを担っているとされる.今回の発表では,神経修飾物質のひとつであるアセチルコリンについての機能仮説をもとに,大脳皮質の学習がアセチルコリンを媒介としたオンライン学習としてとらえられることを単純なモデルを例に示し,あり得る脳内機構についてふれる.また最後に今後の課題についても述べる予定である. | |||