竹田 和博 M2 | 石井 信 | 杉本 謙二 | 柴田 智広 |
発表題目:ベイジアン方策勾配強化学習法の改良
発表概要:強化学習法における目的は、エージェントが獲得する累積報酬を最大化するような方策を見つけることであるが、そのための手法の一つとして、方策勾配法と呼ばれる手法が注目されている。しかし、この手法では方策勾配をナイーブなモンテカルロ法で近似するため、勾配を推定するためのサンプル量が多くなる。この問題に対して、近年、ベイジアン方策勾配法(BPG法)と呼ばれる手法が提案された。BPG法ではガウシアンプロセスを用いて方策勾配の関数形を推定した後に、入力に関する積分の近似を行うことで、サンプル量を少なくしている。しかし、従来のBPG法では、これまでの方策勾配法と同様に、エージェントが従う方策を用いて受動的にサンプリングを行ってきた。本研究では、ガウシアンプロセスの性質をさらに生かして、能動的にサンプリングする方策オフ型BPG法を提案する。方策オフ型BPG法では、従来のBPG法よりもさらに少ないサンプリング回数で効率の良い学習を実現できる。 | |||
南條 信人 M2 | 石井 信 | 杉本 謙二 | 柴田 智広 |
発表題目:基底関数の逐次的な自動生成による効率の良い強化学習法
発表概要:これまで価値関数の近似を行う多くの強化学習法が提案されてきた。 しかしながら、悪い基底関数を用いて近似を行うと、価値関数の汎化誤差が大き くなり、方策改善に悪い影響を及ぼすことが知られている。 したがって、汎化 誤差をできるだけ小さくするような基底関数の生成手法が必要とされている。こ の問題を解決するために、近年、特徴抽出器を用いた基底関数の自動生成手法が 提案された。しかしながら、この手法は多くの基底関数を用いることにより、計 算コストが大きくなる問題を残している。本研究では、Least Squares Policy Evaluation(LSPE)法を用い、部分的なマルコフ決定問題を逐次的に解くこと で計算コスト、汎化誤差が共に小さくなるような自動生成手法を提案し評価を行 う。 | |||
谷口 雄基 M1 | 石井 信 | 杉本 謙二 | 柴田 智広 |
発表題目: 内部状態を用いた部分観測環境における強化学習法
発表概要:強化学習の研究において, エージェントによる環境の状態観測が完全 であることを仮定したマルコフ決定過程(Markov Decision Process; MDPs)とし て定式化できる問題がよく扱われてきた. しかし実世界の問題では, ノイズやセ ンサーの不備などにより, 観測が制限されてしまうことが多い. このような部分 観測環境におけるタスクの解決問題は部分観測可能マルコフ決定過程(Partially Observable Markov Decision Processes; POMDPs)で定式化できる. POMDPに対す る解法として, 信念空間を用いる手法がある. これは信念空間上で価値関数を推 定し, それを最適化する手法であるが, 信念空間の次元は大きくなることが多く, また推定には状態遷移モデルを必要とするため, 状態空間が大きな問題には不適 である. 近年, POMDPに対する強化学習法として, 内部状態を用いた確率的方策である有 限状態コントローラ(Finite State Controllers; FSCs)を用いた方策勾配法であ るIState-GPOMDPが提案された. これはFSCに組み込まれた内部状態の遷移確率を 方策の改善と同時に方策勾配法により学習する. この結果, 真の状態空間の大き さ とは無関係に, 報酬の獲得に重要な特徴を, 内部状態遷移モデルという形で抽出 することができる. 本発表では, 複数のエージェントが部分観測環境において協調行動を学習するこ とを目的とするマルチエージェント問題に対してFSCが有効であることを示す. さらに, FSCの内部状態を離散から連続に拡張することにより, 連続な観測や状 態を持つPOMDPに対しても最適な方策の学習が可能になる手法を提案する. | |||
マツ本 真佑 M2 | 松本 健一 | 関 浩之 | 門田 暁人 | |
発表題目:Fault-proneモジュール判別モデルと外れ値除去法の組み合わせの効果
発表概要:ソフトウェア開発において,限られた開発期間で信頼性を確保するためには,テスト工程の効率化が重要である.その一つの手段は欠陥(fault)を含ん でいる可能性の高いモジュール(fault-prone モジュール)を特定し,テスト工数を重点的に割り当てることである.そのため,従来多数のfault-proneモジュール判別モデルが提案されている.しかし,データセットに存在する外れ値が判別モデルの精度低下の原因となるため,判別モデルの構築前にデータセットから外れ値を除去しておくことが望ましい.本研究では,3つのfault-proneモジュール判別モデルに対して3つの外れ値除去法を組み合わせた場合の判別精度を実験的に評価し,その効果を比較する. | ||||
渡邊 瑞穂 M2 | 松本 健一 | 関 浩之 | 門田 暁人 | |
発表題目
:ソフトウェア開発工数予測における特異プロジェクト除去の効果
発表概要:従来、ソフトウェア開発プロジェクトのメトリクス(規模、開発期間など)を説明変数とし、開発工数を目的変数とする工数モデルがソフトウェア開発の分野で広く用いられている。ただし、モデル構築に用いるデータセットに特異なプロジェクトが含まれる場合、精度の良いモデルが構築できないことが課題であった。そこで、本発表では開発規模と開発工数、開発規模と開発期間の関係に着目し、特異なプロジェクトを除去する手法を提案する。ソフトウェア開発企業で収集されたデータを用いた評価実験の結果、提案手法によって特異なプロジェクトを除去することで精度が改善された。 | ||||
本間 知教 M2 | 中島 康彦 | 関 浩之 | 山下 茂 | 中西 正樹 |
発表題目:耐故障性量子計算を考慮した量子回路設計手法 発表概要:現在使われている古典計算とは異なり、量子計算では古典計算で扱わないエラーが生じる可能性がある。そのような量子計算特有のエラーが生じても、計算結果が意図した論理計算を行えるようにするために、先行研究では耐故障性量子計算を考慮した量子ゲートが提案されている。本研究は先行研究で提案された量子ゲートを改良し、より効率よく論理演算を行えるようにする事を目的とする。 | ||||