強化学習によるオセロゲームの戦略の獲得

吉岡 琢(9751116)


本報告では、強化学習によってオセロの戦略を自動的に獲得する 方法について述べる。 ここで用いる手法では、学習するコンピュータはゲームのルールだけを 事前知識として与えられる。 そして他のプレイヤーとの対戦を繰り返すうちに次第に強くなっていく。 コンピュータは対戦中に自分が持っている評価関数をTD($\lambda$)、 あるいはミニマックス強化学習によって更新する。 オセロの状態空間は非常に大きいため、ニューラルネットを用いて 評価関数を近似的に表現している。 学習後のプレイヤーは、あるヒューリスティックな戦略を取るプレイヤーに対して 高い確率で勝てるようになる。