強化学習によるオセロゲームの戦略の獲得
吉岡 琢(9751116)
本報告では、強化学習によってオセロの戦略を自動的に獲得する
方法について述べる。
ここで用いる手法では、学習するコンピュータはゲームのルールだけを
事前知識として与えられる。
そして他のプレイヤーとの対戦を繰り返すうちに次第に強くなっていく。
コンピュータは対戦中に自分が持っている評価関数をTD($\lambda$)、
あるいはミニマックス強化学習によって更新する。
オセロの状態空間は非常に大きいため、ニューラルネットを用いて
評価関数を近似的に表現している。
学習後のプレイヤーは、あるヒューリスティックな戦略を取るプレイヤーに対して
高い確率で勝てるようになる。