平均場近似を用いたHelmholtz Machineの学習

青木 佑紀(0751001)


高次元データからコンパクトな表現へと特徴抽出が必要となること は多い。コンパクトな特徴は、データの圧縮や視覚化、過学習を回避するのに有 用である。特徴抽出法として最もよく利用さ れる有用な手法としては、PCA等の線形特徴抽出器が挙げられる。

これに対し、 HintonとSalakhutdinovは、数百万のパラメータをもつ階層型Boltzmann Machineをうまく学習させることで、PCAよりも優れた性能をもつ情報圧縮を実現 した。Boltzmann Machineのような多くの隠れ変数を含む非線型関数近似器では、 ネットワークの学習がそのパラメータの局所解や過学習によりうまく機能しないことが知られてい る。彼らはContrastive divergence(CD)を利用した初期学習を行うことでそ の問題を解決した。CDを用いた学習では、素早い学習が可能である一方、コス ト関数が不明なため、パラメータ更新時に適当なステップサイズを使わざるを 得ないという非効率的な面がある。またその学習則に理論的な裏つけがないと いう問題もある。

本発表では、まずCDを用いた学習則に理論的解析を与える。そしてそれを背景に、 Helmholtz Machine(HM)に対して平均場近似を用いた学習アルゴリズムを導出 し、コスト関数とそのパラメータ勾配の両方を評価可能な学習則を提案する。 また、CD学習の理論的解析に基き、ある条件の下にRBMのCDによる学 習則がHMの学習則に一致することを示す。