深層学習のアーキテクチャ, 最適化, 正則化の理論解析

古庄 泰隆


深層学習は多くの分野に適用されその優れた性能が報告されている. 近年の深層学習の目覚ましい成果はそのモデルの構造, 最適化アルゴリズム, そして正則化の手法に基づいている. たとえばResNetやDenseNetの持つショートカットは100層を超える深いニューラルネットワーク(DNN)の学習を可能にする. バッチ正規化やstochastic depthはこのようなDNNの学習を加速させる. そして多様な正則化手法はこれらのDNNが訓練データに含まれるノイズに過剰適合するのを防ぐ. しかしながら,これらの手法が上記のように性能を改善する理由は未だに明らかでなかった. そこで我々は上記の手法を解析しその性能の改善理由を明らかにする.