End-to-End 音声認識モデルの圧縮

森 巧磨 (1651110)


大規模な音声コーパスが作成され,音声認識( ASR )のモデルとして,大規模な ニューラルネットワークが使用されるようになった.また,シンプルな手法として, 殆どのモジュールを単一のモデルとして学習する End-to-End 音声認識の研究が行 われている.ニューラルネットワークを用いた音声認識は,たくさんのパラメータ を有し,新しいデータの学習および予測のために多くの計算資源を必要とする.パ ラメータが増える原因の一つとして,時系列タスクをモデリングし,様々な複雑な 問題を解析する手法としてリカレントニューラルネットワーク( RNN )を使うこ とがあげられる.音声認識は音声要約,自動コールセンター,音声翻訳などの多く のアプリケーションの重要なコンポーネントである.したがって,多くの場面でこ のモデルを使えるようにするためには,メモリを削減して,軽量なモデルとする必 要がある.本稿では, End-to-End 音声認識を 2 つのアプローチで圧縮することを 試みた.一つは,知識蒸留に基づいた方法である.異なる出力長を同様に学習でき る損失関数 Connectionist Temporal Classification ( CTC )を利用し,巨大な教師 ネットワークの出力文を小さな生徒ネットワークで訓練して,性能向上を狙う.も う一つは,リカレントネットワークの中間層をテンソル表現し,それらを効率的に 分解するテンソルトレイン分解により,パラメータ数を大幅に削減する代替 RNN モデルを提案する.我々は,音声コーパスである Libri Speech において非圧縮ゲー ティッドリカレントユニット( GRU )モデルとテンソルトレイン分解により圧縮し た GRU モデルを比較評価し,パラメータの数を大幅に削減しながら性能を維持す ることを示した.