End-to-End 音声認識モデルの圧縮
森 巧磨 (1651110)
大規模な音声コーパスが作成され,音声認識( ASR )のモデルとして,大規模な
ニューラルネットワークが使用されるようになった.また,シンプルな手法として,
殆どのモジュールを単一のモデルとして学習する End-to-End 音声認識の研究が行
われている.ニューラルネットワークを用いた音声認識は,たくさんのパラメータ
を有し,新しいデータの学習および予測のために多くの計算資源を必要とする.パ
ラメータが増える原因の一つとして,時系列タスクをモデリングし,様々な複雑な
問題を解析する手法としてリカレントニューラルネットワーク( RNN )を使うこ
とがあげられる.音声認識は音声要約,自動コールセンター,音声翻訳などの多く
のアプリケーションの重要なコンポーネントである.したがって,多くの場面でこ
のモデルを使えるようにするためには,メモリを削減して,軽量なモデルとする必
要がある.本稿では, End-to-End 音声認識を 2 つのアプローチで圧縮することを
試みた.一つは,知識蒸留に基づいた方法である.異なる出力長を同様に学習でき
る損失関数 Connectionist Temporal Classification ( CTC )を利用し,巨大な教師
ネットワークの出力文を小さな生徒ネットワークで訓練して,性能向上を狙う.も
う一つは,リカレントネットワークの中間層をテンソル表現し,それらを効率的に
分解するテンソルトレイン分解により,パラメータ数を大幅に削減する代替 RNN
モデルを提案する.我々は,音声コーパスである Libri Speech において非圧縮ゲー
ティッドリカレントユニット( GRU )モデルとテンソルトレイン分解により圧縮し
た GRU モデルを比較評価し,パラメータの数を大幅に削減しながら性能を維持す
ることを示した.