音声認識単語仮説の曖昧性を考慮するニューラル機械翻訳

長村 佳歩 (1651027)


音声翻訳システムは,音声認識と機械翻訳,テキスト音声合成の3つのモジュールで構成されている. 本研究では音声翻訳の翻訳精度に着目し,音声認識と機械翻訳についての提案を行った. 音声翻訳において,音声認識の認識誤りと翻訳精度の間には相関があることが良く知られている. 音声認識結果に認識誤りがある場合,音声翻訳の最終的な翻訳精度は大幅に低下する. 音声認識技術は向上を続けているものの音声認識誤りの発生は不可避であり, それを無視して音声翻訳システムを構築すると,雑音の発生する実環境下での動作が不安定になったり,実環境下で著しく翻訳精度が低下してしまい,実用性を欠いてしまう. 先行研究として,原言語側に音声認識誤りを含む対訳文を機械翻訳の学習に利用する手法が提案されている. 先行研究によって音声認識誤りに頑健な翻訳が可能になったが,複雑なモデルが必要であったり,機械翻訳の学習に多くの音声データが必要など改良の余地があった.
そこで,本研究では音声認識誤りに頑健な音声翻訳の実現を目指す上で, 音声認識候補を用いつつ,複雑なモデルによって機械翻訳の計算方法を大きく変更させないことを目的とする. そのために,深層学習を用いた音声翻訳において音声認識候補の曖昧性を表現するベクトルを機械翻訳に用いる手法を提案した. 通常のニューラル機械翻訳では入力された単語をone-hotベクトルにして用いるが, 本研究ではテキスト翻訳時に用いられる単語のone-hotベクトルと共通したベクトル表現を用いて音声認識候補を表現しているため, テキストからの学習と音声認識結果からの学習を同じ枠組みで行うことができ,機械翻訳そのものの計算方法を大きく変更することなく,認識候補の曖昧性を考慮することができる. 実験において,提案手法の翻訳精度は音声認識の1-bestを翻訳する従来の音声翻訳の翻訳精度と比較して,テキスト音声合成を用いたシミュレーション実験でも自然音声を用いた実験でも,向上することが確認できた.