ランキング学習による 音声認識と機械翻訳の同時最適化
Joint Optimization of Speech Recognition and Machine Translation by Rank Learning

Masaya Ohgushi (1151023)


音声翻訳システムは音声認識と機械翻訳,テキスト音声合成の 3 つのモジュー ルによって構成されている.たいていの場合,音声認識部は単語誤り率 (WER) が最小になるように最適化されている.しかし WER の減少が直接翻訳精度の向 上に繋がる保証はない.これは WER が単語ごとの誤りによる指標で評価してお り,各単語の翻訳結果の影響まで考慮されていないからである.先行研究では音声認識と機械翻訳のパラメータを翻訳の指標である BLEU[24] の値が最大になる ように同時最適化を行い,一定の成果を上げている [9].また機械翻訳の最適化 では,多くの素性を用いることが翻訳精度向上に繋がることが確認されているが [10],同時最適化において多くの素性を用いる試みはまだない.そこで,多くの 素性を最適化可能な対ランク最適化(PRO)[10] を用いて同時最適化を行った. 機械翻訳の素性と音声認識の素性に加えて,認識単語の頻度を素性として使用し, 多数の素性を用いて同時最適化の効果を検証した.旅行会話 (BTEC)[28] による 音声認識,機械翻訳における実験結果より同時最適化において PRO と誤り率最 小化学習(MERT)[22] には統計的に有意な差は見られなかった.多くの素性を 用いて精度向上も確認は見られなかった.

Speech translation (ST) systems consist of three major components: automatic speech recognition (ASR) ,machine translation (MT) and speech synthesis (SS). In most cases the ASR system is tuned by minimizing word error rate (WER). However decreasing WER is not directly guaranteed to improve the translation quality.Because WER only considers the number of word errors, it doesn$B!G(Jt consider the effect of recognition errors on translation. In previous research, ASR and MT have been jointly optimized to improve translation quality [9].Optimization of MT has also used with rich features to improve translation quality [10]. However joint optimization has never been used rich features. In this thesis we jointly optimize the weights using pairwise rank optimization(PRO) [10], which is able to use rich features. We tested the effect of joint optimization using the rich features from MT, ASR, and frequency of recognized words. Experimental result on a travel conversation corpus [28] Showed that the translation quality is not statistical significant difference in PRO and minimum error rate training (MERT) [22]. Rich features do not have an effect of the improving translation quality.