日英同時翻訳のためのニューラル機械翻訳

帖佐 克己


同時翻訳は文全体の入力が終わる前にその文の翻訳を始めるタスクである. 本研究ではこの同時通訳における2つの問題に着目し,それらの問題を解決する手法について述べる.

このタスクでは訳出までの遅延時間と翻訳精度がトレードオフの関係にあり,同時翻訳システムを構築する際にはシステムが使用される環境に応じて翻訳を行うタイミングを適切に決定する必要がある. そこで本研究では,ニューラル機械翻訳においてこの訳出タイミングを適応的に決定する方法を提案する. 提案手法では,訳出を行わない代わりに出力するためのメタトークン <wait> を目的言語側の語彙に追加し,Connectionist Temporal Classification(CTC)と呼ばれるアルゴリズムを目的関数へと導入する. CTCによって 縮約すると正解系列と一致するような <wait> を含む系列全て に対する最適化を行うことで翻訳モデルと訳出タイミング制御を同時に最適化することが可能になり,さらに訳出タイミングの適応的な決定も期待できる. 実験により,比較的短い文に対する自動同時翻訳に関しては先行研究と同程度の精度を達成し,また訳出タイミングを適応的に決定できていることがわかった. また,長い文に対する自動同時翻訳に関しても,遅延が大きいという問題が残るが,一定の翻訳精度を達成した.

また,同時翻訳システムを実際に運用する際には計算資源の少ない端末でもリアルタイム性を担保する必要があり,計算コストを可能な限り小さくすることが求められる. しかし,ニューラル機械翻訳では出力層における生成単語の生成確率を計算する際の計算コストが非常に大きいという問題が知られている. この計算コストは目的言語側の語彙サイズに比例するが,低頻度語を無視して語彙サイズを小さくした場合には語彙外の単語が増加してしまうために翻訳精度が大幅に減少してしまう. この翻訳精度と語彙サイズのトレードオフを改善するために,本研究では単語埋め込み空間上の距離を利用した単語間の類似度を用いる目的関数を提案する. 提案する目的関数を導入することで参照訳中の単語に近い意味の単語を翻訳器が出力することが促され,これにより正解単語が目的言語側の語彙に含まれていなかった場合においても語彙内の似た単語が訳出されることが期待できる. 実験により,提案手法を従来の目的関数と組み合わせて用いることで,2つの言語における翻訳精度が有意に向上し,また語彙サイズを小さく限定した場合においても未知語を同義語に言い換えられていることが確認できた.