Multi-Source Neural Machine Translation with Missing Data

Yuta Nishimura (1751091)


多言語を用いた機械翻訳は単言語対での機械翻訳よりも良い性能を持つことが知られているが, 多言語コーパスにおいて全ての対訳文が全言語揃っている状況は非常に限定される. 多言語機械翻訳の中でも,入力言語が複数,出力言語が1つのMulti-Source Neural Machine Translation (NMT) では, 欠落が全くなく,対訳文が全て揃っている多言語コーパスからの学習を前提としており, コーパス中での欠落が存在する対訳文は学習に使用することができない. しかし,欠落が存在するコーパスにおいても,対訳が存在する一部の言語対の情報から翻訳の学習は可能であると考えられる. そこで,欠落が存在するコーパスにおいて対訳が全て揃ってない部分も学習に用いるMulti-Source NMTについていくつかの手法を提案した. 欠落部分をある特殊記号で置換する手法,また,学習済みのMulti-Source NMTを用いて擬似対訳を作成し欠落を置換する手法を提案し, どちらの提案手法も欠落が存在する対訳を学習に使用する手法として有効性が示された. また,学習時だけではなく翻訳時(テスト時)における手法も提案した. 通常の単言語入力のNMTによって欠落している言語の擬似対訳文の複数候補を生成し, Multi-Source NMTにおいて最適となる擬似対訳文候補を選択して翻訳する手法を提案し, 欠落が存在するテストセットを利用した実験においていくつかの欠落補完手法を比較し提案手法の有効性を示した.