Factored Translation Modelsを用いた事後並べ替えによる日英翻訳

小林和也 (1251045)


統計的機械翻訳の翻訳精度は,翻訳を行う言語ペアによって大きく変化する. 例えば,英語から日本語への翻訳精度は,フランス語への翻訳精度よりも低くなる. この翻訳精度の違いの主な要因として,言語間の文構造の違いが挙げられる. 英語やフランス語は,”John hit a ball.”のように主語-動詞-目的語という語順のSVO言語であるのに対し,日本語は”ジョンはボールを打った。”のように主語-目的語-動詞という語順のSOV言語である. 英語と日本語のように文構造が異なる言語間の翻訳を行う場合,長距離の語順の並べ替えを考慮しなければならない. もし,出力する単語数がn個で並べ替えの距離を制限しない場合,単語列の候補はn!個となり,探索空間が非常に大きくなるため,全ての単語列の候補を考慮することは計算量の問題から不可能である. また,現在の統計的機械翻訳システムの並べ替えモデルは長距離の語順の並べ替えを解決するには充分ではない. 以上の2点より,現在の統計的機械翻訳システムは長距離の語順の並べ替えが必要となる言語間の翻訳を不得手としている.

文構造が異なる言語間での翻訳における長距離の語順の並べ替えの問題を解決するために,事前並び替えと事後並び替えと呼ばれる手法が提案されてきた. これらの手法は単語の翻訳と語順の並べ替えを別々に行うことで翻訳精度を向上させている. 事前並べ替えでは,前処理として原言語を目的言語の語順に並べ替えたあとに翻訳を行う. 翻訳を行う前に原言語の語順を目的言語に近づけることで,翻訳中の語順の並べ替えの距離を少なくしている. 一方の事後並べ替えは,翻訳を行ったあとに語順の並べ替えを行う手法である.

本研究では日英翻訳における語順の並べ替えの問題を解決するために,事後並べ替えに着目し,単語の表層以外の情報を考慮する手法を提案する. 提案手法ではfactored translation modelsを用い,単語の表層と品詞,大規模データに対してクラスタリングを行うことによって求めた単語のクラスタの情報を考慮した翻訳を行う.また,考慮する情報による翻訳への影響も実験によって調査する.