フレーズ単位の線形順序問題に基づく統計的機械翻訳における長距離の語順並べ替えモデルの改善

近藤 修平(1051046)


翻訳の際に生じる語順の並べ替えは統計的機械翻訳の分野における中心的な課題の一つである。

フレーズベースの翻訳では局所的な語順の並べ替えは上手く扱うことができ、語順の差が小さい言語間では比較的精度の高い翻訳を行えることが知られているが、長距離の語順並べ替えを扱う上では並べ替えモデルの性能が不十分であり、また計算量の問題から文全体にわたる語順の並べ替えを考慮することは現実的には不可能である。

本研究では、この問題に関連する先行研究の中から、単語単位の線形順序問題に基づく前処理によって長距離の語順並び替えを行う手法に着目する。この手法をフレーズ単位へと拡張し、フレーズ単位の構造を維持したままフレーズ間の並べ替えを行うことによって、フレーズベース統計的機械翻訳が持つ局所的な構造を上手く扱えるという利点と、文全体を考慮した長距離の語順並び替えの両立を目指した手法を提案する。

そして提案手法の性能を評価するため、独英および英日の翻訳によってフレーズベース統計的機械翻訳の基本的な語順並べ替えモデル、単語単位の線形順序問題に基づくモデルと提案手法によるモデルの翻訳精度を比較する実験を行った。