統語ベース翻訳における統語的前処理

波多腰 優斗 (1351088)


統計的機械翻訳 (statistical machine translation, SMT) では,ある言語で記述された原言語文を翻訳先の目的言語文へ統計モデルを用いて自動変換する.SMT の統計モデルにおいて,既存の学習方法では適切な翻訳規則を学習できないことが多く,翻訳精度が低下してしまう問題が指摘されてきた.これに対して,前処 理が適用された学習データを用いて統計モデルを学習することで翻訳精度の向上を図る手法が数多く提案されている.特にフレーズベース機械翻訳 (phrase-based machine translation, PBMT) において統語情報を用いたルールに基づく前処理の 効果が示されており,翻訳精度が改善されている.一方で,他の翻訳方式である統 語ベース翻訳に対してはこのような前処理の適用例が少ない.そこで本研究では, PBMT において有効な英日翻訳のためのルールに基づく統語的前処理を統語的前処理に適用し,その効果を確かめる.また,対訳データを用いて,言語的な知見を 人手によるルールやアノテーション済みのデータを利用せずにモデル化し、統語的前処理に適用する新たな枠組みについても提案する.実験によって,ルールに基づく統語的前処理は,PBMTに適用した場合ほど改善幅を示さないものの,統語ベース翻訳に対しても十分な効果があることが確認された.