統語ベース翻訳のための構文解析器の自己学習

森下 睦 (1551107)


構文情報を考慮する機械翻訳手法である統語ベース翻訳では,構文解析器の精度が翻訳精度に大きな影響を与えることが知られている.
また,構文解析の精度向上を図る手法の一つとして,構文解析器の出力を学習データとして用いる構文解析器の自己学習が提案されている.
しかし,構文解析器が生成する構文木には誤りが存在することから,自動生成された構文木が常に精度向上に寄与するわけではない.
そこで本発表では,機械翻訳における自動評価尺度を用いて,このような誤った構文木を学習データから取り除き,自己学習の効果を向上させる手法を提案する.
具体的には,解析されたn-best構文木それぞれを用いて統語ベース翻訳を行い,それぞれの翻訳結果に対し,自動評価尺度でリスコアリングする.
この中で,高いスコアを持つ構文木のみを自己学習に使用することで,構文構造はアノテーションされていないが,対訳が存在するデータを用いて,構文解析・機械翻訳の精度向上が期待できる.
実験により,本手法で自己学習したモデルを用いることで,統語ベース翻訳システムの翻訳精度が有意に向上し,また構文解析自体の精度も有意に向上することが確認できた.
さらに,本手法により精度向上が期待できる分野の特徴についても検討した.