NAIST-IS-MT1551107: Makoto Morishita

統語ベース翻訳のための構文解析器の自己学習

森下睦 (1551107)

構文情報を考慮する機械翻訳手法である統語ベース翻訳では，構文解析器の精度が翻訳精度に大きな影響を与えることが知られている.
また，構文解析の精度向上を図る手法の一つとして，構文解析器の出力を学習データとして用いる構文解析器の自己学習が提案されている.
しかし，構文解析器が生成する構文木には誤りが存在することから，自動生成された構文木が常に精度向上に寄与するわけではない.
そこで本発表では，機械翻訳における自動評価尺度を用いて，このような誤った構文木を学習データから取り除き，自己学習の効果を向上させる手法を提案する.
具体的には，解析されたn-best構文木それぞれを用いて統語ベース翻訳を行い，それぞれの翻訳結果に対し，自動評価尺度でリスコアリングする.
この中で，高いスコアを持つ構文木のみを自己学習に使用することで，構文構造はアノテーションされていないが，対訳が存在するデータを用いて，構文解析・機械翻訳の精度向上が期待できる.
実験により，本手法で自己学習したモデルを用いることで，統語ベース翻訳システムの翻訳精度が有意に向上し，また構文解析自体の精度も有意に向上することが確認できた.
さらに，本手法により精度向上が期待できる分野の特徴についても検討した.

統語ベース翻訳のための構文解析器の自己学習

森下 睦 (1551107)

森下睦 (1551107)