構文情報を利用した対訳データ選択手法

丹生 伊左夫 (1251079)


交通機関や通信手段の発達に伴い,異なる言語を話す人とのコミュニケーションや異なる言語で記述された文面を目にする機会が増加している. それに伴い,自然言語の文を入力として自動的に所望の言語へ翻訳する機械翻訳という技術が盛んに研究されている. 特に,対訳データの豊富さや多言語対応の必要性から,統計的に翻訳する統計的機械翻訳 (SMT) が注目されている. SMT において,翻訳の精度は学習に用いる対訳データの量に大きく依存することが報告されている. しかし,大規模な対訳データを用いて翻訳モデルを学習する際,大量の時間を要するという問題がある. これは,SMT を研究または開発する上で,効率を下げる要因となる. また,大規模なデータで学習した統計モデルはサイズも大規模になるため, 翻訳システムを搭載するデバイスにサイズの制限がある場合は,統計モデルのサイズを小規模化させる必要もある.

そこで,学習に用いる対訳データを選択することで,学習に要する時間の短縮とモデルサイズの縮小に取り組む研究がなされている. 対訳文選択タスクと呼ばれ,SMT システムを学習させるために利用できる全文対から,最適な文対を選択してくる問題とされている.

本発表では,英語と日本語の言語対に対して,翻訳精度の維持と,統計モデルの学習時間の短縮を図って, 構文情報を利用して対訳データを選択的に小規模化させる手法を提案する. 特に,対訳データの原言語文の構文情報を利用するために,各文の内部ノード数の異なる部分木集合に着目した. 提案する対訳データ選択手法により得られたデータを構文情報を利用する翻訳方式で学習し,翻訳精度の向上を確認した. さらに,翻訳モデルの学習時間やサイズの評価と,選択したデータを分析した結果を報告する.