対訳抽出におけるハブの影響

重藤 優太郎(1251050)


対訳辞書は,機械翻訳や言語横断検索などの複数の言語を対象とした 自然言語処理において重要な言語資源である.しかし,対訳辞書を人手で作成すること はコストの高い作業であり,専門用語など日々増加する単語を人手で追加することは難しい. そこで,近年の統計的機械翻訳は,パラレルコーパスから自動で翻訳知識を獲得するが, 現存するパラレルコーパスは限られた言語対や分野の文書を対象にしたものがほとんどである. これらの理由から,コンパラブルコーパスを用いた自動での対訳抽出が行われている. 多くの対訳抽出は,二言語の単語を共通の素性空間で表現し,二言語間の単語対の 類似度を計算する.その後,最も類似度の高かった単語対を対訳対として抽出する. この手法はハブによって対訳抽出の精度に悪影響を与えていることがわかった. ハブとは多数の原言語の単語に対して,高い類似度を得る対訳候補の事を指しており, ハブの発生は対訳抽出の精度の低下を引き起こす. 本論文では,ハブの影響を抑制するために中心化と素性ベクトルのスパース化を提案する. 実験の結果,中心化とスパース化を用いたコサイン類似度はラベル伝搬法 を用いた対訳抽出よりも良い精度を得ることが確認された.