NAIST-IS-MT1451110: Muramatsu Kohei

トピックモデルを利用したピボット翻訳の語義曖昧性解消

村松航平(1451110)

統計的機械翻訳において、原言語と目的言語間の学習データが不足している場合、精確な統計モデルの学習が困難となり、機械翻訳の精度に悪影響を及ぼす可能性がある。このような問題が起こる場合の解決策として、原言語と目的言語の間に中間言語を経由させ、十分な量の学習データを確保するピボット翻訳が用いられてきた。

通常の統計的機械翻訳においても起こりうる、語義曖昧性の問題はピボット翻訳においても重要なタスクの１つである。語義曖昧性解消のタスクではあるフレーズを翻訳する時に、単に１つの訳語を選ぶのではなく翻訳する文の文脈に沿った訳語を選択できるようにすることが求められる。ピボット翻訳の主な手法の一つであるTriangulationメソッドでは原言語-ピボット言語、ピボット言語-目的言語間のフレーズテーブルを結合し、原言語-目的言語間のフレーズテーブルを作り翻訳をする。フレーズテーブルを結合する過程で大量のフレーズペアが生成されることが原因となって、訳語選択の際の曖昧性が増大してしまう。

本研究では上記の様なピボット翻訳で生ずる語義曖昧性に着目し、トピックモデルを利用した2つの手法を提案する。

一つ目の提案手法、Max-Topicメソッドでは選択する訳語の潜在意味がどれだけ決定しやすいかを評価する。トピック分布がいずれかのトピックに偏っているほど潜在意味が一意に決定しやすいと考え、トピック分布の最大の確率値を素性としてフレーズテーブルに組み込む。結合する２つのフレーズテーブルのフレーズペアが出現したバイリンガルコーパスのピボット言語側の文のトピック分布からそれぞれ素性を抽出し、フレーズテーブルを結合する際に２つの素性を新しいフレーズテーブルに加えた。

二つ目の提案手法、Rerank-Topicメソッドでは結合したフレーズテーブルを用いて翻訳した文を構成するフレーズのトピックの均一性を評価する。この手法では訳出文のトピックが均一であればあるほど訳語選択が精確に行われていると考える。訳出文のトピックの均一性を表す素性を各フレーズのトピック分布から求め、N-bestリストに加えることでリランキングを行った。