通常の統計的機械翻訳においても起こりうる、語義曖昧性の問題はピボット翻訳においても重要なタスクの1つである。語義曖昧性解消のタスクではあるフレーズを翻訳する時に、単に1つの訳語を選ぶのではなく翻訳する文の文脈に沿った訳語を選択できるようにすることが求められる。ピボット翻訳の主な手法の一つであるTriangulationメソッドでは原言語-ピボット言語、ピボット言語-目的言語間のフレーズテーブルを結合し、原言語-目的言語間のフレーズテーブルを作り翻訳をする。フレーズテーブルを結合する過程で大量のフレーズペアが生成されることが原因となって、訳語選択の際の曖昧性が増大してしまう。
本研究では上記の様なピボット翻訳で生ずる語義曖昧性に着目し、トピックモデルを利用した2つの手法を提案する。
一つ目の提案手法、Max-Topicメソッドでは選択する訳語の潜在意味がどれだけ決定しやすいかを評価する。トピック分布がいずれかのトピックに偏っているほど潜在意味が一意に決定しやすいと考え、トピック分布の最大の確率値を素性としてフレーズテーブルに組み込む。結合する2つのフレーズテーブルのフレーズペアが出現したバイリンガルコーパスのピボット言語側の文のトピック分布からそれぞれ素性を抽出し、フレーズテーブルを結合する際に2つの素性を新しいフレーズテーブルに加えた。
二つ目の提案手法、Rerank-Topicメソッドでは結合したフレーズテーブルを用いて翻訳した文を構成するフレーズのトピックの均一性を評価する。この手法では訳出文のトピックが均一であればあるほど訳語選択が精確に行われていると考える。訳出文のトピックの均一性を表す素性を各フレーズのトピック分布から求め、N-bestリストに加えることでリランキングを行った。