多言語トピックモデルを用いた英日翻訳

金丸 智史 (1351031)


統計的機械翻訳の翻訳精度は,学習に使用する対訳コーパスに大きく依存し,データ量が多ければ多いほど翻訳精度が高くなる. しかし,複数の意味を持つ多義語を翻訳する際には,学習に使用する対訳コーパスに多く出現する訳が選ばれやすいという問題がある. この問題を解決する方法の1つとして,トピックを利用する方法が挙げられる. トピックとは,文書や単語の持つ潜在的な意味のようなもので,同じトピックを持つ単語は同じ文章に出現しやすい. そのため,多義語を翻訳する際に,翻訳したい文章のトピックと似たトピックに属する訳を選択することで,訳し分けが可能になる.

本研究では,多言語の文書からトピックを推定できる多言語トピックモデルと呼ばれる手法に注目し,トピックを考慮した統計的機械翻訳の手法を提案する. また英日翻訳において,翻訳精度を提案手法と従来の統計的機械翻訳手法とで比較し,精度が向上したことを示す.