INTERVIEW

創発的先端人材育成フェローシップ採択者

TOP
BACK
自然言語処理 教師なし機械翻訳 マルチリンガル 言語モデル

「翻訳の壁」をなくし、すべての言語をダイレクトに翻訳する

現在の機械翻訳には、2つの「壁」があります。ひとつは大量の対訳文データを必要とすること。もうひとつは、機械翻訳モデルは翻訳の対応関係を学習しているにすぎないため、人間のように表現力豊かな翻訳がしにくいことです。  

さらに、英語やドイツ語、中国語などと比べて、話者が少ないラオス語やタタール語といった少数言語の対訳文は入手困難であるため、翻訳の質が低くなります。また、少数言語に対する翻訳の場合、たとえばラオス語をタタール語に翻訳する場合は、他の言語を媒介したピボット翻訳が行われています。しかし、この方法はいわゆる“また聞き”の状態になるため、翻訳元の言語が本来持っているはずの言語の意味が抜け落ちて翻訳されてしまい、精度がかなり落ちてしまいます。

たとえば「熱湯」と「お湯」は意味が違いますが、英語では「hot water」にまとめられてしまいます。他の言語では熱湯とお湯のような区別があるかもしれないのに、英語を経由することによって熱さの度合いの意味が抜け落ちてしまうのです。

理想は、対訳文データが少なくても、少数言語であっても、ダイレクトに翻訳できることです。そこで私は、ピボット翻訳と教師なし翻訳を組み合わせた新たな機械翻訳の手法を考案しました。

どの単語がどのような場面で使われるのか。その使用頻度は異なる言語間でも似ているため、教師なし翻訳は対訳文データがなくともAIが言語同士の対応関係を結びつけてくれる

中間言語にマルチリンガルな言語モデルを適応

たとえば日本語の「おはよう」は、英語ではGood morning、ドイツ語ではGuten Morgen、フランス語ではBon jour です。これらの単語を「朝の挨拶」としてベクトル表現でエンコードし、中間言語の座標上にマッピングします。すると「フランス語の朝の挨拶」が必要になったとき、中間言語内の「朝の挨拶」の座標からデコードされた Bonjour が出力される、という仕組みです。これなら、新しい言語を中間言語にマッピングする際、すでに配置している英語やドイツ語などに手を加える必要はありません。  

現在、工学的にさまざまな制約や制限をかけることで複数言語のダイレクト翻訳が可能であることを示すため、この中間言語を作成しています。

中間言語を媒介したマルチリンガル教師なし機械翻訳の概念図。ピボット翻訳と教師なし翻訳はともに課題点が多いが、組み合わせることで解決できる

私は以前から「国際社会で活動するなら、英語力を身につけなければいけない」という考え方に疑問を持っていました。現代が“グローバルな時代”であるなら、少数言語の話者であっても「自分の国の言葉で、世界の人々に思いを伝えることができる」ことが可能になるべきです。

近年はインターネットを介して世界中の人々が繋がり、交流しています。あらゆる言語で高品質な機械翻訳が実現すれば、異なる言語の人々が集まって全員が母国語で喋っていても、その内容がきちんと伝わるようになるのです。

情報学の発展は、人間のさまざまな負担を軽減するためにある。研究者の英語習得にかける時間や労力がゼロになれば、それだけ研究に専念できるようになるはず

自分の研究を広くアピールできる絶好のチャンス

機械翻訳の研究は非常に活発で、知識や技術が日進月歩で更新されています。私はその中でも、大規模な言語間での高精度な翻訳を目指すより、なかなかスポットライトの当たらない無数に存在する少数言語に対して、可能な限り翻訳可能にしてあげたいという思いから、研究者として自身のテーマを着実に推進していこうと決めました。今回採択されたことで、他分野の先生にも本テーマの必要性を共感していただけたと感じられて、嬉しかったです。  

また、学生が自分の研究内容を広くアピールできる機会はほとんどないため、このようなWeb記事を作成してもらえることは、他の制度にはない大きなメリットだと思っています。誰かが自分の研究に興味を持ってくれたり、この記事を見た後輩が研究室の扉を叩いてくれるのではないか等、期待が膨らんでいます。

今後は「機械が言葉を理解し、人々をサポートする」というテーマを常に考えて、これからも挑戦し続けていくつもりです。

自分が思っていることを母国語で伝えられる、少数言語が置き去りにされない世界。その実現に貢献できる分野で、これからも研究を続けていきたい

(取材・撮影:ライティング株式会社 酒井若菜)