INTERVIEW

日本学術振興会(JSPS)特別研究員

TOP
BACK
音声翻訳 同時通訳 ニューラル機械翻訳

音声によるコミュニケーション支援技術の進展に寄与したい

新しい知識を学びたいのに、日本語の文献や資料、講演データがない。そんな“言語の壁”に悩まされた人は多いのではないでしょうか。

数年前に登場したニューラル機械翻訳は、この壁の解消に大いに貢献しました。しかし、テキストの翻訳と比べて、音声機械翻訳の技術開発は遅れています。

テキストの翻訳は、テキストデータ全体が一回で与えられるため、時間をかけて文脈を把握し、翻訳できます。一方、話し言葉は徐々にインプットされ、3〜4単語ごとに翻訳し、素早く出力しなければなりません。発話を個別に翻訳する既存の方法では、過去の文脈を考慮できず、人間の同時通訳者のように話の流れに沿った訳語を選択できないのです。

深層学習には音声データと、それに対応した翻訳テキストが大量に必要だが、音声データはテキストデータと比較して数千分の1程度しか入手できない

音声分割技術により、文脈を考慮した適切な機械翻訳を実現

本研究では、私がこれまでに開発した「音声翻訳に適した位置で音声を分割する技術」を応用しています。発話全体のデータを対象としたもののため同時性はありませんが、翻訳するうえで分割すべき位置を適切に決定し、撥音を正しく認識することで、より正確な翻訳を可能にする技術です。これを同時音声機械翻訳に組み込むことで、文脈を考慮する仕組みが作れると考えました。

文脈を理解するためには、リアルタイムで与えられる音声データを常に一定量メモリに保存し、ある程度の長さに対して翻訳を行う必要があります。ただし、メモリに保存可能なデータ量には上限があり、保存量が多いほど計算に時間がかかるため、同時性が損なわれます。この課題に対して音声分割技術を応用し、保存すべき量を決定して、遅延なく高精度の翻訳ができる計算量の最適化を図っています。

言語は「英語から日本語」と「英語からドイツ語」 を想定し、将来的にはテキストでの翻訳ではなく、音声による翻訳を目指す

現時点では、同時音声機械翻訳はまだ実用レベルには至っていませんが、同時性のない音声機械翻訳は実用化を見込める精度に達しました。今後も多くの音声データを学習させ、精度を向上させていきます。

同時音声機械翻訳の実用化は、災害時など緊急性が高いニュースにリアルタイムで字幕をつけて外国人への迅速な情報提供を可能にしたり、高度なスキルが要求される同時通訳者のサポートとして活用するなど、幅広い場面で“言葉の壁”の問題を解消すると期待しています。

人間の通訳者のように不要な部分や冗長な部分を削除し、必要な情報だけをスピーディに翻訳する「情報の取捨選択」も、今後取り組むべき課題

「実用的で価値が高い」研究成果を目指して

自分の裁量で使える研究費を得たことで、本研究で「成果を出す」ことへの強い責任感が生まれました。また、生活への金銭的支援も大きく、研究に専念できる環境にとても感謝しています。  

申請書の作成は大変だと思いますが、私にとっては研究計画をじっくりと練る良い機会になりました。他者に伝える力が磨かれたり、審査員からの評価で自分の弱点を認識できるなど、多くのメリットがあるため、ぜひ挑戦してください。

これからも、学術的な価値はもちろんのこと、実社会で必要とされているものを開発し、実用的にも価値の高い研究課題に取り組んでいく所存です。

修了後は企業の研究所に就職し、自分を含めた多くの人が「あるといいな」「便利だな」と思うコミュニケーション支援技術の開発を続ける

(取材・撮影:ライティング株式会社 酒井若菜)