蒔苗 茉那 | M, 2回目発表 | 知能コミュニケーション | 中村 哲, 渡辺 太郎, 須藤 克仁 |
title: Word Order Metrics for Distant Language Pair Simultaneous Translation
abstract: In simultaneous translation, translation starts before the speaker has finished speaking and its evaluation needs to consider both latency and quality. What the speaker says with small delays is preferable for users' comprehension. This trade-off between latency and quality is challenging especially for distant language pairs such as English and Japanese when the language pair has completely different word order. To handle this word order problem, English to Japanese interpreters adopt the first-in-first-out strategy, maintaining the word order of the source language as much as possible to keep up with original speeches while maintaining output quality. This strategy is essential for distant langage pair interpretation to balance between latency and quality, however, existing latency and quality metrics fail to distinguish word order synchronized-to-source output and word order not synchronized-to-source output. This impedes simultaneous translation progress because only synchronized-to-source output is desirable based on the first-in-first-out strategy that simultaneous interpreters use . We propose an automatic word order synchronicity evaluation metric for simultaneous translation. Our evaluation metric is based on rank correlation, leveraging cross-lingual pretrained language model(Multilingual BERT). Our results show significant word order differences between interpretation and translation when the output quality is at a certain level. language of the presentation: Japanese 発表題目: 文法構造が大幅に異なる言語ペアの同時翻訳/通訳のための語順評価指標 発表概要: 同時翻訳/通訳では、話し手が話し終わる前に翻訳が開始されるため、その評価には遅延と品質の両方を考慮する必要がある。ユーザの理解には遅延の少ないかつ高品質な訳出が望ましいのである。このような遅延と品質のトレードオフは、特に英語と日本語のような語順が大幅に異なる言語ペアでは特に課題である。そこで語順差の問題を処理するために、英日通訳者はファースト・イン・ファースト・アウト戦略を採用し、原発話の語順を可能な限り保ちつつ、高品質な訳出を行っている。この戦略は、遅延と品質のバランスをとるために、大幅に語順が異なる言語ペア通訳には不可欠である。しかし、既存の遅延・品質評価指標は、このファースト・イン・ファースト・アウト戦略を捉えることができない。実際の同時通訳者の訳出スタイルから、原発話の語順を可能な限り保っている訳出のみを用いることが、今後の同時翻訳の発展において重要である。そこで本研究では、同時翻訳における自動的な語順同期性評価指標を提案する。この評価指標は順位相関に基づくものであり、多言語の事前学習済み言語モデル(Multilingual BERT)を活用している。その結果、出力品質が一定のレベルにある場合、通訳と翻訳の間に有意な語順の違いがあることが示された。 | |||
田中 康紀 | M, 2回目発表 | 知能コミュニケーション | 中村 哲, 渡辺 太郎, 須藤 克仁 |
title: Improving Machine Translation with Maximizing Quality-Estimation and Data Augmentation abstract: The quality of neural machine translation depends on the quantity of parallel data (pairs of source and reference sentences). However, in many languages, the availability of parallel data is insufficient. On the other hand, monolingual data is easier to collect and more readily available compared to parallel data. In this study, we aim to enhance the performance of translation systems by pseudo-generating a large quantity of parallel data using available monolingual data (source text) with the aid of quality estimation, thereby incorporating reference sentence information 発表題目: 品質推定の最大化を用いたデータ拡張による翻訳機の性能向上 発表概要: ニューラル機械翻訳の品質は対訳データ(原文と参照文のペア)の数に依存するが、多くの言語では対訳データが十分ではない.一方.対訳データに比べて,単言語データは収集しやすく,大量に用意しやすい.本研究では,利用可能な単言語データ(原文)に品質推定器を元に,参照文情報を付けることがで擬似的に大量の対訳データを得ることで,翻訳器の性能改善を目指す. | |||
加納 保昌 | D, 中間発表 | 知能コミュニケーション | 中村 哲, 渡辺 太郎, 須藤 克仁 |
title: Average Token Delay: Latency Metric Focusing on End Timing of Simultaneous Translation
abstract: Simultaneous translation is a challenging task where translation begins while the speaker is still speaking. When evaluating this process, it's essential to account for both the latency and the quality of translation. Ideally, we want the translation to be as quick as possible, ensuring minimal delay for users to grasp the speaker's message. Current latency metrics mainly focuse on when translation starts but does not consider enough when it ends. Consequently, these metrics fail to penalize delays caused by lengthy translation output, which can significantly delays user comprehension. In our study, we introduce a novel latency metric called Average Token Delay (ATD), concentrating on the end timings of partial translations during simultaneous interpretation. We illustrate the advantages of ATD using simulated examples. We also evaluate the proposed simultaneous translation model which utilizes bilingual prefix pairs with ATD. language of the presentation: English | |||
西川 勇太 | M, 2回目発表 | 知能コミュニケーション | 中村 哲, 渡辺 太郎, 須藤 克仁 |
title: Inter-connection: Effective Connection between Pre-trained Encoder and Decoder for Speech Translation
abstract: In end-to-end speech translation, speech and text pre-trained models improve translation quality. Recently proposed models simply connect the pre-trained models of speech and text as encoder and decoder. Therefore, only the information from the final layer of encoders is input to the decoder. Since it is clear that the speech pre-trained model outputs different information from each layer, the simple connection method cannot fully utilize the information that the speech pre-trained model has. In this study, we propose an inter-connection mechanism that aggregates the information from each layer of the speech pre-trained model by weighted sums and inputs into the decoder. This mechanism increased BLEU by approximately 2 points in en-de, en-ja, and en-zh by increasing parameters by 2K when the speech pre-trained model was frozen. Furthermore, we investigated the contribution of each layer for each language by visualizing layer weights and found that the contributions were different. In addition, the aggregation method for intermediate representations using attention mechanism shows the potential to further improve performance. language of the presentation: Japanese 発表題目: Inter-connection: 重み付き和を用いた音声翻訳における事前学習済みモデルの接続手法 発表概要: End-to-End音声翻訳では、音声とテキストの事前学習モデルが翻訳品質を向上させる。近年提案されたモデルは、音声とテキストの事前学習済みモデルをEncoderとDecoderとして単純に接続したものである。そのため、Encoderの最終層からの情報のみがDecoderに順伝播される。しかし、音声の事前学習モデルは各中間層に有用な情報を多く含んでいる事が知られている。そのため、最終層から次の層に伝播するだけでは音声の事前学習済みモデルが持つ情報を十分に活用することが出来ない。そこで本研究では、音声の事前学習モデルの各層の中間表現を重み付き和で集約しDecoderに入力するInter-connectionを提案する。このメカニズムの導入により、音声の事前学習モデルのパラメータを凍結した状態で、パラメータ数をわずか2000程度増加させることでen-de, en-ja, en-zhの言語ついにおいてBLEUを約2ポイント向上させることが出来た。各層に割り当てられている重みを各言語対ごとに可視化することで、言語対ごとに推論に必要な情報の重要度が異なることが明らかとなった。さらに、注意機構を用いた中間表現の集約手法が性能をさらに向上させる可能性を示す。 | |||