胡 尤佳 | D, 中間発表 | 知能コミュニケーション | 中村 哲, 渡辺 太郎, 須藤 克仁 |
title: Toward Low Latency Speech Translation for Speech Including Disfluencies
abstract: Speech translation (ST) translates speech into text or speech in the target language. Spontaneous speech often includes disfluency as fillers and hesitations, so it is important to make the ST model aware of those disfluencies phenomena. We prefer fluent translations from spontaneous speech for readability and conveying the information in low latency. In study 1, we propose a method to train a disfluency-aware ST model that can remove disfluencies. The proposed method uses target language text with disfluency tags to learn the disfluency removal in the training of a disfluent-to-fluent (D2F) ST model. The experimental results show that the proposed method increases BLEU scores and decreases the number of disfluencies remaining in ST outputs compared with baseline methods. In study 2, to improve the performance of the simultaneous speech translation model, we proposed a method that makes effective use of a simultaneous interpretation (SI) data in order to aim for simultaneous interpretation-like output. In conventional methods, a small amount of simultaneous interpretation data is used to fine-tune on a pre-trained model. However, the small amount of data tends to cause overfitting on SI data. Therefore, we propose a tagged mixed fine-tuning method that effectively utilizes both offline data and SI data. Our experimental results show that the proposed model generates more SI-like output. language of the presentation: Japanese 発表題目: 音声発話に含まれる非流暢性を考慮した逐次音声翻訳・同時音声翻訳システムに向けて 発表概要: 自由発話はフィラーや言い淀みなどの非流暢性を含むことがあるため、発話を目的言語のテキストや音声に翻訳する音声翻訳でもそれらの現象への対応が重要である。特に、非流暢性を含む音声から流暢なテキストへの翻訳は、翻訳時に非流暢性を除去する必要があり、非流暢性を含むテキストへの翻訳よりも難しい。リアルタイムでできるだけ早く情報を得る必要がある状況下において、非流暢性のような不必要な出力を制御し、流暢な出力を得ることは重要である。 本研究では、音声発話に含まれる非流暢性を考慮した音声翻訳を、話し手の発話終了を待って訳出する逐次音声翻訳と、話し手の発話終了を待たずに訳出を始める同時音声翻訳の、両方において実現することを目指す。 研究1では、非流暢性タグを含む目的言語テキストで学習したモデルを用い、流暢なテキストへの翻訳を学習する手法を提案する。本研究で用いるタグは、多様な非流暢性を一つのタグで表し、非流暢性事象の位置情報を含む。実験から、提案手法による、非流暢性を含む音声から流暢なテキストへの翻訳性能向上の効果が示された。 研究2では、同時音声翻訳モデルの性能向上のために、同時通訳らしい出力を目指すため、同時通訳コーパスを有効利用する手法を提案した。従来の方法では、少量の同時通訳データを用いてモデルの追加学習を行うが、データが少ないことで過学習される傾向がある。そこで本研究では、逐次翻訳データと同時通訳データ両方を有効活用した、タグ付き混合学習手法を提案し、実験を通じて、提案モデルがより同時通訳らしい出力を実現できることを示した。 | |||
石川 隆太 | M, 2回目発表 | 知能コミュニケーション | 中村 哲, 渡辺 太郎, 須藤 克仁 |
title: Divide-and-Conquer Neural Machine Translation with In-Sentence Context
abstract: Translation of long sentences is one of the major challenges in neural machine translation (NMT). The advent of attention mechanisms has greatly reduced some of the challenges in translating long sentences. Attention mechanisms can direct attention to individual parts of the input sentence, but it is difficult to effectively compress and handle all of that information in very long sentences. We hypothesise that when translating long sentences, instead of focusing on all parts of the input sentence, the information in the input sentence can be compressed and translated more efficiently by treating long sentences in segments of a certain length. In this study, English sentences with one or more conjunctions in the sentence and an S (clause) structure before and after the conjunction are targeted, and the sentence is divided by the conjunction and the divided clauses are translated. The clause translation model with fine-tuning for clause-by-clause translation is used to translate the clauses, and after joining the translated clauses with the conjunction, a seq2seq model, which is different from the translation model, is used to translate the joined conjunctions and to align the final output. Experimental results on English to Japanese translation using ASPEC show that the proposed method exhibits better BLEU than the baseline using the multilingual BART model, especially for longer input sentences containing more than 60 English tokens. language of the presentation: Japanese 発表題目: 文単位のコンテキストを使用した分割統治型ニューラル機械翻訳 発表概要:長文の翻訳は、ニューラル機械翻訳(NMT)における大きな課題の一つである。注意機構の登場により、長文の翻訳における一部の課題は大きく軽減された。注意機構は入力文の各部分に注意を向けることができるが、非常に長い文ではその全ての情報を効果的に圧縮して扱うことは難しい。我々は、長文を翻訳する際、入力文の全ての部分に注目するのではなく、ある程度の長さで長文を分割して扱うことで、より効率的に入力文の情報を圧縮し翻訳を行うことができるという仮説を立てた。 本研究では文中に接続詞を1つ以上持ち、かつその接続詞の前後がS (節)の構造を持つ英文を対象とし、文の接続詞での分割と分割された節の翻訳を行う。節の翻訳には節単位の翻訳にファインチューニングした節翻訳モデルを使用し、翻訳された節同士を接続詞で結合した後、翻訳モデルとは別のseq2seqモデルで結合後の接続詞の翻訳と最終的な出力を整える手法を提案する。 ASPECを使用した英語から日本語への翻訳の実験結果は、特に60以上の英語トークンを含む長い入力文の場合、提案された方法が多言語BARTモデルを使用したベースラインよりも優れたBLEUを示すことを明らかにした。 | |||
成浦 拓音 | M, 2回目発表 | 知能コミュニケーション | 中村 哲, 渡辺 太郎, 品川 政太朗, 須藤 克仁 |
title: Towards flexible operation of machine translators
abstract: In video and conversational translation, it is important to reflect the length and style of the conversation in order to translate the content implied by the source language. Existing research has shown that it is possible to instruct the length of a sentence to be adjusted by giving tokens indicating the sentence ratio, but there has been no research that can explicitly specify the translation length. In this presentation, we investigate the behaviour of translation length manipulation using length tokens when the length ratio of the translation length is specified and then the translation length is generated. The results of the translation length ratio studies of the differences in accuracy when the length is changed will be presented, and I will show my future research. language of the presentation: Japanese 発表題目: 機械翻訳長の柔軟な操作に向けて ビデオや会話の翻訳では、ソース言語が含む情報を翻訳するために、会話の長さとスタイルを反映することが重要である。 既存の研究では文の比率を示すトークンを与えることで文の長さの調整を指示できることが示されている一方、翻訳の長さを明示的に指定できる研究は存在しなかった。 本発表では、翻訳長の長さの比率を指定して翻訳長を生成する際に、長さトークンを用いた翻訳長操作の動作を調査します。 長さを変えたときの精度の違いを翻訳長比で調べた結果を紹介し、今後の研究案について述べる。 | |||