自然言語処理学研究室の蒔苗 茉那さん(博士後期課程1年)が、情報処理学会 第261回自然言語処理研究発表会において若手奨励賞を受賞しました。(2024/9/3)

 自然言語処理研究会は、計算機を用いた言語処理に関わる諸技術(形態素解析、統語解析、意味解析、談話解析、自然言語生成、対話、言語知識表現・獲得、機械翻訳、その他言語解析の応用)および、そのための言語資源(言語資料・統計、辞書、文法等)を研究分野としています。第261回研究発表会は、2024年9月3日、梅田スカイビルおよびオンラインでハイブリッド開催されました。
 若手奨励賞は、各研究会において優秀な論文発表を行った若手(その年の年度頭に30歳未満、または学生)に対して授与するものです。表彰件数は対象となる発表の10~20%程度とし、選考は研究会参加者の投票によって行われます。(NL研究会HPより抜粋)
image
  • 受賞者 Awardees:
     蒔苗 茉那(博士後期課程1年 )

  • 受賞テーマ Research theme:
     "Simul-MuST-C:大規模言語モデルによる語順の単調性に着目した同時音声翻訳用コーパスの構築"
     同時音声翻訳は、原発話の入力の終了を待たずに訳出を開始することから、高品質かつ低遅延の訳出が求められる。一方で、話者のペースに遅れることなく訳出を行う同時通訳者は、原発話をより小さいセグメントに区切り、原発話の語順を可能な限り保ちながら各セグメントを順次訳出しているとされ、この技法はサラミテクニックと呼ばれている。同時音声翻訳システムも、サラミテクニックを参考に、原発話の語順により一致した訳出ができれば、遅延の低減につながることが期待される。しかし、現在同時音声翻訳システム構築に使用されているデータでは、単語の並び替えが頻繁に発生し、原言語と目的言語の間で語順の単調性が保たれていない場合もあり、そのようなコーパスを元に低遅延の訳出を達成することには、限界がある。本稿では、大規模言語モデルを用いて、サラミテクニックを参考に、既存の音声翻訳コーパスから、原言語と目的言語の語順ができるだけ一致するように書き換えを行ったデータセットSimul-MuST-Cを新規に構築する。英日、英中、英独の3言語を対象に、Simul-MuST-Cを使用して同時音声翻訳システムを構築した結果、サラミテクニックによる単調性向上の効果は言語ペアの文法構造の差によって変化し、英日間のように文法的に大きく語順の異なるペアに対して、特に高品質かつ低遅延な訳出が達成可能であることがわかった。

  • 著者 Authors:
     蒔苗 茉那(博士後期課程1年)、坂井 優介(博士後期課程3年)、上垣外 英剛、渡辺 太郎

  • 受賞者のコメント Awardee's voice
     このような賞をいただくことができて光栄です。本研究会の運営に携わった方々、そして本研究に対して多くのコメントをくださった方々に感謝申し上げます。今後もよい研究を重ねていけるよう精進します。

  • 外部リンク Links to:
     第261回 自然言語処理研究発表会 HP: https://www.ipsj.or.jp/kenkyukai/event/nl261.html

>> 自然言語処理学研究室 Natural Language Processing lab