コロキアムB発表

日時: 9月22日(水)3限(13:30~15:00)


会場: L1

司会: 磯山 直也
岩田 晟 M, 2回目発表 自然言語処理学 渡辺 太郎, 中村 哲, 進藤 裕之
title: Lexically Constrained Decoding For Non-autoregressive model
abstract: With the advent of neural networks, the performance of machine translation has been greatly improved compared to statistical translation. However, it is more difficult to control the output words of neural models compared to statistical models. For this reason, "Lexically Constrained MT" has been attracting attention in recent years. Existing methods require a large amount of model modification and time cost for control. To address these problems, we consider a decoding method for non-autoregressive models that enables fast inference.
language of the presentation: Japanese
発表題目: 非自己回帰モデルのための語彙制約デコーディング法
発表概要: ニューラルネットワークの登場により,統計的翻訳から比べて,機械翻訳の性能は大きく向上した.しかし,ニューラルモデルは統計的モデルと比べ,出力の単語を制御するのは難しい.そのため,近年では翻訳文の単語を制御する「Lexically Constrained MT」が注目されている.既存の手法では,モデルの変更や推論時間コストを大きく要求する.これらの問題に対処するために,高速な推論を可能とする非自己回帰モデルのためのデコーディング法を考える.
 
坂井 優介 M, 2回目発表 自然言語処理学 渡辺 太郎, 中村 哲, 進藤 裕之
title: Improving entity representation in Neural Machine Translation using Knowledge Graph Embedding
abstract: Machine translation has been known to suffer from the problem of inadequate translation for unobserved words or low frequent words, such as named entities. In order to solve this problem, recent machine translation adapts subword units in order to expand the word vocabulary coverage while keeping the model's vocabulary size limited. Meanwhile, there are efforts to improve translation accuracy by using large monolingual data sets, such as knowledge graphs, and incorporating them into machine translation. However, it is not easy to efficiently incorporate huge knowledge graphs into machine translation. I propose a method for neural machine translation that combines subword segmentation and knowledge graph injection at the same time. My future plan is to investigate how the injection of the knowledge graph affects the neural machine translation, including the analysis of attention.
language of the presentation: Japanese
 
原田 慎太朗 M, 2回目発表 自然言語処理学 渡辺 太郎, 中村 哲, 進藤 裕之
title: Neural Machine Translation with Unsupervised Syntactic Structures
abstract: In recent years, machine translation based on neural networks (NMT) has been applied to many language pairs and achieved high performance. Moreover, previous studies have reported that adding additional syntactic information can improve the performance and explainability of NMT. However, engineering syntactic information requires linguistic expertise and a lot of time. In this work, we introduce a method for automatically inducing a syntactic structure. The method automatically induces syntactic structure from both the source and target languages text and uses them to improve the performance and explainability of NMT. Furthermore, by inducing the two types of syntactic structure; constituency and dependency, we analyze the correlation between language pairs and these syntactic structures for further research.
language of the presentation: Japanese
発表題目: 教師なしの構文構造を用いたニューラル機械翻訳
発表概要: 近年、ニューラルネットワークに基づく機械翻訳(NMT)が多くの言語間に適用され、高い性能を達成している。さらに、これまでの研究では、構文情報を追加することで、NMTの性能と説明可能性が向上することが報告されている。しかし、構文情報のアノテーションは、言語的な専門知識と多くの時間を必要とする。本研究では、自動的に構文構造を誘導する方法を紹介する。この手法は、ソース言語とターゲット言語の両方のテキストから自動的に構文構造を誘導し、それを用いてNMTの性能と説明能力を向上させる。さらに、構成単位と従属単位の2種類の構文構造を誘導することで、言語ペアとこれらの構文構造の相関関係を分析し、今後の研究につなげる。
 
原田 宥都 M, 2回目発表 自然言語処理学 渡辺 太郎, 中村 哲, 進藤 裕之
title: Analysis of the information needed for the task (for Nested Named Entity Recognition) by Variational Information Bottleneck
abstract: Large-scale pre-trained word embeddings can be useful for a variety of tasks because they contain a wealth of semantic and syntactic information. What this shows is that not all of the information held by a word embedding is needed for each task. We propose three models for applying Variational Information Bottleneck (VIB), a method for specializing word embeddings for a task, to Nested Named Entity Recognition (Nested-NER). Experimental results show that our proposed models do not lose much accuracy in Nested-NER even when unnecessary information is discarded. We also succeeded in clearly visualizing how the nested entities in each layer differ in terms of the information required for their prediction.
language of the presentation: Japanese
発表題目: 情報ボトルネック法による入れ子型固有表現認識タスクに必要な情報の分析
発表概要: 事前に学習された大規模な単語埋め込みは、豊富な意味的・構文的情報を含んでいるため、様々なタスクに役立ちます。 このことが示すのは、それぞれのタスクにおいて、単語埋め込みの保持する情報の全てが必要とは限らないということです。 私たちは、単語埋め込みをタスクのために専門化するための方法であるVariational Information Bottleneck(VIB)を、Nested Named Entity Recognition(Nested-NER)タスクに適用するための三種類のモデルを提案します。 実験の結果、提案したモデルは、Nested-NERにおいては不必要な情報を捨てても精度にはさほど影響がないことを示しました。また、各レイヤーにおける入れ子になった固有表現について、それらの予測に必要な情報がどのように異なるのかを視覚化することに成功しました。