Japanese Text Normalization with Encoder-Decoder Model

池田 大志 (1551006)


Text normalization is a task of transforming lexical variants to their canonical forms. We model the problem of text normalization as a character-level sequence to sequence learning problem and present a neural encoder-decoder model for solving it. To train the encoder-decoder model, many sentence pairs are generally required. However, Japanese non-standard canonical pairs are scarce in the form of parallel corpora. To cope with this data sparseness problem, we propose a method of data augmentation to increase data size by converting existing resources into synthesized non-standard forms using handcrafted rules. We conducted an experiment to demonstrate that the synthesized corpus contributes to stably train an encoder-decoder model and improves the performance of Japanese text normalization.

崩れ表記の正規化とは, 表記揺れや口語表現で書かれた単語を辞書に登録されている表記に変換するタスクである. 本研究では,ニューラルネットワークに基づく文字単位のEncoder-decoderモデルを用いた日本語崩れ表記の正規化手法を提案する. 一般にEncoder-decoderモデルを学習するためには,入力とそれに対応する出力のペアデータが大量に必要となる. しかしながら, 日本語の崩れ表記に対して正規表記が付与されているペアデータは非常に少ない. そこで,この問題を解決するため,人手で記述したルールに基づき擬似的な崩れ表記文を生成し, そのデータを用いることで,Encoder-decoderデータを学習する方法を提案する. 実験により,擬似崩れ表記データを用いることで, Encoder-decoder モデルの学習の安定し, 崩れ表記の正規化の性能が向上することを示す.