Joint Prediction of Morphosyntactic Categories for Fine-Grained Arabic Part-of-Speech Tagging Exploiting Tag Dictionary Information

井上 剛 (1651015)


品詞タグ付けは,自然言語処理において基礎的な言語解析タスクのひとつである. 言語固有の情報を反映した高粒度な品詞タグセットのサイズは,言語ごとに異なる. 例えば,形態的に乏しい言語の一つである英語では,典型的な品詞タグの種類数が100以下である一方,形態的に豊かな言語の一つであるアラビア語では333,000種類に上る[1]. タグセットが膨大になるのは,品詞タグが各形態統語的カテゴリに定義されたタグの組み合わせによって構成されるためである. 例えば,「حب」Hb 'love'という語に対する品詞タグは,粗い品詞が「名詞」,格が「主格」,法が「非該当」などのように,各カテゴリごとの値を組み合わせた形として定義される. その結果生じる膨大なタグ候補は,アラビア語に対する高粒度な品詞タグ付けを困難にする.

このようなタグセットの枠組みのもとで品詞タグ付けを行うには,ある形態統語的カテゴリのタグを予測する際に,他のカテゴリからの情報を活用することが有益である. 例えば,入力語の粗い品詞が名詞であった場合,格は主格,属格,対格のいずれかを取る一方,法は非該当を取らなければならない. これは,名詞類には法という文法範疇が定義されないためである. 既存研究[1,2,3]では,各形態統語的カテゴリを独立に予測しており,このような情報は十分に活用されてこなかった.

そこで本研究では,マルチタスク学習の枠組みを用いて,各形態統語的カテゴリを予測するタスクを同時にモデル化するアプローチを提案する. また,さらなる性能向上のため,入力語に対して各形態統語的カテゴリが取りうるタグを登録した辞書情報をモデルに組み込む手法を提案する. Penn Arabic Treebankを用いた評価実験の結果,提案手法は91.38%の正解率を達成し,先行研究[3]の性能を上回ることを確認した.

参考文献

  1. Nizar Habash and Owen Ranbow. 2005. Arabic Tokenization, Part-of-Speech Tagging and Morphological Disambiguation in One Fell Swoop. ACL2005. [paper]
  2. Arfath Pasha, Mohamed Al-Badrashiny, Mona Diab, Ahmed El Kholy, Ramy Eskander, Nizar Habash, Manoj Pooleery, Owen Rambow, and Ryan M. Roth. 2014. MADAMIRA: A Fast, Comprehensive Tool for Morphological Analysis and Disambiguation of Arabic. LREC2014. [paper]
  3. Anas Shahrour, Salam Khalifa, and Nizar Habash. 2015. Improving Arabic Diacritization through Syntactic Analysis. EMNLP2015. [paper]