NAIST-IS-MT9851001: Masayuki Asahara

日本語形態素解析から多国語形態素解析へ

浅原正幸 (9851001)

修士論文(原題:"Extended Statistical Model for Morphological Analysis")ではマルコフモデルという一つの枠組みにおける三つの拡張を論じた。 Lexicalized POS は一単語を一品詞とみなす品詞タグを意味し、品詞決定に重要な単語や自身の品詞決定が曖昧な単語について適用し、解析精度を向上させることができた。 Position-wise grouping は、マルコフモデルの条件つき確率の前件と後件とで異なる品詞タグのグループ化を意味し、品詞タグを減らすことによるデータスパースネスの軽減をすると同時に、日本語の活用の性質や話し言葉に頻出する縮約表現への対応ができるようになった。 Selective tri-gram は、品詞 tri-gram 連接を選択的に品詞 bi-gram モデルを意味し、通常の tri-gram が適用できないような少ないデータセットに対し、解析に必要な重要な tri-gram 連接のみをモデルに適用することができるようになった。これら三つの拡張の素性選択に誤り駆動による手法を適用し、モデル改善のための手作業を減らすことができた。これらのモデルは日本語形態素解析器 ChaSen のために作成されたものである。

本発表では、修士論文で論じた各国語共通のモデル改善から発展して各国語で異なる必要なモデル改善について論証する。英語、フランス語、ドイツ語、ロシア語、中国語、韓国語そして日本語の七ヶ国語の形態素解析を比較し、多国語形態素解析器の必要要件を論じる。

一般に、形態素解析器の評価をする際、次の七つの項目について評価される:

accuracy
trainability
speed
possibility to increase the lexicon
size/granularity of tagset
text normalization (=tokenization)
unseen word processing

このうち、最初の四つについては各言語間で同一の枠組で扱うことが可能である。しかし、最後の三項目については、言語間で微妙な差異が生まれる。一番目に、形態素解析として必要な品詞タグ集合(size/granularity of tagset) について考える。各国語の品詞タグ集合を例示しながら、各品詞タグの重要度について検証する。二番目に、各国語で異なる単語の単位(text normalization)の問題について提示する。わかち書きの有無の問題をはじめとし、句読法や表記について検証する。三番目に、形態素解析の分野で現在も依然として困難とされている未知語処理 (unseen word processing)の現在について述べる。最後にこれらの検証を総合し、言語間差異を吸収できるようなシステム設計を提示する。

時間が許せば中国語、韓国語、日本語特有のわかち書きの単位の問題にも触れる。

日本語形態素解析から多国語形態素解析へ

浅原 正幸 (9851001)

浅原正幸 (9851001)