日本語形態素解析から多国語形態素解析へ
浅原 正幸 (9851001)
修士論文(原題:"Extended Statistical Model for Morphological
Analysis")ではマルコフモデルという一つの枠組みにおける三つの拡張を
論じた。
Lexicalized POS は一単語を一品詞とみなす品詞タグを意味し、品詞決定に重要
な単語や自身の品詞決定が曖昧な単語について適用し、解析精度を向上させるこ
とができた。
Position-wise grouping は、マルコフモデルの条件つき確率の前件と後件とで
異なる品詞タグのグループ化を意味し、品詞タグを減らすことによるデータスパー
スネスの軽減をすると同時に、日本語の活用の性質や話し言葉に頻出する縮約表
現への対応ができるようになった。
Selective tri-gram は、品詞 tri-gram 連接を選択的に品詞 bi-gram モデルを
意味し、通常の tri-gram が適用できないような少ないデータセットに対し、解
析に必要な重要な tri-gram 連接のみをモデルに適用することができるようになっ
た。
これら三つの拡張の素性選択に誤り駆動による手法を適用し、モデル改善のため
の手作業を減らすことができた。
これらのモデルは日本語形態素解析器 ChaSen のために作成されたもの
である。
本発表では、修士論文で論じた各国語共通のモデル改善から発展して各国語で異
なる必要なモデル改善について論証する。
英語、フランス語、ドイツ語、ロシア語、中国語、韓国語 そして日本語の七ヶ
国語の形態素解析を比較し、多国語形態素解析器の必要要件を論じる。
一般に、形態素解析器の評価をする際、次の七つの項目について評価される:
- accuracy
- trainability
- speed
- possibility to increase the lexicon
- size/granularity of tagset
- text normalization (=tokenization)
- unseen word processing
このうち、最初の四つについては各言語間で同一の枠組で扱うことが可能である。
しかし、最後の三項目については、言語間で微妙な差異が生まれる。
一番目に、形態素解析として必要な品詞タグ集合(size/granularity of tagset)
について考える。
各国語の品詞タグ集合を例示しながら、各品詞タグの重要度について検証する。
二番目に、各国語で異なる単語の単位(text normalization)の問題について提示
する。わかち書きの有無の問題をはじめとし、句読法や表記について検証する。
三番目に、形態素解析の分野で現在も依然として困難とされている未知語処理
(unseen word processing)の現在について述べる。
最後にこれらの検証を総合し、言語間差異を吸収できるようなシステム設計を提
示する。
時間が許せば中国語、韓国語、日本語特有のわかち書きの単位の問題にも触れる。