NAIST-IS-MT9651040: Akira Kitauchi

誤り駆動型の確率モデル学習による日本語形態素解析

北内啓(9651040)

自然言語処理において、形態素解析は基本的かつ重要な技術であり、また応用範囲も広く、現在まで様々な形態素解析システムが開発されてきた。

一方、近年大量の品詞タグ付きコーパスが利用可能になってきており、これを用いて形態素解析のパラメータを統計的に学習する方法が盛んに行われるようになってきた。しかし、パラメータ値を自動的に推定できるようになっても、その土台となる文法そのものは固定されているものが多い。例えば、どういった品詞分類のもとでパラメータ推定を行えば高い精度が得られるのかは人手で適当に決めていることが多い。

そこで本研究では、パラメータ推定の精度を上げるための有効な品詞分類を自動的に学習した。解析誤りをもとに詳細化する品詞分類を素性として取り出し、品詞分類を徐々に細かくしていくことで品詞分類を決定する。学習によって得られた品詞分類を用いて bi-gram のマルコフモデルに基づくパラメータ推定を行うことにより、形態素解析の精度を向上させた。

実験により、人手で適当に調整して決めた品詞分類に比べ、より少ないパラメータ数でより高い精度を得ることができた。また、品詞分類によってパラメータ数や精度がどのように変化するかといった、品詞分類全体の性質をとらえることができた。

誤り駆動型の確率モデル学習による日本語形態素解析

北内 啓(9651040)

北内啓(9651040)