誤り駆動型の確率モデル学習による日本語形態素解析

北内 啓(9651040)


自然言語処理において、形態素解析は基本的かつ重要な技術であり、また応用 範囲も広く、現在まで様々な形態素解析システムが開発されてきた。

一方、近年大量の品詞タグ付きコーパスが利用可能になってきており、これを 用いて形態素解析のパラメータを統計的に学習する方法が盛んに行われるよう になってきた。しかし、パラメータ値を自動的に推定できるようになっても、 その土台となる文法そのものは固定されているものが多い。例えば、どういっ た品詞分類のもとでパラメータ推定を行えば高い精度が得られるのかは人手で 適当に決めていることが多い。

そこで本研究では、パラメータ推定の精度を上げるための有効な品詞分類を自 動的に学習した。解析誤りをもとに詳細化する品詞分類を素性として取り出し、 品詞分類を徐々に細かくしていくことで品詞分類を決定する。学習によって得 られた品詞分類を用いて bi-gram のマルコフモデルに基づくパラメータ推定 を行うことにより、形態素解析の精度を向上させた。

実験により、人手で適当に調整して決めた品詞分類に比べ、より少ないパラメー タ数でより高い精度を得ることができた。また、品詞分類によってパラメータ 数や精度がどのように変化するかといった、品詞分類全体の性質をとらえるこ とができた。