規則と確率モデルの統合による形態素解析

山下 達雄 (9551119)


形態素解析 は, 構文解析・意味解析などの高度な自然言語処理の基盤として 重要な技術である. 今までに研究されてきた日本語形態素解析システムは 大きく次の2つの流れがある.
人手による優先規則を用いたシステム

人間がさまざまな言語現象をおおまかにとらえて, 規則などの形に抽象化した優先規則を用いるものである. これは今までの経験の蓄積であり, 有効な資源といえる. しかし, このシステムには, 例外的な規則を追加していくにつれ, 保守・管理が人間の手には負えなくなってしまうという問題がある.

品詞タグ付きコーパスから学習されたパラメータを用いたシステム

このシステムは,さまざまな言語現象を含む大規模な品詞タグ付きコーパス が存在すれば高精度の解析が可能である. しかし,実際にはそのようなコーパスはなかなか入手できない.
本発表では, 貴重な資源である人手による優先規則を活かし, 細かい言語現象を扱うのに適したコーパスからの学習による確率パラメータ を補完するという手法を提案する. この手法により, これら二つの方法の,保守・管理,及び,コーパス不足の問題を 克服し,形態素解析精度の向上を目指した. 実験の結果,及び,この手法の有用性を報告する.

なお,実装は 形態素解析システム「茶筌」Ver.1.0を用いて行っている (「茶筌」は形態素解析システムJUMAN Ver.2.0 の上位互換である).