規則と確率モデルの統合による形態素解析
山下 達雄 (9551119)
形態素解析
は,
構文解析・意味解析などの高度な自然言語処理の基盤として
重要な技術である.
今までに研究されてきた日本語形態素解析システムは
大きく次の2つの流れがある.
- 人手による優先規則を用いたシステム
- 人間がさまざまな言語現象をおおまかにとらえて,
規則などの形に抽象化した優先規則を用いるものである.
これは今までの経験の蓄積であり,
有効な資源といえる.
しかし,
このシステムには,
例外的な規則を追加していくにつれ,
保守・管理が人間の手には負えなくなってしまうという問題がある.
- 品詞タグ付きコーパスから学習されたパラメータを用いたシステム
- このシステムは,さまざまな言語現象を含む大規模な品詞タグ付きコーパス
が存在すれば高精度の解析が可能である.
しかし,実際にはそのようなコーパスはなかなか入手できない.
本発表では,
貴重な資源である人手による優先規則を活かし,
細かい言語現象を扱うのに適したコーパスからの学習による確率パラメータ
を補完するという手法を提案する.
この手法により,
これら二つの方法の,保守・管理,及び,コーパス不足の問題を
克服し,形態素解析精度の向上を目指した.
実験の結果,及び,この手法の有用性を報告する.
なお,実装は
形態素解析システム「茶筌」Ver.1.0を用いて行っている
(「茶筌」は形態素解析システムJUMAN Ver.2.0 の上位互換である).