NAIST-IS-MT9551119: Tatuo Yamasita

規則と確率モデルの統合による形態素解析

山下達雄 (9551119)

形態素解析は，構文解析・意味解析などの高度な自然言語処理の基盤として重要な技術である．今までに研究されてきた日本語形態素解析システムは大きく次の２つの流れがある．

人手による優先規則を用いたシステム: 人間がさまざまな言語現象をおおまかにとらえて，規則などの形に抽象化した優先規則を用いるものである．これは今までの経験の蓄積であり，有効な資源といえる．しかし，このシステムには，例外的な規則を追加していくにつれ，保守・管理が人間の手には負えなくなってしまうという問題がある．
品詞タグ付きコーパスから学習されたパラメータを用いたシステム: このシステムは，さまざまな言語現象を含む大規模な品詞タグ付きコーパスが存在すれば高精度の解析が可能である．しかし，実際にはそのようなコーパスはなかなか入手できない．

本発表では，貴重な資源である人手による優先規則を活かし，細かい言語現象を扱うのに適したコーパスからの学習による確率パラメータを補完するという手法を提案する．この手法により，これら二つの方法の，保守・管理，及び，コーパス不足の問題を克服し，形態素解析精度の向上を目指した．実験の結果，及び，この手法の有用性を報告する．

なお，実装は形態素解析システム「茶筌」Ver.1.0を用いて行っている（「茶筌」は形態素解析システムJUMAN Ver.2.0 の上位互換である）．

規則と確率モデルの統合による形態素解析

山下 達雄 (9551119)

山下達雄 (9551119)