Support Vector Machineを用いた形態素解析とコーパスの誤り検出

中川 哲治 (0051070)


形態素解析は自然言語処理において重要な基礎技術の一つである. 今日,形態素解析の方法として隠れマルコフモデル等の統計的手法が 広く用いられている. しかしながら,それらの方法は多量の素性をうまく扱えないなどの問題がある.

近年提案された,機械学習アルゴリズムの一つである サポートベクターマシーン(SVM)は多量の素性を使用する問題に対して 有効であることが知られている. そこで,SVMを形態素解析に適用した結果について発表する.

SVMは多くの計算量を要するため, 形態素解析のように大量の学習データを必要とするタスクに対して 妥当な時間で計算を行なうことは難しい. この問題に対処するため,修正学習法を提案し,SVMを用いた形態素解析に適用した. これは,表現力の高い学習モデルと計算量の小さい学習モデルを組み合わせる ことにより,計算量を抑えて高い精度を達成するための方法である.

形態素解析に関連した問題の一つに,コーパスの誤りの問題がある. コーパスに基づく自然言語処理システムの性能を上げるためには, コーパス中の誤りを検出して修正し,コーパスの質を高めることが必要となる. そこで,SVMを用いてコーパス中の誤り検出を試みた結果を報告する.