複数カテゴリ間の語の使用の相違性に関する研究

林 憲治 9851088


テキストの自動分類に関する研究が盛んに行なわれているなか、複数の意味解釈が生じる語の曖昧性の解消は分類精度の向上に有効とされ、コーパスやシソーラスを用いて語の多義性の解消を行なう研究などが行なわれている。

本研究では、このように複数の分野(カテゴリ)で使用されながらも意味の違う語について考慮することにより、分類精度の向上を図る。テキストの表層情報からカテゴリ間の文脈の違いをモデル化し、特徴化することで、より強力な分類基軸を生成する手法について述べる。

提案する手法では、(1)分類する上で効果的な語を選別し、(2)強力な分類基軸となるベクトルモデルを生成する。そのために、まず(1)出現頻度から上位100語を選ぶ。次にそれらの語の共起関係から文脈を特定し、文脈を反映させたベクトル空間モデルを生成する。そして、カテゴリごとにそのベクトルモデルでクラスタリングを行なう。その分類結果から分類上効果的であった語を選別する。(2)それら選別した分類上効果的な語から強力な分類基軸となるベクトルを生成する。

学習データから提案手法で生成したベクトルモデルを用いてテストデータの自動分類を行なったところ、従来のベクトル空間モデルと比較して、再現率、適合率ともに良い値を示し、分類精度の向上を確認した。