本研究では、このように複数の分野(カテゴリ)で使用されながらも意味の違う語について考慮することにより、分類精度の向上を図る。テキストの表層情報からカテゴリ間の文脈の違いをモデル化し、特徴化することで、より強力な分類基軸を生成する手法について述べる。
提案する手法では、(1)分類する上で効果的な語を選別し、(2)強力な分類基軸となるベクトルモデルを生成する。そのために、まず(1)出現頻度から上位100語を選ぶ。次にそれらの語の共起関係から文脈を特定し、文脈を反映させたベクトル空間モデルを生成する。そして、カテゴリごとにそのベクトルモデルでクラスタリングを行なう。その分類結果から分類上効果的であった語を選別する。(2)それら選別した分類上効果的な語から強力な分類基軸となるベクトルを生成する。
学習データから提案手法で生成したベクトルモデルを用いてテストデータの自動分類を行なったところ、従来のベクトル空間モデルと比較して、再現率、適合率ともに良い値を示し、分類精度の向上を確認した。