サポートベクターマシンを用いた文書分類のための能動学習

佐々木 寛 (0151048)


大規模な文書データベースに対して文書分類を機械学習法で行う 際には大量のラベル付テキストデータが必要である。 ところが大量のラベル付テキストデータを人手により作成することは コストが高い作業であり, このコストを軽減するためにラベル付 データが少ない場合においても高い文書分類精度を実現することが望まれる.

このような問題を解決する方法として本研究ではサポートベクターマシン(SVM) を用いた能動学習を行った。 先行研究においてはSVMの分離平面からの距離が最も小さい事例を最もSVMの判定 が曖昧な事例であるとして、このような事例を能動学習の際の事例選択に用いた。 本研究ではこの手法を応用し、能動学習においてより有効な事例を選択するため 以下の3種類の場合に関して事例選択のアルゴリズムを提案し、実験をおこなった。

まず一度に複数個の事例を選択する際に, より効果的な学習事例の組を選択する新しい方法として, SVM の分類結果に対してクラスタリングを適用する方法を提案した。 そして、分類実験をおこなった結果、 我々の提案手法は必ずしも全ての場合において有効とは限らないが, 少なくとも 幾つかのクラスに対しては有効であることがわかった.

また一度に一つの事例を選択する際に, 学習事例中の素性の重みに着目しより 効果的な学習事例を選択する手法を提案した。 そして、分類実験をおこなった結果、 このことから少なくとも幾つかのクラスに対してはiteration の初期段階に関して、フィルタリングを適用した能動学習手法が有効であること がわかった。

さらに、多値分類における能動学習において様々な事例選択アルゴリズムを提案 しそれぞれに対し分類実験をおこなった。 またSVMの認識誤りに関するパラメータ$C$の値を変更して同様の実験をおこなった結果、 多値分類におけるSVMを用いた能動学習においては分類精度が$C$の値によって大 きな影響を受けるという知見を得た。