高次元データにおける階層的クラスタリング手法の提案とWWWデータへの適用

安福友浩(9851117)


計算機の性能が向上し, 大量の文書分類が可能となった現在, 文書データ同士の関連性も考慮に入れながら, 質の良いクラスタリング,およびその階層構造を 得ることは重要な課題である.

本研究は,高次元データの階層構造を 2次元データの階層構造として間接的に得るための手法を 提案し,人工データを用いて提案手法の有効性を示す. 以下に具体的な処理を説明する.

まず高次元データをNeuroScaleという RBFネットワークを用いて写像する.ただしNeuroScaleは 通常のRBFとは異なり,コスト関数を持つ. このコスト関数は RBFネットワークにより高次元データを低次元データに写像したとき, 写像前のデータを教師信号,写像後のデータを入力信号として その二乗誤差が小さくなるように,結合加重を学習する. よって学習後の結合加重を用いて,高次元データを低次元に写像したとき, 高次元空間内でのデータの位相構造が低次元空間のデータにおいても保存されている. 本研究では,WWWデータを扱うことを前提としているので, 特に2次元空間に注目する.2次元空間への写像の利点は, 人間に対して視覚的に情報を与えることも可能になることであり, ヒューマンインターフェースへの応用からも重要である.

次に2次元データに写像されたものをクラスタリングする. クラスタリングアルゴリズムには,分割操作を伴ったEMアルゴリズムを適用する. 一般に,WWWデータのようなリアルデータは異方異分散クラスタとして 存在していると考えるのが自然である. そうすると,例えばk-means法のような等方等分散のクラスタを仮定した アルゴリズムは不適当である.EMアルゴリズムは,推定するパラメータの中に 分散も含んでいるので,WWWデータのクラスタリングに 適していると思われる.

最後にEMアルゴリズムで得られたクラスタを階層構造における葉とみなし, 葉同士を併合していく.

以上の処理を高次元データに対して施すことで,高次元データの 階層構造を2次元空間の階層構造として間接的に得ることができる.