多様なノイズに頑健な関係データクラスタリング

武田 悠佑 (1751066)


SNSにおける友人関係ネットワークや誰が何を買ったかというECサイトでの購買履歴などの異なるオブジェクト同士の関係性を表現する関係データは今日社会の様々な場所に存在する.関係データクラスタリング,すなわち関係データ内のオブジェクトを類似するオブジェクトのグループへと分割することは,データから知見を得ることや未知のデータの予測に役立つため人工知能の重要な課題となっている.一方で,実世界の関係データには多くの場合において,他のオブジェクトとの間に特徴的な関係のパターンを示さないノイズとなるオブジェクトが含まれている.またノイズオブジェクトは一様な性質を持つとは限らず,実世界データには多様なノイズオブジェクトが含まれる場合が多々ある.既存の関係データクラスリング手法ではこのような多様なノイズを適切に扱えず,ノイズを多く含む関係データを適切にクラスリングできないという問題があった.

本研究では,多様なノイズを多く含む関係データに対しても適切にクラスタリングを行える確率モデルを提案する.提案法では,他のクラスタに対して特定のパターンを示さないノイズクラスタというクラスタを導入し,無限個のノイズクラスタを仮定することで,従来法では扱えなかった多様なノイズオブジェクトをモデル化し,頑健な関係データクラスタリングを実現する.ディリクレ過程を用いることで,通常のクラスタとノイズクラスタの個数を与えられたデータから自動的に推定し,通常のオブジェクトとノイズオブジェクトの双方について性質に応じたクラスタを割り当てる.人工データと実世界データを用いた実験を通じて,提案法が従来法より高い精度で未観測データについて予測できることを示す.