近年,コンピュータのデータ処理速度や,インターネットの通信速度の上昇により
世の中に生じる様々で膨大な事象がデータとして保存が可能になった.
この大量のデータはビッグデータと呼ばれており,
それらを分析し,ビジネスや研究に用いることが近年のトレンドとなっている.
代表的なビッグデータの分析手法の1つとして,様々な性質や特徴が混ざりあって存在しているなかから,
類似性によりグループに分類しその属性を分析する,クラスタリングと呼ばれる手法がある.
クラスタリングは,ユーザーのセグメント分析やブランドポジションの認知等の手段として着目されている.
クラスタリングを実現する手法は様々であるが,
データをいくつかのガウス分布によって分類する混合ガウス分布を用いた手法は精度が高く,
更にその混合ガウス分布にベイズ推論の概念を利用し,
そのガウス分布のパラメータを共役確率分布から生成される確率変数とした,
変分推論法に用いたパラメータ推定で得られるガウス分布によるクラスタリングは過学習を行い難く,
クラスタ数を自動決定できるという特徴がある.
しかし,混合ガウス分布に関する変分推論法は収束までに時間がかかることが知られおり,
データ数に比例しその計算時間は膨大なものとなる.
そこで変分混合ガウス分布の大規模データの適用の第一歩として,並列演算アーキテクチャであるGPUを用いて
ガウス分布に関する変分推論法の並列実装及び,評価を行った.
提案手法は,同アルゴリズムをCPUで実装したものと比較して同じ精度を保ちながら,データ数が16777216のとき約524倍,
クラスタ数が256のとき約220倍それぞれ高速化できた.
また,従来のEMアルゴリズムによる混合ガウスモデルのパラメータ推定(GPGPUを使用)と比較して,
クラスタ数が256の際,約70倍高速化できた.