時系列データの線分近似による類似検索の効率化手法

森中 雄 (9951116)


数値時系列データからの類似検索は,データマイニング等の様々な分野におい て非常に重要な要素技術である.膨大な数値時系列データから逐次走査による 類似検索を行う場合,非常に効率が悪いことが知られている.そこで本論文で は,数値時系列データを線分の系列に近似した`L-index'とよぶ索引を利用し た新しい類似検索法を提案する.類似検索ではL-indexと類似検索の目標とな る系列を線分系列に近似したものの類似度を計算することにより類似度計算の 効率化をはかる.この類似度計算により類似とみなされた部分を近似解として 同定する.なお本手法では,L-indexを生成する際に発生した誤差を保持して おくことで,近似解に対して正解を見落とす失敗を犯さないことを保証してい る.ゆえに,近似解として同定された部分だけの類似度を実際に計算すること で正解を得ることが可能である.このことから,逐次走差に比べて大幅な効率 化を計ることができる.さらに,実験では本手法を用いた類似検索が逐次走査 を用いた場合に比べて大幅に検索効率が高いことを確認した.