データマイニングに要する計算量に関する研究
八木 勲(9551114)
近年の計算機技術の進展により,大量の情報を記憶したデータベー
スシステムのデータを分析することが可能になった.このような大
規模データベースの内容全体を分析することにより,出現頻度の高
いパターンを見つけて,データベースの利用者にとって有益な情報
を得ることをデータマイニングと呼ぶ.これまでにデー
タマイニングの手法はいくつか提案されているが,それに必要な計
算量についてはあまり議論されていない.本稿では,極大頻出系列
問題と呼ばれるデータマイニングの基本的な問題についてその解
(パターン)の個数がデータベースサイズの指数オーダとなる場合
があることを示した.また,データ1個の追加でパターン
数が指数的に増加する場合があるので,インクリメンタルなアルゴ
リズムはこの問題に適していないことがわかった.そして,データ
がある種の局所性を満たす場合,パターンの集合を受理し,
状態数がデータベースのサイズの多項式オーダのDFAが高い確率で
存在することを示した.