以前の類似したデータベースの解析結果からの効率の良いデータマイニング
野中 康太郎 (9851082)
近年の計算機の高速化や記憶装置の発達に伴い,大量の情報を記憶した
データベースシステムのデータの全てが
(ランダムサンプリングなどのように一部のデータのみに対してではなく)
解析可能になった.
このような大規模データベースの内容全体を解析することにより,
データベースの利用者にとって有益な情報を得ることをデータマイニング
と呼ぶ.
データマイニングによって得たい情報として,
頻出集合や有意な連想規則を求めることが挙げられる.
これらのアルゴリズムはさまざまな文献で提案されている.
しかし,これらのアルゴリズムの性能は
ベンチマーク上でしか評価されていない.
これに対して,(a)頻出集合の最大サイズや
(b)有意な連想規則の最大右辺サイズを求める問題を多項式時間で
効率良く解くことができないことが既に示されている.
つまり,一般には,これらの問題は効率良く解けない.
そこで,本研究ではデータベースの類似性に着目した.
これは,例えば小売店のセールスデータベースを月ごとに分割した場合、
毎年同じ月のデータが類似しているという性質である.
例えば,ここで1998年4月のデータベースをDとし,
1999年4月のデータベースをD'とする.
このとき,次に挙げる3つのアルゴリズムを提案した.
(i)Dの解析結果からD'中の頻出集合を効率良く求めるアルゴリズム.
(ii)Dの解析結果からD'中の有意な連想規則を効率良く求めるアルゴリズム.
(iii)DとD'が類似しているかどうかを効率良く判定するアルゴリズム.