摘要
基于对网格聚类方法的分析,结合由底向上的网格方法和自顶向下的网格方法,设计了一个能在线处理高维数据流的子空间聚类算法。通过利用由底向上网格方法对数据的压缩能力和自顶向下网格方法处理高维数据的能力,算法能基于对数据流的一次扫描,快速识别数据中位于不同子空间内的簇。理论分析以及在多个数据集上的实验表明算法具有较高的计算精度与计算效率。
Based on the analysis of grid-based clustering algorithms, we propose a subspace clustering algorithm that can find clusters in different subspaces for high-dimensional data streams. The algorithm combines the advantages of bottom-up grid-based method and top-down grid-based method. A uniformly partitioned grid data structure is used to summarize the data stream online. A top-down grid partition method is used o find the subspaces in which clusters locate. Theory analysis and performance study with real datasets and synthetic dataset demonstrate the efficiency and effectiveness of our proposed algorithm.
出处
《计算机科学》
CSCD
北大核心
2007年第4期199-203,221,共6页
Computer Science
基金
湖北省自然科学基金项目"时空数据库的关键技术研究与实验"(ABA048)的资助
关键词
网格
子空间聚类
数据流
高维数据
Grid, Subspace clustering, Data stream, High-dimensional data