-
题名基于倾斜分布的变流速数据流聚类算法
- 1
-
-
作者
邢长征
胡权波
-
机构
辽宁工程技术大学电子与信息工程学院
-
出处
《计算机工程》
CAS
CSCD
2013年第12期247-250,259,共5页
-
文摘
处理倾斜分布特征的数据流聚类算法TDCA存在聚类速度与内存利用率上的不足,且变流速的数据流环境对聚类结果的质量有严重影响。针对上述问题,提出一种数据流聚类算法GR-Stream。采用网格单元作为数据点的聚集形式,以基于R-tree的扩展数据结构作为组织网格单元的索引结构,在此基础上引入剪枝策略,并调整数据点进入树的方式。在真实数据集KDD-CUP99上进行测试,结果表明,与TDCA算法相比,该算法在聚类过程中可以提高40%的访问速度,应用剪枝策略节省至少一半的内存使用量,同时在变流速的数据流环境下将聚类结果的平均纯度保持在90%以上。
-
关键词
数据流
聚类
时态密度
倾斜分布
剪枝
变流速
-
Keywords
data stream
clustering
temporal density
skew distribution
pruning
variable flow rate
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-