基于倾斜分布的变流速数据流聚类算法

Data Stream Clustering Algorithm with Variable Flow Rate Based on Skew Distribution

下载PDF

导出

摘要处理倾斜分布特征的数据流聚类算法TDCA存在聚类速度与内存利用率上的不足,且变流速的数据流环境对聚类结果的质量有严重影响。针对上述问题,提出一种数据流聚类算法GR-Stream。采用网格单元作为数据点的聚集形式,以基于R-tree的扩展数据结构作为组织网格单元的索引结构,在此基础上引入剪枝策略,并调整数据点进入树的方式。在真实数据集KDD-CUP99上进行测试,结果表明,与TDCA算法相比,该算法在聚类过程中可以提高40%的访问速度,应用剪枝策略节省至少一半的内存使用量,同时在变流速的数据流环境下将聚类结果的平均纯度保持在90%以上。 The skew distribution characteristics of data stream clustering algorithm TDCA lack of clustering speed and memory utilization. Variable flow rate data stream environment has a serious impact on the quality of the clustering results. In order to deal with the above problems, a data stream clustering algorithm named GR-Stream is presented. It uses grid cells as the aggregation of data points, Based on an extension of the R-tree structure as the organization of grid cell index structure, it introduces pruning strategy on the basis of this structure, and adjusts the way of data points into the tree. It adopts the real dataset the KDD-CUP99 on algorithm test. Experimental results show that, compared with the TDCA algorithm data structure organizing data, this index structure can improve the clustering speed by 40%, and the application of pruning strategy to save at least half memory usage, at the same time maintaining more than 90% of the average purity of the clustering results in the variable flow rate of the data stream environment.

作者邢长征胡权波

机构地区辽宁工程技术大学电子与信息工程学院

出处《计算机工程》 CAS CSCD 2013年第12期247-250,259,共5页 Computer Engineering

关键词数据流聚类时态密度倾斜分布剪枝变流速 data stream clustering temporal density skew distribution pruning variable flow rate

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献13

1Aggrawal C,Han Jiawei,Wang J,et al.A Framework for Clustering Evolving Data Streams[C]//Proc.of the 29th VLDB Conference.Berlin,Germany:IEEE Computer Society,2003.
2Cao Feng,Ester M,Qian Weining,et al.Density-based Clustering over an Evolving Data Stream with Noise[C]//Proc.of SIAM International Conference on Data Mining.Bethesda,USA:Springer,2006.
3Chen Yixin.Density-based Clustering for Real-time Stream Data[C]//Proc.of International Conference on Knowledge Discovery and Data Mining.Sacramento,USA:[s.n.],2007.
4胡睿,林昭文,柯宏力,马严.一种基于密度和滑动窗口的数据流聚类算法[J].计算机科学,2011,38(5):145-148. 被引量：12
5章季阳,王伦文.一种领域覆盖的数据流聚类算法[J].小型微型计算机系统,2012,33(9):1913-1916. 被引量：4
6曹锋,周傲英.基于图形处理器的数据流快速聚类[J].软件学报,2007,18(2):291-302. 被引量：24
7Ruiz C,Menasalvas E,Spiliopoulou M.C-DenStream:Using Domain Knowledge on a Data Stream[C]//Proc.of the 12th International Conference on Discovery Science.Porto,Portugal:Springer-Verlag,2009.
8Antonellis P,Makris C,Tsirakis N.Algorithms for Clustering Clickstream Data[J].Information Processing Letters,2009,109(8):381-385.
9杨宁,唐常杰,王悦,陈瑜,郑皎凌.一种基于时态密度的倾斜分布数据流聚类算法[J].软件学报,2010,21(5):1031-1041. 被引量：17
10Kranen P,Assent I.Self-adaptive Anytime Stream Clustering[C]//Proc.of the 9th IEEE International Conference on Data Mining.[S.1.]:IEEE Computer Society,2009.

二级参考文献7

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
2吴恩华.图形处理器用于通用计算的技术、现状及其挑战[J].软件学报,2004,15(10):1493-1504. 被引量：141
3常建龙,曹锋,周傲英+.基于滑动窗口的进化数据流聚类[J].软件学报,2007,18(4):905-918. 被引量：61
4杨春宇,周杰.一种混合属性数据流聚类算法[J].计算机学报,2007,30(8):1364-1371. 被引量：22
5王伦文,张铃.构造型神经网络综述[J].模式识别与人工智能,2008,21(1):49-55. 被引量：31
6王述云,张成洪,郝秀兰,胡运发.基于免疫原理的数据流聚类算法[J].模式识别与人工智能,2009,22(2):246-255. 被引量：5
7张燕平,杜玲,赵姝.构造性覆盖方法的增量学习算法[J].南京大学学报（自然科学版）,2009,45(5):699-704. 被引量：3

共引文献54

1杨珂,罗琼,石教英.平行散点图：基于GPU的可视化分析方法[J].计算机辅助设计与图形学学报,2008,20(9):1219-1228. 被引量：7
2李琳,李肯立,朱雅丽.图形处理器在分层聚类算法中的通用计算研究[J].计算机应用研究,2008,25(8):2319-2321. 被引量：1
3李琳,李肯立.基于图形处理器的层次聚类算法效率研究[J].计算机工程与应用,2008,44(31):53-56.
4钱江波,王永利,陈征,陈华辉,金光.数据流窗口连接查询处理器研究[J].电子学报,2009,37(2):404-409. 被引量：4
5李琳,李肯立.基于图形处理器的划分聚类算法效率研究[J].计算机应用研究,2009,26(4):1276-1278. 被引量：2
6卢俊,张保明,黄薇,李二森.基于GPU的遥感影像数据融合IHS变换算法[J].计算机工程,2009,35(7):261-263. 被引量：18
7张晓龙,曾伟.实时数据流聚类的研究新进展[J].计算机工程与设计,2009,30(9):2177-2181. 被引量：5
8印桂生,于翔,宁慧.基于粗约简的数据流增量聚类算法[J].西南交通大学学报,2009,44(5):637-642. 被引量：2
9周勇,王皓,程春田.使用GPU技术的数据流分位数并行计算方法[J].计算机应用,2010,30(2):543-546. 被引量：2
10任化敏,张勇东,林守勋.GPU加速的基于增量式聚类的视频拷贝检测方法[J].计算机辅助设计与图形学学报,2010,22(3):449-456. 被引量：5

1杨宁,唐常杰,王悦,陈瑜,郑皎凌.一种基于时态密度的倾斜分布数据流聚类算法[J].软件学报,2010,21(5):1031-1041. 被引量：17
2张建朋,陈福才,李邵梅,刘力雄.基于仿射传播的进化数据流在线聚类算法[J].模式识别与人工智能,2014,27(5):443-451. 被引量：5
3李翠,巨永锋.基于时延的无线传感器网络分时分簇算法[J].计算机测量与控制,2012,20(12):3405-3407. 被引量：1
4徐小伟,成亚谊.一种基于改进贝叶斯算法的Web文本分类方法[J].现代计算机（中旬刊）,2012(4):3-7. 被引量：1
5刘晓建,钟海荣,吴明巧.大规模分布式仿真中实体分配策略研究[J].计算机工程与科学,2005,27(2):85-89. 被引量：1
6房俊华,王晓桐,张蓉,周傲英.分布式数据流上的高性能分发策略[J].软件学报,2017,28(3):563-578. 被引量：4
7尹高飞,柳钦火,李静,曾也鲁,徐保东.树冠形状对孔隙率及叶面积指数估算的影响分析[J].遥感学报,2014,18(4):752-759. 被引量：9

计算机工程

2013年第12期

浏览历史

内容加载中请稍等...

基于倾斜分布的变流速数据流聚类算法

参考文献13

二级参考文献7

共引文献54

相关作者

相关机构

相关主题

浏览历史