基于密度与近邻传播的数据流聚类算法被引量：27

Data Stream Clustering Algorithm Based on Density and Affinity Propagation Techniques

下载PDF

导出

摘要针对现有算法聚类精度不高、处理离群点能力较差以及不能实时检测数据流变化的缺陷,提出一种基于密度与近邻传播融合的数据流聚类算法.该算法采用在线/离线两阶段处理框架,通过引入微簇衰减密度来精确反映数据流的演化信息,并采用在线动态维护和删减微簇机制,使算法模型更符合原始数据流的内在特性.同时,当模型中检测到新的类模式出现时,采用一种改进的加权近邻传播聚类(Weighted and hierarchical affinity propagation,WAP)算法对模型进行重建,因而能够实时检测到数据流的变化,并能给出任意时间的聚类结果.在真实数据集和人工数据集上的实验表明,该算法具有良好的适用性、有效性和可扩展性,能够取得较好的聚类效果. For the accuracy of the existing clustering algorithm is not high, and the ability of dealing with outliers is poor and unable to detect the real-time changes of data stream, a data stream clustering algorithm based on density and affinity propagation is proposed. The algorithm adopts an online/offiine two-stage processing framework and it introduces the micro-cluster decay density to reflect the evolution of the data stream accurately. In the meantime, it uses the mechanism of online dynamic maintenance and deletion of the micro-cluster, which makes the algorithm＇s model more consistent with the intrinsic characteristics of the original data streams. Simultaneously~ it also takes an improved WAP （weighted and hierarchical affinity propagation） algorithm to reconstruct the models when detecting a new emerging class model. Thus it can detect the changes of the data stream in real time, and give the clustering results at any time. Experiments on real data sets and artificial data sets show that the algorithm has good applicability, efficiency, and scalability, thus it can achieve better clustering results.

作者张建朋陈福才李邵梅刘力雄

机构地区国家数字交换系统工程技术研究中心

出处《自动化学报》 EI CSCD 北大核心 2014年第2期277-288,共12页 Acta Automatica Sinica

基金国家高技术研究发展计划(863计划)(2011AA010603 2011AA010605)资助~~

关键词数据流挖掘近邻传播基于密度聚类变化检测 Data stream mining, affinity propagation, density-based clustering, change detection method

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1黄德才,吴天虹.基于密度的混合属性数据流聚类算法[J].控制与决策,2010,25(3):416-421. 被引量：10
2杨宁,唐常杰,王悦,陈瑜,郑皎凌.一种基于时态密度的倾斜分布数据流聚类算法[J].软件学报,2010,21(5):1031-1041. 被引量：17
3于彦伟,王沁,邝俊,何杰.一种基于密度的空间数据流在线聚类算法[J].自动化学报,2012,38(6):1051-1059. 被引量：28
4王开军,张军英,李丹,张新娜,郭涛.自适应仿射传播聚类[J].自动化学报,2007,33(12):1242-1246. 被引量：144

二级参考文献46

1金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
2陈卓,孟庆春,魏振钢,任丽婕,窦金凤.一种基于网格和密度凝聚点的快速聚类算法[J].哈尔滨工业大学学报,2005,37(12):1654-1657. 被引量：14
3朱蔚恒,印鉴,谢益煌.基于数据流的任意形状聚类算法[J].软件学报,2006,17(3):379-387. 被引量：50
4杨春宇,周杰.一种混合属性数据流聚类算法[J].计算机学报,2007,30(8):1364-1371. 被引量：22
5Witten I H, Frank E. Data mining: Practical machine learning tools and techniques[M]. 2nd ed. Beijing:China Machine Press, 2006.
6Garofalakis M, Gehrke J, Rastogi R. Querying and mining data streams: You only get one look[C]. ACMSIGMOD Int Conf on Management of Data. Madison: Acm Press, 2002:635.
7Barbard D, Requirements for clustering data streams[J]. SIGKDD Explorations, 2003, 3(2): 23-27.
8Zhang T, Ramakrishnan R. Birch: An efficient data clustering method for very large databases[C]. Proc of ACM SIGMOD Conference on Management of Data. Madison:ACM Press, 1996: 103-114.
9Aggarwal C, Han J, Wang J, et al. A framework for clustering evolving data streams[C]. Proc of Int Conf on Very Large Data Bases. Berlin, 2003: 81-92.
10Aggarwal C, Han J, Wang J, et al. A framework for projected clustering of high dimensional data streams [C]. Proc of the 30th VLDB Conf. Toronto, 2004: 852-863.

共引文献192

1常瑞花.基于密集度量元的近邻传播聚类算法[J].微电子学与计算机,2015,32(5):1-5. 被引量：1
2张仁彦,赵洪亮,卢晓,曹茂永.基于相似性传播聚类的灰度图像分割[J].海军工程大学学报,2009,21(3):33-37. 被引量：4
3茅赵阳.图像的聚类和可视化方法研究[J].现代计算机,2009,15(7):71-73. 被引量：1
4许文竹,徐立鸿.基于仿射传播聚类的自适应关键帧提取[J].计算机科学,2010,37(1):268-270. 被引量：11
5李雅芹,杨慧中.基于仿射传播聚类和高斯过程的多模型建模方法[J].计算机与应用化学,2010,27(1):51-54. 被引量：15
6董俊,王锁萍,熊范纶.可变相似性度量的近邻传播聚类[J].电子与信息学报,2010,32(3):509-514. 被引量：49
7王开军,李健.聚类结果可视化的线珠模式[J].计算机系统应用,2010,19(5):167-170. 被引量：1
8KHALID Shehzad,NAFTEL Andrew.基于轨迹系数特征空间表示法的含有异常情况的自动运动学习(英文)[J].自动化学报,2010,36(5):655-666.
9王开军,郑捷.指定类数下仿射传播聚类的快速算法[J].计算机系统应用,2010,19(7):207-209. 被引量：3
10李博,杨丹,雷明,葛永新.基于近邻消息传递的自适应局部线性嵌入[J].光电子．激光,2010,21(5):772-778. 被引量：5

同被引文献234

1王德文,杨凯华.基于生成式对抗网络的窃电检测数据生成方法[J].电网技术,2020,44(2):775-782. 被引量：47
2王刘旺,周自强,林龙,韩嘉佳.人工智能在变电站运维管理中的应用综述[J].高电压技术,2020,46(1):1-13. 被引量：71
3王伟平,李建中,张冬冬,郭龙江.基于滑动窗口的数据流连续J-A查询的处理方法[J].软件学报,2006,17(4):740-749. 被引量：18
4王磊,莫玉龙,戚飞虎.基于Canny理论的边缘提取改善方法[J].中国图象图形学报（A辑）,1996,1(3):191-195. 被引量：42
5牛琨,张舒博,陈俊亮.采用属性聚类的高维子空间聚类算法[J].北京邮电大学学报,2007,30(3):1-5. 被引量：13
6杨春宇,周杰.一种混合属性数据流聚类算法[J].计算机学报,2007,30(8):1364-1371. 被引量：22
7王开军,张军英,李丹,张新娜,郭涛.自适应仿射传播聚类[J].自动化学报,2007,33(12):1242-1246. 被引量：144
8孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1060
9HAN J, KAMBER M,裴健.数据挖掘:概念与技术[M].范明,孟小峰,译.3版.北京:机械工业出版社,2013:288-347.
10AGGARWAL C C, HAN J, WANG J, et al. A framework for clus-tering evolving data streams [C]// Proceedings of the 29th International Conference on Very Large Data Bases. [S.l.]: VLDB Endowment, 2003: 81-92.

引证文献27

1魏中贺,李少波,唐向红,陈力.一种基于密度的数据流检测算法SWKLOF[J].科学技术与工程,2014,22(34):219-223. 被引量：3
2王娟,王萍,王港.基于自适应超像素分割的点刻式DPM区域定位算法研究[J].自动化学报,2015,41(5):991-1003. 被引量：4
3邢长征,刘剑.基于近邻传播与密度相融合的进化数据流聚类算法[J].计算机应用,2015,35(7):1927-1932. 被引量：34
4吴绍根.基于动态网格和密度邻接的数据聚类算法[J].北京工业职业技术学院学报,2015,14(3):20-25.
5黄德才,钱潮恺.基于维度属性距离的混合属性近邻传播聚类算法[J].计算机科学,2015,42(B11):55-57. 被引量：1
6李少波,魏中贺,孟伟.基于距离的数据流在线检测算法研究[J].计算机应用研究,2015,32(12):3579-3581. 被引量：6
7王彩霞.基于改进引力搜索的混合K-调和均值聚类算法研究[J].计算机应用研究,2016,33(1):118-121. 被引量：11
8陈晋音,何辉豪,杨东勇.一种面向混合属性数据流的基于密度的聚类算法研究[J].小型微型计算机系统,2016,37(1):43-47. 被引量：5
9徐明亮,王士同,杭文龙.一种基于同类约束的半监督近邻反射传播聚类方法[J].自动化学报,2016,42(2):255-269. 被引量：11
10王珉,Wang Yongbin,Li Ying.SCMR:a semantic-based coherence micro-cluster recognition algorithm for hybrid web data stream[J].High Technology Letters,2016,22(2):224-232. 被引量：2

二级引证文献149

1王云锋,刘丹,裴作飞,姚丽霜.基于改进引力搜索算法的SVM的参数优化及应用[J].计算机应用研究,2020,37(S01):152-154. 被引量：5
2胡聪,徐敏,洪德华,刘翠玲,薛晓茹,王海鑫.基于改进K-medoids聚类和SVM的异常用电模式在线检测方法[J].国外电子测量技术,2022,41(2):53-59. 被引量：7
3王小鹏,张永芳,王伟,文昊天.基于自适应滤波的快速广义模糊C均值聚类图像分割[J].模式识别与人工智能,2018,31(11):1040-1046. 被引量：8
4李晓庆,唐昊,司加胜,苗刚中.面向混合属性数据集的改进半监督FCM聚类方法[J].自动化学报,2018,44(12):2259-2268. 被引量：8
5殷秀颜,陈婕,郑学青,于姝.大型供电企业电力营销管理总体策略优化研究[J].自动化与仪器仪表,2019(2):39-42. 被引量：9
6李玮瑶,李圣普.舰船电机控制系统中的不稳定数据挖掘方法研究[J].舰船科学技术,2015,37(9):161-165. 被引量：3
7郑杰.舰载网络中未知协议识别方法研究与仿真[J].舰船科学技术,2015,37(9):166-170.
8马朝华,程新根.基于射频识别技术的过滤分离器安全保障系统[J].物联网技术,2015,5(11):74-76. 被引量：2
9耿德志.基于聚类权重调度的大数据采样技术[J].世界有色金属,2015,40(12):93-95.
10刘炜.基于线性调频盲卷积的大数据聚类控制方法[J].电力与能源,2015,36(6):822-825.

1宋擒豹,杜磊.数据流变化检测研究综述[J].计算机应用,2012,32(2):299-303.
2石中伟,文益民.基于概率相关性的多标签数据流变化检测[J].计算机科学,2015,42(8):60-64. 被引量：1
3钟林辉,谢冰.构件化软件演化信息建模和获取方法研究[J].计算机应用研究,2014,31(2):401-403. 被引量：5
4陈亮,柴获.基于数据流变化的RFID事件探测方法[J].兰州交通大学学报,2013,32(3):78-81.
5钟林辉,谢冰,张路.软件体系结构演化信息捕获机制的方法研究[J].计算机应用研究,2007,24(11):74-75.
6钟林辉,李俊杰,张能伟,黄小明.基于演化依赖的Java软件聚类实现技术研究[J].江西师范大学学报（自然科学版）,2015,39(4):377-382.
7钟林辉,郑鑫,郑燚,叶茂盛.演化信息驱动的软件体系结构重构技术研究[J].计算机工程与应用,2009,45(14):66-69. 被引量：2
8聂国梁,卢正鼎.数据流变化的检测[J].计算机科学,2006,33(5):162-165.
9龚伟志,刘增良,王烨,徐建宏.基于大数据分析恐怖袭击风险预测研究与仿真[J].计算机仿真,2015,32(4):30-33. 被引量：18
10钟林辉,侯长源,宗洪雁,叶茂盛.构件化软件演化信息及演化相似性度量技术研究[J].计算机应用研究,2015,32(5):1399-1402. 被引量：4

自动化学报

2014年第2期

浏览历史

内容加载中请稍等...

基于密度与近邻传播的数据流聚类算法被引量：27

参考文献4

二级参考文献46

共引文献192

同被引文献234

引证文献27

二级引证文献149

相关作者

相关机构

相关主题

浏览历史

基于密度与近邻传播的数据流聚类算法 被引量：27

参考文献4

二级参考文献46

共引文献192

同被引文献234

引证文献27

二级引证文献149

相关作者

相关机构

相关主题

浏览历史

基于密度与近邻传播的数据流聚类算法被引量：27