一种基于密度峰值的高效分布式聚类算法被引量：4

An Efficient Distributed Clustering Algorithm Based on Peak Density

下载PDF

导出

摘要基于密度峰值的聚类算法(DPC)是最近提出的一种高效密度聚类算法。该算法可以对非球形分布的数据聚类,有待调节参数少、聚类速度快等优点,但在计算每个数据对象的密度值和高密度最邻近距离时,需要进行距离度量,其时间复杂度为。在大数据时代,尤其是处理海量高维数据时,该算法的效率会受到很大的影响。为了提高该算法的效率和扩展性,利用Spark在内存计算以及迭代计算上的优势,提出一种高效的基于E2LSH分区的聚类算法ELSDPC(an efficient distributed density peak clustering algorithm based on E2LSH partition with spark)。算法利用DPC算法的局部特性,引入局部敏感哈希算法LSH实现将邻近点集划分到一个区域。通过实验分析表明:该算法可在满足较高准确率的同时有效提高聚类算法的扩展性和时间效率。 The density peak clustering algorithm (DPC) is a recently proposed efficient density clustering algorithm. The algorithm can cluster the data of non-spherical distribution,which needs less adjustment parameters and fast clustering speed. But when calculating the density and exclusion value of each data object,the distance measure needs to be measured,and its time complexity is . When dealing with big data,especially high-dimension data ,the efficiency of the algorithm will be greatly affected. In order to improve the efficiency and scalability of the algorithm,take the advantages of Spark in memory calculation and iterative computing,we propose an efficient clustering algorithm based on E2LSH partition-ELSDPC. Using the local characteristics of the DPC algorithm,the LSH implementation is introduced to divide the adjacent point set into a region. The experimental analysis shows that the algorithm can effectively improve the scalability and time efficiency of the clustering algorithm while satisfying the high accuracy.

作者何仝徐蔚鸿马红华曾水玲 HE Tong;XU Wei-hong;MA Hong-hua;ZENG Shui-ling(School of Computer and Communication Engineering,Changsha University of Science and Technology,Changsha,Hunan 440114,China;Hunan Provincial Key Laboratory of Intelligent Processing of Big Data on Transportation,Changsha University of Science and Technology,Changsha,Hunan 440114,China;Zixing City Science Bureau,Chenzhou,Hunan 23400,China)

机构地区长沙理工大学计算机与通信工程学院长沙理工大学综合交通运输大数据智能处理湖南省重点实验室资兴市科学技术局

出处《计算技术与自动化》 2019年第2期64-71,共8页 Computing Technology and Automation

基金国家自然科学基金资助项目(61363033) 湖南省科技服务平台专项资助项目(2012TP1001) 湖南省教育厅重点项目(17A007) 综合交通运输大数据智能处理湖南省重点实验室项目(2015TP1005) 长沙市科技计划项目(KQ1703018,KQ1706064)

关键词聚类密度峰值大数据局部敏感哈希 SPARK clustering density peak big data LSH Spark

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1巩树凤,张岩峰.EDDPC:一种高效的分布式密度中心聚类算法[J].计算机研究与发展,2016,53(6):1400-1409. 被引量：15

二级参考文献15

1Xu Rui, Wunsch D II. Survey of clustering algorithms [J]. IEEE Trans on Neural Networks, 2005, 16(3): 645-678.
2Kaufman L, Peter R. Clustering by Means of Medoids [G] // Statistical Data Analysis Based on the IA Norm and Related Methods. North-Holland: North-Holland Press, 1987: 405- 416.
3MacQueen J. Some methods for classification and analysis of multivariate observations[C] //Proc of the 5th Berkeley Symp on Mathematical Statistics and Probability. Berkeley, CA: University of California Press, 1967 281-297.
4Zhang W, Wang X, Zhao D, et al. Graph Degree Linkage: Agglomerative Clustering on a Directed Graph [M] . Berlin: Springer, 2012:428-441.
5Ester M, Kriegel H P, Sander J, et al. A density based algorithm for discovering clusters in large spatial databases with noise [C] //Proc of ACM KDD'96. New York: ACM, 1996:226-231.
6Wang W, Jiong Y, Muntz R. STING: A statistical information grid approach to spatial data mining [C]//Proc of VLDB'97. San Francisco, CA: Morgan Kau{mann, 1997: 186-195.
7Alex R, Alessandro L. Clustering by fast search and find of density peaks [J]. Science, 2014, 344(1492) :1492-1496.
8Jeffrey D, Sanay G. MapReduce.. Simplified data processing on large clusters [J]. Communications of the ACM, 2004, 51(1) : 107-113.
9Akdogan A, Demiryurek U, Banael Kashani F, et al. Voronoi-based geospatial query processing with MapReduee [C]//Proc of CloudCom '10. Piscataway, NJ: IEEE, 2010: 9-16.
10Lu Wei, Shen Yanyan, Chen Su, etc. Efficient processing of k nearest neighbor joins using MapReduce [J]. VLDB Endowment, 2012, 5(10)= 1016-1027.

共引文献14

1何云斌,王霄,万静,李松.障碍空间中基于密度的不确定数据聚类算法[J].小型微型计算机系统,2017,38(12):2772-2776. 被引量：3
2杨媛,马旭,陈琛.一种多层次分布式网络数据挖掘方法的改进[J].科学技术与工程,2018,18(1):298-303. 被引量：4
3侯莉莎.大数据集合中冗余特征排除的聚类算法设计[J].现代电子技术,2018,41(14):48-50. 被引量：9
4卢晶,段勇,刘海波.基于z值的分布式密度峰值聚类算法[J].电子学报,2018,46(3):730-738. 被引量：5
5徐晓,丁世飞,孙统风,廖红梅.基于网格筛选的大规模密度峰值聚类算法[J].计算机研究与发展,2018,55(11):2419-2429. 被引量：19
6纪霞,张涛,朱建磊,刘诗诚,李学俊.近邻密度分布优化样本分配的改进DPC聚类算法[J].华南理工大学学报（自然科学版）,2019,47(2):98-105. 被引量：3
7陈叶旺,申莲莲,钟才明,王田,陈谊,杜吉祥.密度峰值聚类算法综述[J].计算机研究与发展,2020,57(2):378-394. 被引量：43
8何云斌,董恒,万静,李松.基于密度峰值和近邻优化的聚类算法[J].计算机科学与探索,2020,14(4):554-565. 被引量：7
9纪霞,姚晟,赵鹏.相对邻域与剪枝策略优化的密度峰值聚类算法[J].自动化学报,2020,46(3):562-575. 被引量：14
10丁世飞,徐晓,王艳茹.基于不相似性度量优化的密度峰值聚类算法[J].软件学报,2020,31(11):3321-3333. 被引量：26

同被引文献31

1曾俊.一种基于Hadoop架构的并行挖掘算法研究[J].现代电子技术,2018,41(1):117-119. 被引量：13
2赵逸智,张云峰.大数据环境下文本信息挖掘系统设计[J].现代电子技术,2018,41(1):125-128. 被引量：21
3刘恒,苏静,唐咸艳,卢佳佳,梁志胜,洪月华.一种基于密度的分布式聚类改进算法[J].微电子学与计算机,2018,35(5):128-132. 被引量：1
4宁建飞.基于spark框架的DBSCAN文本聚类算法[J].汕头大学学报（自然科学版）,2018,33(2):73-80. 被引量：2
5徐欣,舒振宇,陈双敏,辛士庆,屠长河.基于决策图的三维模型无监督聚类算法[J].宁波大学学报（理工版）,2018,31(4):46-51. 被引量：2
6周世波,徐维祥.密度峰值快速搜索与聚类算法及其在船舶位置数据分析中的应用[J].仪器仪表学报,2018,39(7):152-163. 被引量：10
7商娟叶.基于PSO的云计算环境中大数据优化聚类算法[J].电子设计工程,2018,26(19):80-83. 被引量：7
8宋董飞,徐华.DBSCAN算法研究及并行化实现[J].计算机工程与应用,2018,54(24):52-56. 被引量：21
9徐晓,丁世飞,孙统风,廖红梅.基于网格筛选的大规模密度峰值聚类算法[J].计算机研究与发展,2018,55(11):2419-2429. 被引量：19
10张振,冯永亮,赵津曼.一种基于Spark的图像聚类并行化算法[J].电子制作,2019,27(3):67-68. 被引量：3

引证文献4

1赵伟华.基于Spark视域下的分布式大数据算法分析——以计算机维修实验室管理系统为例[J].软件,2021,42(9):131-134. 被引量：1
2杨峰,刘胜强.基于改进快速密度峰值聚类算法的电力大数据异常值检测分析[J].电子设计工程,2022,30(3):113-116. 被引量：3
3蔡莉,王浩宇,周君,何婧,刘俊晖.一种改进的自适应网格划分的分布式聚类算法[J].小型微型计算机系统,2023,44(4):731-736.
4马振明,安俊秀.基于空间向量搜索的密度峰值聚类算法[J].计算机工程与应用,2023,59(15):123-131. 被引量：1

二级引证文献5

1高唱.大数据的计算机数据分析管理系统设计[J].中国新通信,2022,24(20):41-43.
2李群,邓富金,林金娇,孔欢.基于自适应T-CFSFDP的MMC开路故障定位方法[J].电力电子技术,2023,57(8):117-122.
3陈金鹏,安俊秀,李睿熙.基于密度万有引力改进的引力峰值聚类算法[J].山西大学学报（自然科学版）,2023,46(5):1064-1075.
4商鸿发.基于优化K均值聚类的高校网络异常流量分析方法研究[J].佳木斯大学学报（自然科学版）,2023,41(5):143-146.
5高翔,贺静,陆嘉铭,张一彦,朱洪志,李丹戎.基于密度聚类的电力设备位置信息分析方法研究[J].电力大数据,2023,26(7):60-67.

1程凯,钟才明,庞永明.聚类集成中基聚类的优化研究[J].计算机应用与软件,2017,34(9):267-272. 被引量：2
2王思宇,杜晓初.基于粗糙集的居民点选取方法研究[J].湖北大学学报（自然科学版）,2019,41(2):125-131. 被引量：1
3盛凯,刘忠,周德超,冯成旭.面向不平衡分类的IDP-SMOTE重采样算法[J].计算机应用研究,2019,36(1):115-118. 被引量：6
4张占峰,耿珊珊.MapReduce框架下常用聚类算法比较研究[J].河北省科学院学报,2019,36(2):1-6. 被引量：3
5彭晏飞,陶进,訾玲玲.基于卷积神经网络和E2LSH的遥感图像检索研究[J].计算机应用与软件,2018,35(7):250-255. 被引量：6
6陈浩,马娅婕,金瑾,徐高凯.基于加权融合的E2LSH用户相似度计算[J].计算机应用与软件,2018,35(5):307-312. 被引量：2
7黄子赫,高尚兵,潘志庚,惠浩,廖麒羽,赵锋锋.基于快速密度聚类的载客热点可视化分析方法[J].系统仿真学报,2019,31(7):1429-1438. 被引量：9
8王婵,王慧泉,金仲和,杜超禹.基于近邻参考集与E2LSH加速的姿态敏感器故障检测[J].传感技术学报,2017,30(9):1359-1363.
9齐小刚,胡秋秋,刘立芳.基于MapReduce的并行异常检测算法[J].智能系统学报,2019,14(2):224-230. 被引量：6
10张博文,张淑丽,郝昕,马超.基于局部敏感哈希的多维海量数据处理[J].科技创新与应用,2019,9(2):54-55. 被引量：2

计算技术与自动化

2019年第2期

浏览历史

内容加载中请稍等...

一种基于密度峰值的高效分布式聚类算法被引量：4

参考文献1

二级参考文献15

共引文献14

同被引文献31

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

一种基于密度峰值的高效分布式聚类算法 被引量：4

参考文献1

二级参考文献15

共引文献14

同被引文献31

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

一种基于密度峰值的高效分布式聚类算法被引量：4