基于Spark并行的密度峰值聚类算法被引量：2

Spark-based parallel density peak clustering algorithm

下载PDF

导出

摘要针对FSDP聚类算法在计算数据对象的局部密度与最小距离时,由于需要遍历整个数据集而导致算法整体时间复杂度较高的问题,提出了一种基于Spark的并行FSDP聚类算法SFSDP。首先,通过空间网格划分将待聚类数据集划分成多个数据量相对均衡的数据分区;然后,利用改进的FSDP聚类算法并行地对各个分区内的数据执行聚类分析;最后,通过将分区间的局部簇集合并,生成全局簇集。实验结果表明,SFSDP与FSDP算法相比能够有效地进行大规模数据集的聚类分析,并且算法在准确性和扩展性方面都有很好的表现。 In view of the problem that the overall time complexity of the FSDP clustering algorithm was high because the algorithm needed to traverse the entire data set when calculating the local density and minimum distance of data objects,this paper presented a Spark-based parallel FSDP clustering algorithm called SFSDP.First,the algorithm divided the dataset into multiple data partitions with relatively equal size by spatial meshing.Then,it used the improved FSDP clustering algorithm to perform the clustering analysis on the data in each partition parallelly.It generated the global clusters by grouping together local clusters between partitions.Experimental results show that SFSDP algorithm can effectively perform large-scale dataset clustering analysis compared with FSDP algorithm,and the algorithm has a good performance in terms of accuracy and scalability.

作者孙伟鹏吴锡生孟斌 Sun Weipeng;Wu Xisheng;Meng Bin(School of IoT Engineering,Jiangnan University,Wuxi Jiangsu 214122,China;Software Engineering Center,China Ship Scientific Research Center,Wuxi Jiangsu 214082,China)

机构地区江南大学物联网工程学院中船重工集团第七〇二研究所软件工程中心

出处《计算机应用研究》 CSCD 北大核心 2020年第1期163-166,171,共5页 Application Research of Computers

基金国家自然科学基金资助项目(61672265) 七〇二所青年创新基金资助项目(J775).

关键词聚类密度峰值空间划分并行 SPARK clustering density peak space division parallel Spark

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1淦文燕,刘冲.一种改进的搜索密度峰值的聚类算法[J].智能系统学报,2017,12(2):229-236. 被引量：16
2蒋礼青,张明新,郑金龙,戴娇,尚赵伟.快速搜索与发现密度峰值聚类算法的优化研究[J].计算机应用研究,2016,33(11):3251-3254. 被引量：32
3贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：225

二级参考文献43

1Guha S,Rastogi R,Shim K.CURE:An Efficient Clustering Algorithm for Large Databases[C].Seattle:Proceedings of the ACM SIGMOD Conference,1998.73-84.
2Guha S,Rastogi R,Shim K.ROCK:A Robust Clustering Algorithm for Categorical Attributes[C].Sydney:Proceedings of the 15th ICDE,1999.512-521.
3Karypis G,Han E-H,Kumar V.CHAMELEON:A Hierarchical Clustering Algorithm Using Dynamic Modeling[J].IEEE Computer,1999,32(8):68-75.
4Ester M,Kriegel H-P,Sander J,et al.A Density-based Algorithm for Discovering Clusters in Large Spatial Databases with Noise[C].Portland:Proceedings of the 2nd ACM SIGKDD,1996.226-231.
5Hinneburg A,Keim D.An Efficient Approach to Clustering Large Multimedia Databases with Noise[C].New York:Proceedings of the 4th ACM SIGKDD,1998.58-65.
6Wang W,Yang J,Muntz R.STING:A Statistical Information Grid Approach to Spatial Data Mining[C].Athens:Proceedings of the 23rd Conference on VLDB,1997.186-195.
7Wang W,Yang J,Muntz R R.STING+:An Approach to Active Spatial Data Mining[C].Sydney:Proceedings of the 15th ICDE,1999.116-125.
8Agrawal R,Gehrke J,Gunopulos D,et al.Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications[C].Seattle:Proceedings of the ACM SIGMOD Conference,1998.94-105.
9Sheikholeslami G,Chatterjee S,Zhang A.WaveCluster:A Multireso-lution Clustering Approach for Very Large Spatial Databases[C].New York:Proceedings of the 24th Conference on VLDB,1998.428-439.
10Chris Ding.A Tutorial on Spectral Clustering[C].ICML,2004.

共引文献267

1刘壮,张悦.统计学方法在生物信息学分析中的应用[J].医学信息学杂志,2020,41(6):20-23. 被引量：1
2尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
3汤周文,叶东毅.基于层次聚类的差异化属性约简算法[J].计算机应用,2009,29(2):419-420. 被引量：1
4杜秀亭,杨晨光.基于最短主干道距离的零售户聚类研究[J].内蒙古大学学报（自然科学版）,2012,43(3):306-312.
5甘克勤,丛超,张宝林,孙旭凯.基于划分的文本聚类算法在标准文献中的试验与对比研究[J].标准科学,2013(10):47-50. 被引量：5
6司建波,姚燕,郭蔚莹,杨芳.基于模糊聚类的Web用户聚类方法与实现[J].吉林大学学报（工学版）,2013,43(S1):485-488.
7王凌峰.基于构成要素的聚类算法[J].统计与决策,2007,23(19):26-28. 被引量：1
8王曼,叶正麟,陈作平,王树勋.基于数学形态学的编码标志点识别算法[J].计算机工程与应用,2007,43(36):94-96. 被引量：11
9陈旭辉,陆军,王志.基于不同客户群的Web频繁浏览模式挖掘算法[J].兰州理工大学学报,2007,33(6):72-76.
10李爽,张瑾.改进模拟退火算法在数据挖掘中的应用[J].计算机与数字工程,2008,36(2):17-19. 被引量：2

同被引文献19

1许红龙,唐颂,毛睿,陈国良,刘刚.改进密度峰值支撑点选取及其在度量空间离群检测的应用[J].小型微型计算机系统,2017,38(5):983-987. 被引量：3
2丁志成,葛洪伟,周竞.基于KL散度的密度峰值聚类算法[J].重庆邮电大学学报（自然科学版）,2019,31(3):367-374. 被引量：12
3陈玉洪,张清华,杨洁.基于区间阴影集的密度峰值聚类算法[J].模式识别与人工智能,2019,32(6):531-544. 被引量：6
4陈奕延,李晔,李存金.一种基于密度峰值的针对模糊混合数据的聚类算法[J].计算机工程与科学,2020,42(2):317-324. 被引量：6
5陈俊芬,张明,赵佳成.复杂高维数据的密度峰值快速搜索聚类算法[J].计算机科学,2020,47(3):79-86. 被引量：13
6杨震,王红军.基于加权K近邻的改进密度峰值聚类算法[J].计算机应用研究,2020,37(3):667-671. 被引量：10
7周诗源,王英林.基于布谷鸟搜索优化算法的多文档摘要方法[J].计算机工程,2020,46(7):58-64. 被引量：4
8齐超,崔然.基于递归随机搜索算法的Hadoop平台大数据软件系统研究[J].软件,2020,41(6):177-184. 被引量：7
9汤鑫瑶,张正军,储杰,严涛.基于自然最近邻的密度峰值聚类算法[J].计算机科学,2021,48(3):151-157. 被引量：11
10柏锷湘,罗可,罗潇.结合自然和共享最近邻的密度峰值聚类算法[J].计算机科学与探索,2021,15(5):931-940. 被引量：7

引证文献2

1胡晶.基于MapReduce改进密度峰值大数据搜索研究[J].电子制作,2020,28(21):93-95.
2郑帅,杨雪纯,海丹凤.基于改进密度峰值聚类算法的低占用率云调度容错控制模型研究[J].桂林航天工业学院学报,2023,28(3):400-405.

1魏冰茹,张国富,苏兆品,岳峰,牛福强.成本最小化的最优重叠联盟结构生成算法[J].计算机工程,2019,45(11):198-203. 被引量：3
2李桂英.强脉冲光子嫩肤仪治疗雀斑的安全性和护理体会[J].中国医疗美容,2020,10(3):92-95.
3黄飞龙,张吉才,宋默,郭力刚.基于共享内存方式化简矢量数据的并行策略[J].测绘科学与工程,2019,39(3):61-66.
4闫芳,陈凯,邬珂.多时段可搭载零担物流路径优化问题模型及算法研究[J].工业工程与管理,2019,24(6):64-70. 被引量：1
5何欢,刘百灵.超声诊断儿童颈部异位胸腺2例[J].临床超声医学杂志,2020,22(4):310-310. 被引量：1
6孙路明,张少敏,姬涛,李翠平,陈红.人工智能赋能的数据管理技术研究[J].软件学报,2020,31(3):600-619. 被引量：26
7康小雨.Burberry广告:将日常生活神圣化[J].视听,2020(4):227-228.
8张金霞,王丽,黄蕊.1例簇集状传染性软疣的治疗、护理及文献回顾[J].皮肤病与性病,2020,42(2):265-266. 被引量：2
9胡霞.城乡居民收入结构差异与消费差异的关联性测度[J].商业经济研究,2020(7):60-63. 被引量：4
10张磊,曹建军,郑奇斌,冯钦.异构数据实体分辨多目标蚁群参考点选择[J].计算机仿真,2020,37(1):239-243.

计算机应用研究

2020年第1期

浏览历史

内容加载中请稍等...

基于Spark并行的密度峰值聚类算法被引量：2

参考文献3

二级参考文献43

共引文献267

同被引文献19

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于Spark并行的密度峰值聚类算法 被引量：2

参考文献3

二级参考文献43

共引文献267

同被引文献19

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于Spark并行的密度峰值聚类算法被引量：2