Spark并行化改进的SDKB-DBSCAN聚类算法

Spark Parallelization Improved SDKB-DBSCAN Clustering Algorithm

下载PDF

导出

摘要 DBSCAN算法是基于密度的聚类算法,可在有噪声点的数据集中发现任意形状类簇,得到广泛应用。但其存在大规模磁盘I/O导致计算速度慢,密度不均匀类簇和人工干预确定阈值导致聚类偏差等缺陷,基于此提出Spark内存迭代并行化SDKB-DBSCAN(Spark Density Division Kernel Density Estimation Boundary Stategy-Density-based Spatial Clustering of Applications with Noise)改进算法,设计Spark缓存机制结合不规则动态分区和边界合并以及核密度估计并行化。实验表明,改进算法一般适用不同形状类簇和较大规模数据聚类,在准确率和计算速率上有一定提升。 The DBSCAN algorithm is a density-based clustering algorithm,which can find clusters of arbitrary shapes in data sets with noisy points and is widely used.However,large-scale disk IO leads to slow calculation speed,uneven cluster density and manual intervention to determine thresholds lead to clustering deviations.Based on this,Spark memory iterative parallelization SDKB-DBSCAN(Spark Density Division Kernel Density Estimation Boundary Strategy-Density-based Spatial Clustering of Applications with Noise)Improve the algorithm,design Spark cache mechanism combined with irregular dynamic partitioning and boundary merging,and parallelization of kernel density estimation.Experiments show that the improved algorithm is generally suitable for clusters of different shapes and larger-scale data,and has a certain improvement in accuracy and calculation speed.

作者史爱武尹杰范平 SHI Aiwu;YIN Jie;FAN Ping(School of Mathematics and Computer,Wuhan Textile University,Wuhan 430000;School of Computer Science and Technology,Hubei University of Science and Technology,Xianning 437000)

机构地区武汉纺织大学数学与计算机学院湖北科技学院计算机科学与技术学院

出处《现代计算机》 2021年第14期14-20,37,共8页 Modern Computer

基金湖北省自然科学基金青年项目(No.2018CFB109)。

关键词 DBSCAN算法 Spark并行化动态分区核密度估计缓存机制 DBSCAN Algorithm Spark Parallelization Dynamic Partitioning Kernel Density Estimation Caching Mechanism

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1周水庚,周傲英,曹晶.基于数据分区的DBSCAN算法[J].计算机研究与发展,2000,37(10):1153-1159. 被引量：99
2邱宁佳,李宾,王鹏,杨华民,王玮琦.基于MapReduce的密度聚类改进算法[J].计算机应用,2017,37(A01):63-67. 被引量：5
3胡赢双,陆亿红.基于MapReduce的强连通网格聚类算法[J].计算机科学,2019,46(S11):204-207. 被引量：7
4黄明吉,张倩.基于Spark的并行DBSCAN算法的设计与实现[J].计算机科学,2017,44(B11):524-529. 被引量：3
5韩利钊,钱雪忠,罗靖,宋威.基于区域划分的DBSCAN多密度聚类算法[J].计算机应用研究,2018,35(6):1668-1671. 被引量：30
6于亚飞,周爱武.一种改进的DBSCAN密度算法[J].计算机技术与发展,2011,21(2):30-33. 被引量：35
7宋金玉,郭一平,王斌.DBSCAN聚类算法的参数配置方法研究[J].计算机技术与发展,2019,29(5):44-48. 被引量：20
8宋明,刘宗田.基于数据交叠分区的并行DBSCAN算法[J].计算机应用研究,2004,21(7):17-20. 被引量：9
9程国庆,陈晓云.基于网格相对密度的多密度聚类算法[J].计算机工程与应用,2009,45(1):156-158. 被引量：14
10黄红伟,黄天民.基于网格相对密度差的扩展聚类算法[J].计算机应用研究,2014,31(6):1702-1705. 被引量：12

二级参考文献78

1宋明,刘宗田.基于数据交叠分区的并行DBSCAN算法[J].计算机应用研究,2004,21(7):17-20. 被引量：9
2周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
3何中胜,刘宗田,庄燕滨.基于数据分区的并行DBSCAN算法[J].小型微型计算机系统,2006,27(1):114-116. 被引量：16
4邱保志,沈钧毅.基于扩展和网格的多密度聚类算法[J].控制与决策,2006,21(9):1011-1014. 被引量：25
5贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：229
6任兴平,何忠龙,孟增辉.改进DBSCAN算法中参数Eps值的确定[J].现代电子技术,2007,30(11):120-121. 被引量：5
7张枫,邱保志.基于网格的高效DBSCAN算法[J].计算机工程与应用,2007,43(17):167-169. 被引量：8
8Jain A K,Murty M N,Flynn P J.Data clustering:a review[J].ACM Computing Surveys,1999,31(3):264-323.
9Han J W,Kambr M.Datamining concepts and techniques[M].Beijing:Higher Education Press,2001:145-176.
10Rakesh A,Johanners G,Dimitrios G,et al.Automatic subspace clustering of high dimensional data for data mining applications[C]// Proc of ACM SIGMOD Int'l Conf on Management of Data.Minneapolis:ACM Press,1994:94-105.

共引文献209

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2宗长富,文龙,何磊.基于欧几里得聚类算法的三维激光雷达障碍物检测技术[J].吉林大学学报（工学版）,2020,50(1):107-113. 被引量：25
3邢春燕.大规模数据集聚类算法的研究进展分析[J].花炮科技与市场,2020(2):4-4.
4宋明,刘宗田.基于数据交叠分区的并行DBSCAN算法[J].计算机应用研究,2004,21(7):17-20. 被引量：9
5栾丽华,吉根林.一种基于四叉树的快速聚类算法[J].计算机应用,2005,25(5):1001-1003. 被引量：6
6倪巍伟,孙志挥,陆介平.k-LDCHD——高维空间k邻域局部密度聚类算法[J].计算机研究与发展,2005,42(5):784-791. 被引量：18
7尹松,周永权,李陶深.数据聚类方法的研究与分析[J].航空计算技术,2005,35(1):63-66. 被引量：16
8熊忠阳,孙思,张玉芳,王秀琼.一种基于划分的不同参数值的DBSCAN算法[J].计算机工程与设计,2005,26(9):2319-2321. 被引量：16
9伊胜伟,刘旸,魏红芳.基于数据挖掘的入侵检测系统智能结构模型[J].计算机工程与设计,2005,26(9):2464-2466. 被引量：10
10何中胜,刘宗田,庄燕滨.基于数据分区的并行DBSCAN算法[J].小型微型计算机系统,2006,27(1):114-116. 被引量：16

1周强,张良.基于多链式能源区块链的P2P微网电能交易研究[J].电气传动,2021,51(10):62-68. 被引量：2
2王超.基于临近锚节点修正的DBSCAN聚类加权定位算法[J].太赫兹科学与电子信息学报,2021,19(3):426-432. 被引量：2
3王子洋,李琼琼,张子蕴,王康,杨家富.应用于无人驾驶车辆的点云聚类算法研究进展[J].世界科技研究与发展,2021,43(3):274-285. 被引量：9
4何巧莹,黄林海.基于单点激光测距的扫描成像技术[J].激光与光电子学进展,2021,58(6):347-354. 被引量：4
5杨小霞,张红芸,李国晖,李乐,苏红春,王烨,高瑾,吴爱辉.多层螺旋CT动态增强扫描在宫颈癌初诊中的价值及漏诊的影响因素分析[J].医疗卫生装备,2021,42(6):65-68. 被引量：8
6Yushu Zhou,Bin Zhang,Wei Qin,Qingchun Deng,Jun Luo,Hui Liu,Dan Yang,Houling Wang,Ying Zhao.Primary environmental factors controlling gully distribution at the local and regional scale:An example from Northeastern China[J].International Soil and Water Conservation Research,2021,9(1):58-68. 被引量：4
7靳慧斌,刘海波,胡占尧,霍百明.利用改进DBSCAN算法的管制雷达目标标定方法[J].重庆大学学报,2021,44(5):146-154.
8于文玲,刘兆会,李书玲,朴颖实,王成硕,鲜军舫.鼻腔鼻窦内翻性乳头状瘤内骨化的CT特征及其与术中肿瘤根蒂位置的对照研究[J].中华放射学杂志,2021,55(6):633-637. 被引量：8
9冀慧君,李林,刘佳,宁文学,张鹏飞.基于密度聚类的地面发控解耦模型研究[J].火力与指挥控制,2021,46(5):92-97. 被引量：1
10Yanhua He,Yi Lin,Guohua Zhou,Yixuan Zhu,Kai Tang.Spatial pattern and drivers of urbanization in China's mid-level developing urban agglomeration:A case study of Chang-Zhu-Tan[J].Regional Sustainability,2021,2(1):83-97. 被引量：9

现代计算机

2021年第14期

浏览历史

内容加载中请稍等...

Spark并行化改进的SDKB-DBSCAN聚类算法

参考文献11

二级参考文献78

共引文献209

相关作者

相关机构

相关主题

浏览历史