基于改进K-means++和DBSCAN的大数据聚类方法被引量：7

Big data clustering method based on improved K-means++ and DBSCAN

下载PDF

导出

摘要为改善大规模数据集的处理性能,提出了基于改进K-means++和基于密度的含噪声应用空间聚类(DBSCAN)算法的大数据聚类方法。首先,将K-means++与局部搜索策略相结合,在数据集上进行初始化分区,然后利用DBSCAN算法在每个分组内单独执行数据聚类。利用改进K-means++算法提高数据预处理质量,并通过分区并行聚类的操作显著降低DBSCAN的计算负担,加快处理速度。最后,通过两阶段的剪枝策略对边缘聚类进行高效合并。实验结果表明,所提方法大幅降低了DBSCAN的执行时间,且聚类数据的质量与原DBSCAN算法非常接近,在UCI库的Bitcoin数据集上比其他比较方法的聚类效率提高了10倍以上,在处理时间和聚类数据质量之间实现了最优平衡。 In order to improve the processing performance of large-scale data sets, a big data clustering method based on improved K-means++ and DBSCAN algorithms is proposed. First, K-means++ is combined with a local search strategy to perform initialized partitioning on the data set, and then the DBSCAN algorithm is used to perform data clustering within each data partitions separately. The improved K-means++ algorithm is used to improve the quality of data pre-processing, and the computational burden of DBSCAN is significantly reduced through the operation of data partitioning and parallel clustering, thereby speeding up the overall processing speed. Finally, a two-step pruning strategy is proposed to merge the border clusters efficiently. The experimental results show that the proposed method greatly reduces the execution time of DBSCAN, and the quality of the clustered data is very close to the original DBSCAN algorithm. The clustering efficiency on the Bitcoin data set from the UCI library is more than 10 times higher than that of other comparison methods, and an optimal balance is achieved between processing time and clustering data quality.

作者张玉琴梁莉张建亮冯向东 Zhang Yuqin;Liang Li;Zhang Jianliang;Feng Xiangdong(College of the Engineering&Technical,Chengdu University of Technology,Leshan 614000,China;School of Mathematics and Physics,Chengdu University of Technology,Chengdu 610059,China)

机构地区成都理工大学工程技术学院成都理工大学数理学院

出处《国外电子测量技术》北大核心 2022年第9期40-46,共7页 Foreign Electronic Measurement Technology

基金四川省自然科学重点项目(18ZA0075,18ZA0073) 乐山市科技局重点研究项目(21GZD015) 成都理工大学工程技术学院基金(C122019027)项目资助。

关键词大数据数据聚类 DBSCAN K-means++ 局部搜索 big data data clustering DBSCAN K-means++ local search

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1詹柳春,黄长江.云计算下物联网密集场景大数据挖掘技术[J].电子测量技术,2019,42(23):164-168. 被引量：15
2曹亮,王洪元,戴臣超,陈莉,刘乾.基于多样性约束和离散度分层聚类的无监督视频行人重识别[J].南京航空航天大学学报,2020,52(5):752-759. 被引量：5
3彭娉,陈时健,任利杰,于新海,陈尚书,李锦.三偏心蝶阀密封面在位测量的点云数据处理方法[J].仪器仪表学报,2021,42(12):30-38. 被引量：6
4叶林,李镓辰,路朋,翟庆志,李湃,王伟胜,董凌.基于近邻传播聚类与MCMC算法的风电时序数据聚合方法[J].中国电机工程学报,2020,40(12):3744-3753. 被引量：16
5张婷曼,丁凰.依赖不确定性关联规则的城市交通流大数据挖掘[J].国外电子测量技术,2020,39(11):39-45. 被引量：5
6李建伏,巴建军.基于MCMC的DBSCAN改进算法[J].计算机工程与设计,2020,41(1):122-127. 被引量：5
7韩利钊,钱雪忠,罗靖,宋威.基于区域划分的DBSCAN多密度聚类算法[J].计算机应用研究,2018,35(6):1668-1671. 被引量：30
8王学贺.一种基于改进微粒群和轮廓系数的划分聚类方法[J].云南民族大学学报（自然科学版）,2016,25(4):367-371. 被引量：13

二级参考文献61

1李茂月,马康盛,王飞,刘硕.基于结构光在机测量的叶片点云预处理方法研究[J].仪器仪表学报,2020,41(8):55-66. 被引量：34
2王瑞康,张国雄.三坐标测量机上实现圆锥度误差测量和评价[J].仪器仪表学报,1993,14(1):1-7. 被引量：6
3张枫,邱保志.基于网格的高效DBSCAN算法[J].计算机工程与应用,2007,43(17):167-169. 被引量：8
4KIM K, AHN H. A recommender system using GA k -means clustering in an online shopping market[J] . ExpertSystems with Applications, 2008, 3 4 (2 ) : 1200 - 1209.
5LASZLO M , MUKHERJEE S. A genetic algorithm that exchangesneighboring centers for k - means clustering [J] .Pattern Recognition Letters, 2007, 2 8 (1 6 ) : 2359 -2 3 6 6 .
6KLEIN R W , DUDES R C. Experiments in projection andclustering by simulated annealing [J]. Pattern Recognition,1989, 2 2 (2 ) : 213 -2 2 0 .
7YANG Y , KAMEL M S. An aggregated clustering approachusing multi - ant colonies algorithms [J] . PatternRecognition, 2006, 3 9 (7 ) : 1278 -1 2 8 9 .
8SHELOKAR P S, JAYARAMAN V K, KULKARNI B D.An ant colony approach for clustering [J] . Analytica ChimicaActa, 2004 , 5 0 9 (2 ) : 187 -1 9 5 .
9CUI X , POTOK T E , PALATHINGAL P. Document clusteringusing particle swarm optimization [C].// Swarm IntelligenceSymposium, 2005. SIS 2005. Proceedings 2005IEEE. IEEE, 2005: 1 8 5 -1 9 1 .
10KAO Y T , ZAHARA E , KAO I W. A hybridized approachto data clustering[J]. Expert Systems with Applications,2008, 3 4 (3 ) : 1754 -1 7 6 2 .

共引文献87

1贾澎涛,温滋.基于RS_Hash频繁项集的卫星载荷关联规则算法[J].国外电子测量技术,2023,42(2):9-15.
2亮亮.在海底安个家[J].大自然探索,2000(6):69-72.
3林涛,马同宽,秦冬阳,董栅.基于改进DBSCAN算法的风机故障诊断研究[J].现代电子技术,2018,41(21):146-149. 被引量：4
4刘勇,何婧,姚绍文,向毅,张浩.基于重心点转移的St-DBSCAN改进算法[J].计算机技术与发展,2018,28(11):6-11. 被引量：1
5孙悦,宋瑞,邱果.基于乘客需求数据的定制商务班车站点选址方法[J].山东科学,2019,32(1):102-112. 被引量：6
6王建仁,马鑫,段刚龙.改进的K-means聚类k值选择算法[J].计算机工程与应用,2019,55(8):27-33. 被引量：109
7万静,崔美玉,何云斌,李松.障碍空间中基于Voronoi图的不确定数据聚类算法[J].计算机研究与发展,2019,56(5):977-991. 被引量：6
8徐静,张文学.药品安全话题发现技术研究[J].软件导刊,2019,18(5):151-154.
9王冬,张焱,姜俊奎.基于浮动车轨迹数据的城市路网提取[J].中国科技论文,2019,14(2):226-231. 被引量：3
10杨忠炯,王臣臣,周立强,易圣先.基于密度聚类的线段特征提取方法[J].制造业自动化,2019,41(6):88-91. 被引量：1

同被引文献78

1王瑞霞.基于RMF的成品油销售企业客户分类管理研究[J].现代营销（信息版）,2020(6):71-73. 被引量：1
2鲁猛胜,姚剑,董赛云.法向约束的点云数据泊松表面重建算法[J].测绘地理信息,2022,47(4):51-55. 被引量：4
3何志毅,陈正惠.基于天然气客户的消费波动特征与顾客分类研究[J].中国管理科学,2015,23(8):132-138. 被引量：1
4程晓荣,刘雨晨.基于FCM聚类算法的电力企业营销数据预处理研究[J].电脑编程技巧与维护,2016(19):65-65. 被引量：2
5柏宇轩.Kmeans应用与特征选择[J].电子技术与软件工程,2018(1):186-187. 被引量：11
6刘倩颖,阮应君,时翔,李铮伟.基于kmeans聚类与BP神经网络算法的办公建筑逐时电负荷预测[J].热能动力工程,2018,33(3):138-144. 被引量：33
7袁旭梅,张旭.基于云模型的PROMETHEE多准则决策方法[J].模糊系统与数学,2018,32(2):92-103. 被引量：4
8赵志强,高跃,付高善,高明,李庆波,甄国栋.配电系统实际运行的剩余供电能力计算方法[J].现代电力,2018,35(4):59-65. 被引量：13
9甄国栋,高新智,于树刚,郭伟,李思岑,祖国强.配电网的剩余供电能力实用模型[J].电网技术,2018,42(10):3420-3428. 被引量：20
10钟熙,孙祥娥.基于Kmeans++聚类的朴素贝叶斯集成方法研究[J].计算机科学,2019,46(B06):439-441. 被引量：26

引证文献7

1廖禹韬,吴黎明,王桂棠,霍启乐.基于深度相机的金属柜体三维重建[J].电子测量技术,2023,46(20):36-40.
2岳珊,雍巧玲.基于确定初始簇心的优化K-means算法[J].数字技术与应用,2023,41(11):140-142. 被引量：2
3孔思曼,周晨阳,王家华,李林,孙践知.基于优化Faster R-CNN算法的金属板材表面缺陷检测[J].制造技术与机床,2024(1):171-178. 被引量：1
4吴绍华,赵耀,张妍君.基于KMeans的铁路电务设备布放辅助设计软件研究[J].铁路计算机应用,2024,33(1):15-20.
5邓集检,张月霞.基于用户意愿度D2D协助的工业物联网资源分配[J].国外电子测量技术,2024,43(2):193-200. 被引量：1
6兰志轩,王世柱,曹译丹,杨楠,李宏晨.基于Kmeans++算法和LGBM模型的城市燃气客户分类[J].天然气技术与经济,2024,18(2):51-59.
7廖贺.基于配电台区可开放容量精准计算的业扩报装策略[J].湖南电力,2024,44(3):145-150.

二级引证文献4

1李明峰,冯鑫,檀丁.基于K-means的多级迭代分区坐标转换方法研究[J].现代测绘,2024,47(1):1-3.
2汪文才,仇梁,徐海福.基于GAN的车门上饰板表面缺陷检测数据增广算法[J].制造技术与机床,2024(7):170-176.
3李红仁,张坤,王鑫,呼树尧,马吉伟.基于历史数据的燃气轮机健康状态实时评估系统[J].电力大数据,2024,27(4):63-71.
4刘宇鹏,雷少波,樊浩研,牛虹.基于深度强化学习的无线多址接入方法研究[J].国外电子测量技术,2024,43(8):10-16.

1胡立华,王敏敏,刘爱琴,张素兰.基于影响空间与YOLOv3的古建筑检测方法[J].计算机技术与发展,2022,32(12):185-193.
2李志,摆倩倩,叶博嘉.后疫情时期的机场旅客吞吐量预测[J].航空计算技术,2022,52(6):40-44. 被引量：3
3杨从林,向竹,杨志伟,谭跃进.火箭壳体加工的虚拟单元重构方法[J].控制与决策,2022,37(11):2818-2826.
4唐丽君,彭石燕.混合花朵授粉算法在作业车间调度中的应用[J].工程数学学报,2022,39(6):997-1004.
5刘卫明,崔瑜,毛伊敏,刘蔚.基于MapReduce和MSSA的并行K-means算法[J].计算机应用研究,2022,39(11):3244-3251. 被引量：4
6张云菲,张泽旭,朱芳琪.利用时空密度聚类的高速公路交通事故黑点路段鉴别[J].测绘通报,2022(10):73-79. 被引量：5
7申元霞,张学锋,方馨,汪小燕.多尺度正余弦优化算法[J].控制与决策,2022,37(11):2860-2868. 被引量：4
8《小学数学教育》(下半月)2022年第7、8期“备课参考”栏目征稿启事[J].小学数学教育,2022(10):6-6.
9邱均平.独树一帜,集成创新——评赵蓉英教授新著《学术影响力》[J].评价与管理,2022,20(3):95-95.
10刘康,李彬,薛阳,杨艺宁,徐英辉,刘爱国,苏盛.基于传递熵密度聚类的用户窃电识别方法[J].中国电机工程学报,2022,42(20):7535-7545. 被引量：14

国外电子测量技术

2022年第9期

浏览历史

内容加载中请稍等...

基于改进K-means++和DBSCAN的大数据聚类方法被引量：7

参考文献8

二级参考文献61

共引文献87

同被引文献78

引证文献7

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于改进K-means++和DBSCAN的大数据聚类方法 被引量：7

参考文献8

二级参考文献61

共引文献87

同被引文献78

引证文献7

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于改进K-means++和DBSCAN的大数据聚类方法被引量：7