面向海量数据的K-means聚类优化算法被引量：13

Optimized K-means clustering algorithm for massive data

下载PDF

导出

摘要针对集中式系统框架难以进行海量数据聚类分析的问题,提出基于MapReduce的K-means聚类优化算法。该算法运用MapReduce并行编程框架,引入Canopy聚类,优化K-means算法初始中心的选取,改进迭代过程中通信和计算模式。实验结果表明该算法能够有效地改善聚类质量,具有较高的执行效率以及优良的扩展性,适合用于海量数据的聚类分析。 In order to solve the problem of the clustering on massive data under the framework of a centralized system, an optimized algorithm to K-means clustering based on MapReduce is proposed. By using MapReduce parallel programming framework and importing Canopy clustering, this algorithm optimizes initial clustering center, improves communication mode and calculation mode in iteration. The experimental results show that this algorithm can effectively improve the quality of clustering, and can have higher implementation efficiency, its good scalability, thus it fits to clustering analysis on massive data.

作者冀素琴石洪波

机构地区山西财经大学信息管理学院

出处《计算机工程与应用》 CSCD 2014年第14期143-147,共5页 Computer Engineering and Applications

基金国家自然科学基金(No.60873100) 山西省自然科学基金(No.2010011022-1) 山西省科技基础条件平台建设项目(No.2011091001-0101)

关键词海量数据聚类 MAPREDUCE K-MEANS算法 Canopy算法 massive data clustering MapReduce K-means algorithm Canopy algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1冯永,吴开贵,熊忠阳,吴中福.一种有效的并行高维聚类算法[J].计算机科学,2005,32(3):216-218. 被引量：6
2牛新征,佘堃.面向大规模数据的快速并行聚类划分算法研究[J].计算机科学,2012,39(1):134-137. 被引量：22
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1072

二级参考文献20

1李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
2Wikipedia. K-Means clustering [EB/OL]. http://en, wikipedia. org/wiki/K-Means.
3Kantabutra S, Couch A L Parallel K-Means Clustering Algo- rithm on NOWS[J]. Technical Journal, 2000,6 (1) : 243-247.
4Forman G, Zhang B. Distributed Data Clustering can be Efficient and Exact[J]. SIGKDD Explorations, 2000,2 (2) : 34-38.
5Boutsinas B, Gnardellis T. On Distributing the Clustering Pro- cess[J]. Patter Recognition Letters, 2002,23(4) : 999-1008.
6梁红李伟生.XML文档的并行聚类算法.计算机科学,2004,31(10):243-245.
7Quinn M J. ParM: Pallel Programming in C with MPI and OpenMP[S]. Beijing: Tsinghua University Press, 2005.
8Han J,Kamber M. Data Mining: Concepts and Techniques. High Education Press, Morgan Kaufman Publishers, 223-257
9Guha U,Rastogi R,Shim K. CURE: an efficient clustering algorithm for large databases. Information System, 2001,26 (1): 35-58
10Zhang T, Ramarkrishnan R,Livny M. BIRCH: an efficient data clustering method for very large database. 1996 ACM 0-89791-794-4/96/0006

共引文献1094

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
3林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
4高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
5毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
6张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：3
7李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
8尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
9段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
10何睿,余娜,李淼,张峻巍,王浩杰,赵玉茗.基于单细胞RNA测序数据的细胞类型聚类算法[J].智能计算机与应用,2020,10(7):104-108. 被引量：2

同被引文献80

1张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
2江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
3胡建军,唐常杰,李川,彭京,元昌安,陈安龙,蒋永光.基于最近邻优先的高效聚类算法[J].四川大学学报（工程科学版）,2004,36(6):93-99. 被引量：24
4王鑫,王洪国,张建喜,谷建军.基于数据分区的最近邻优先聚类算法[J].计算机科学,2005,32(12):188-190. 被引量：4
5杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：190
6Suresh L, Jay B Simha, Rajappa Velur. Seeding cluster cen- ters of K-means clustering through median projection [C] // International Conference on Complex, Intelligent and Software Intensive Systems, IEEE, 2010.. 15-18.
7Siti Noraini Sulaiman, Khairul Azman Abroad, Nor Ashidi Mat Isa, et at. Performance of hybrid radial basis function net- work: Adaptive fuzzy K-means versus moving K-means cluste- ring as centre positioning algorithms on cervical cell pre-cance- rous stage classification [C] //IEEE International Conference on Control System, Computing and Engineering, 1EEE, 2012: 607-611.
8Pahala Sirait, Aniati Murni Arymurthy. Cluster centres deter- ruination based on KI) tree in K-means clustering for area change detection [C] //International Conference on Distributed Frame- works for Multimedia Applications, IEEE, 2010.. 1-7.
9Zhang Yuhua, Wang Kun, Lu Heng, et al. An improved K- means clustering algorithm over data accumulation in delay to- lerant mobile sensor network [C] //8th International Confe- rence on Communications and Networking in China, IEEE, 2013: 34-39.
10Jiang Dongyang, Zheng Wei, Lin Xiaoqing. Research on selec- tion of initial center points based on improved K-means algo- rithm [ C] //2nd International Conference on Computer Science and Network Technology, IEEE, 2012: 1146-1149.

引证文献13

1罗倩.K-means聚类中心的鲁棒优化算法[J].计算机工程与设计,2015,36(9):2395-2400. 被引量：7
2林金田,王梦娣.基于K-Means动态数据中值估算的研究[J].衡器,2016,45(1):17-19.
3刘澎,陆介平.基于MapReduce的改进k-means文本聚类算法[J].信息技术,2016,40(11):201-205. 被引量：3
4杨健兵.K-Means聚类算法在MapReduce框架下的实现[J].软件导刊,2016,15(12):30-32. 被引量：2
5胡小建,韦超豪.基于Canopy和k-means算法的订单分批优化[J].合肥工业大学学报（自然科学版）,2017,40(3):414-419. 被引量：24
6孙东磊,吴奎华,吴健,冯亮,刘晓明.基于多源数据集成的电网规划综合数据平台[J].山东电力技术,2018,45(1):1-7. 被引量：5
7陈兴亮,李永忠,于化龙.基于IPMeans-KELM的入侵检测算法研究[J].计算机工程与应用,2016,52(22):118-122. 被引量：8
8宁可,孙同晶,徐洁洁.面向海量数据的改进最近邻优先吸收聚类算法[J].计算机工程,2018,44(4):35-40. 被引量：5
9汪晶,邹学玉,喻维明,孙咏.分布式MVC-Kmeans算法设计与实现[J].长江大学学报（自然科学版）,2019,16(6):113-119. 被引量：3
10邵欣欣.基于Canopy和共享最近邻的服务推荐算法[J].计算机科学,2020,47(S02):479-481. 被引量：3

二级引证文献76

1吴艳娟,王健,王云亮.基于骨架提取算法的作物茎秆识别与定位方法[J].农业机械学报,2022,53(11):334-340. 被引量：1
2马立红.基于数据集成技术的一体化配电网规划设计平台建设研究[J].自动化与仪器仪表,2018,0(12):30-32.
3肖堃.工业以太网中多次变异信息入侵检测仿真[J].计算机仿真,2018,35(12):406-410.
4吴卫江,周静,李国和.一种基于节点重要度的社团划分算法[J].中南民族大学学报（自然科学版）,2016,35(1):119-122. 被引量：1
5杜景林,沈晓燕.基于改进型K-means聚类的温度插值算法[J].计算机工程与设计,2016,37(11):2992-2998. 被引量：6
6程欣欣,陶晓英.基于大数据的客户触达效率提升研究[J].信息通信技术,2017,11(4):53-59.
7林伟宁,陈明志,詹云清,刘川葆.一种基于PCA和随机森林分类的入侵检测算法研究[J].信息网络安全,2017(11):50-54. 被引量：20
8张淑芬,董岩岩,陈学斌.基于云计算平台Hadoop的HKM聚类算法设计研究[J].应用科学学报,2018,36(3):524-534. 被引量：9
9黄熙岱.关于多组件网络节点漏洞准确识别仿真[J].计算机仿真,2018,35(7):323-326. 被引量：1
10郭友雄,黄添强,林玲鹏,黄维.Hadoop平台下基于快速搜索与密度峰值查找的聚类算法[J].福建师大福清分校学报,2018,36(2):37-44. 被引量：2

1衣治安,王月.基于MapReduce的K_means并行算法及改进[J].计算机系统应用,2015,24(6):188-192. 被引量：4
2李响.RSA算法在教学管理数据库加密中的应用[J].科学咨询,2010(13):84-84. 被引量：1
3贾天卓.软件编程框架设计研究[J].黑龙江科学,2015,6(12):88-89.
4孙平安.基于维分量簇中心为初始中心的多维k-means聚类算法[J].曲阜师范大学学报（自然科学版）,2012,38(4):65-69.
5刘海龙,宿宏毅.利用Hadoop云计算平台进行海量数据聚类分析[J].舰船科学技术,2016,38(14):148-150. 被引量：3
6金永华,陈国栋.轻量级的面向对象C语言编程框架[J].程序员,2010(4):115-119. 被引量：2
7何忠育,王勇,王瑛,陈新,廖朝辉.基于分布式计算的网络舆情分析系统的设计[J].警察技术,2010(3):19-22. 被引量：6
8莫则尧.高性能数值模拟编程框架研究进展[J].科研信息化技术与应用,2015,6(4):11-19. 被引量：12
9温庭俊.浅析无线传感器网络的特点[J].决策与信息（下旬）,2010(3):167-168.
10邱荣太,杨稀.基于聚类划分的P2P流媒体系统构建[J].现代营销（下）,2012(8):174-175.

计算机工程与应用

2014年第14期

浏览历史

内容加载中请稍等...

面向海量数据的K-means聚类优化算法被引量：13

参考文献3

二级参考文献20

共引文献1094

同被引文献80

引证文献13

二级引证文献76

相关作者

相关机构

相关主题

浏览历史

面向海量数据的K-means聚类优化算法 被引量：13

参考文献3

二级参考文献20

共引文献1094

同被引文献80

引证文献13

二级引证文献76

相关作者

相关机构

相关主题

浏览历史

面向海量数据的K-means聚类优化算法被引量：13