面向海量数据的并行KMeans算法被引量：31

Parallel KMeans algorithm for massive data

导出

摘要针对海量数据的特性及KMeans算法的并行特性,提出了一种基于MapReduce编程框架的并行聚类算法,给出了算法的主要设计方法和策略.Map函数计算出每个记录所属的簇并用簇标号来标记;为了减少网络流量,利用Combine函数合并了本地的簇中的样本和;Reduce函数合并簇中所有的记录,并重新计算聚类的中心,供下一轮MapReduce迭代使用.最后用不同大小的数据集对改进算法的效率及伸缩性进行了验证,结果表明基于Hadoop的并行KMeans算法适合于海量数据的分析和挖掘. 针对海量数据的特性及KMeans算法的并行特性,提出了一种基于MapReduce编程框架的并行聚类算法,给出了算法的主要设计方法和策略.Map函数计算出每个记录所属的簇并用簇标号来标记;为了减少网络流量,利用Combine函数合并了本地的簇中的样本和;Reduce函数合并簇中所有的记录,并重新计算聚类的中心,供下一轮MapReduce迭代使用.最后用不同大小的数据集对改进算法的效率及伸缩性进行了验证,结果表明基于Hadoop的并行KMeans算法适合于海量数据的分析和挖掘.

作者周丽娟王慧王文伯张宁

机构地区首都师范大学信息工程学院北京理工大学计算机学院

出处《华中科技大学学报（自然科学版）》 EI CAS CSCD 北大核心 2012年第S1期150-152,共3页 Journal of Huazhong University of Science and Technology(Natural Science Edition)

基金国家科技支撑计划资助项目(2012BAH20B03) 国家自然科学基金资助项目(31101078) 北京市重点建设学科经费资助项目

关键词并行KMeans 海量数据簇云计算数据挖掘 the parallel KMeans massive data cluster cloud computing data mining

分类号 N55 [自然科学总论]

引文网络
相关文献

参考文献10

1Ekanayake J,Pallickara S.MapReduce for data in-tensive scientific analysis. IEEE eScience . 2008
2Zhou Ping,Lei Jingsheng,Ye Wenjun.Large-scaledata sets clustering based on MapReduce and hadoop. Journal of Computational Information Systems . 2011
3Hadoop:Open source implementation of MapReduce. http:∥hadoop.apache.org . 2010
4Wang Xuan.Clustering in the cloud:clustering algo-rithms to Hadoop Map/Reduce framework. . 2010
5DEAN J,GHEMAWAT S.MapReduce:simplified data processing on large clusters. . 2004
6Ekanayake J,Pallickara S.MapReduce for data in-tensive scientific analysis. IEEE eScience . 2008
7Zhou Ping,Lei Jingsheng,Ye Wenjun.Large-scaledata sets clustering based on MapReduce and hadoop. Journal of Computational Information Systems . 2011
8Hadoop:Open source implementation of MapReduce. http:∥hadoop.apache.org . 2010
9Wang Xuan.Clustering in the cloud:clustering algo-rithms to Hadoop Map/Reduce framework. . 2010
10DEAN J,GHEMAWAT S.MapReduce:simplified data processing on large clusters. . 2004

同被引文献233

1李昉,罗汉武.基于多元线性回归理论的河南省用电量预测[J].电网技术,2008,32(S1):124-126. 被引量：22
2杨振亚,王勇,杨振东,王成道.一种新的RGB色差度量公式[J].计算机应用,2009,29(2):465-467. 被引量：19
3姚轶.浅谈网络文本挖掘分类[J].科技风,2009(3). 被引量：1
4张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
5赵卓翔,王轶彤,田家堂,周泽学.社会网络中基于标签传播的社区发现新算法[J].计算机研究与发展,2011,48(S3):8-15. 被引量：37
6吴泓辰,王新军,成勇,彭朝晖.基于协同过滤与划分聚类的改进推荐算法[J].计算机研究与发展,2011,48(S3):205-212. 被引量：20
7江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
8张恺凯,杨秀媛,卜从容,茹伟,刘成君,杨阳,陈瑶.基于负荷实测的配电网理论线损分析及降损对策[J].中国电机工程学报,2013,33(S1):92-97. 被引量：98
9罗勇,曹丽莉.产业融合的创新点[J].中国第三产业,2004(10):20-22. 被引量：2
10陈得治,郭志忠.基于负荷获取和匹配潮流方法的配电网理论线损计算[J].电网技术,2005,29(1):80-84. 被引量：73

引证文献31

1余文礼.基于聚类分析和贪心算法的文件碎片拼接复原[J].电子世界,2014(11):183-183.
2赵硕,张少敏.分布式电力负荷预测算法研究[J].小型微型计算机系统,2014,35(8):1856-1860. 被引量：4
3李尧坤.面向数据规模可扩展的并行优化K-means算法[J].现代计算机（中旬刊）,2015(1):3-5.
4郭峰,张珣.家庭背景音乐系统大数据的分析[J].物联网技术,2015,5(7):92-95.
5邹云峰,梅飞,李悦,程云,涂旺,梅军.基于数据挖掘技术的台区合理线损预测模型研究[J].电力需求侧管理,2015,17(4):25-29. 被引量：43
6张东香,江长柱.基于多重语义的词典管理方法和实现[J].信息技术,2015,39(9):191-195.
7丁伟,万定生,樊龙.并行数据挖掘方法在水利普查成果分析中的应用[J].计算机与现代化,2015(10):107-111.
8孟海东,任敬佩.基于云计算平台的聚类算法[J].计算机工程与设计,2015,36(11):2990-2994. 被引量：10
9李梓萌,谭丽丽,潘叶,匡华.基于基线分析的云计算资源自动分配技术[J].现代计算机,2016,22(4):19-24. 被引量：1
10刘宝龙,苏金.双MapReduce改进的Canopy-Kmeans算法[J].西安工业大学学报,2016,36(9):730-737. 被引量：6

二级引证文献185

1拱健婷,王佳宇,李莉,徐东,丛悦,关佳莉,吴浩忠,邹慧琴,闫永红.基于电子鼻气味指纹图谱与XGBoost算法鉴别姜黄属中药[J].中国中药杂志,2019,44(24):5375-5381. 被引量：21
2朱义奎,黄佳豪,蔡亮.基于Spark机器学习的电商推荐系统的设计与实现[J].现代商贸工业,2021,42(S01):52-54. 被引量：2
3徐维军,付志能,李茂昌,张卫国.基于新闻文本挖掘的股指期货高频预测研究[J].系统科学与数学,2021,41(7):1856-1875. 被引量：2
4李方平,吴楠,郭运华,胡艺川,王旭一,李新平.水电工程智能安全监测体系特征及发展趋势[J].人民长江,2021,52(S02):259-264. 被引量：6
5刘欣雨.基于弹幕的突发信息安全类事件舆情分析——以“滴滴平台下架”事件为例[J].情报工程,2022,8(4):85-109. 被引量：1
6金明,林杰,万里.高速公路基础设施数据分析及可视化平台实现[J].中国交通信息化,2020(S01):35-38. 被引量：3
7谭朋柳,徐光勇,张露玉,王润庶.基于卷积神经网络和Adaboost的心脏病预测模型[J].计算机应用,2023,43(S01):19-25. 被引量：2
8周福举,王洪寅,庞吉年,花俊,毕键爽.基于BP神经网络的线损不良数据辨识及其预测[J].节能,2020,39(1):27-31. 被引量：6
9张娟,李俊午.全时空量测环境下基于双向长短期记忆网络的电力物联网损耗计算[J].电子器件,2022,45(2):408-414. 被引量：1
10钟小强,陈杰,蒋敏敏,郑晓晖.基于深度学习的台区线损分析方法[J].电网技术,2020,44(2):769-774. 被引量：44

1马旭东.图的标号问题的计算机算法[J].新疆师范大学学报（自然科学版）,1990,9(2):98-101.
2程辉,李晓辉,姚兵.树的几种标号之间的关系[J].河南师范大学学报（自然科学版）,2011,39(3):1-4.
3郭小和,刘科,廖焕文,姚伟,周继强.基于复杂网络的安然公司高管组织结构发现[J].南昌航空大学学报（自然科学版）,2013,27(3):103-108. 被引量：2
4戴楠,冯怡欢.多目标综合评价及方案决策方法新探[J].武汉水利电力大学学报,1998,31(3):104-106. 被引量：2
5潘全,郭鸣,林鹏.基于MapReduce的最大团算法[J].系统工程理论与实践,2011,31(S2):150-153. 被引量：5
6曹怀信.关于环形图的某些性质[J].青海师范大学学报（自然科学版）,1991,0(4):20-23.
7姚民乐.新规范中有关砼强度的几个问题的探讨[J].嘉兴高等专科学校学报,1997,10(2):20-22.
8李国君,孙天厌.M-回路网络的中心选址[J].烟台大学学报（自然科学与工程版）,1993,6(1):9-15.
9柳柏濂,张显坤.超树的计数理论(Ⅱ)[J].自然杂志,1989,12(9):717-718.
10曾莉红.基于Visual.NET技术的网络课件的开发与设计[J].重庆师范大学学报（自然科学版）,2005,22(1):27-30. 被引量：2

华中科技大学学报（自然科学版）

2012年第S1期

浏览历史

内容加载中请稍等...

面向海量数据的并行KMeans算法被引量：31

参考文献10

同被引文献233

引证文献31

二级引证文献185

相关作者

相关机构

相关主题

浏览历史

面向海量数据的并行KMeans算法 被引量：31

参考文献10

同被引文献233

引证文献31

二级引证文献185

相关作者

相关机构

相关主题

浏览历史

面向海量数据的并行KMeans算法被引量：31