k-means聚类算法的MapReduce并行化实现被引量：79

Parallel implementing k-means clustering algorithm using MapReduce programming mode

导出

摘要针对k-means聚类算法特点,给出了MapReduce编程模型实现k-means聚类算法的方法,Map函数完成每个记录到聚类中心距离的计算并重新标记其属于的新聚类类别,Reduce函数根据Map函数得到的中间结果计算出新的聚类中心,供下一轮MapReduce Job使用.实验结果表明:k-means算法MapReduce并行化后部署在Hadoop集群上运行,具有较好的加速比和良好的扩展性. 针对k-means聚类算法特点,给出了MapReduce编程模型实现k-means聚类算法的方法,Map函数完成每个记录到聚类中心距离的计算并重新标记其属于的新聚类类别,Reduce函数根据Map函数得到的中间结果计算出新的聚类中心,供下一轮MapReduce Job使用.实验结果表明:k-means算法MapReduce并行化后部署在Hadoop集群上运行,具有较好的加速比和良好的扩展性.

作者江小平李成华向文张新访颜海涛

机构地区中南民族大学电子信息工程学院华中科技大学计算机科学与技术学院中国移动通信集团湖北有限公司业务支撑中心

出处《华中科技大学学报（自然科学版）》 EI CAS CSCD 北大核心 2011年第S1期120-124,共5页 Journal of Huazhong University of Science and Technology(Natural Science Edition)

基金中央高校基本科研业务费专项资金资助项目(CZY11002) 武汉市科技攻关项目(201110821229) 华中科技大学暨湖北省移动通信公司TD-SCDMA联合创新实验室创新基金资助项目

关键词云计算并行计算 MAPREDUCE模型数据挖掘 K-MEANS聚类算法 cloud computing parallel computing MapReduce programming mode data mining k-means clustering algorithm

分类号 N55 [自然科学总论]

引文网络
相关文献

参考文献9

1陈全,邓倩妮.云计算及其关键技术[J].计算机应用,2009,29(9):2562-2567. 被引量：929
2陈康,郑纬民.云计算:系统实例与研究现状[J].软件学报,2009,20(5):1337-1348. 被引量：1310
3陈慧萍,林莉莉,王建东,苗新蕊.WEKA数据挖掘平台及其二次开发[J].计算机工程与应用,2008,44(19):76-79. 被引量：35
4Apache Hadoop.Hadoop. http:∥hadoop.apache.org . 2011
5Wikipedia.k-means clustering. http:∥en.wikipedia.org/wiki/k-means-cluste-ring . 2011
6Dean J,Ghemawat S.MapReduce:Simplified data processing on large clusters. Communications of the ACM . 2005
7Eibe Frank,Mark Hall,Len Trigg.Waikato Environment for Knowledge Analysis,weka. http://www.cs.waikato.ac.nz/ml/weka/: .
8Dennis Wegener,Michael Mock.Toolkit-based high-performance Data Mining of large Data on MapReduce Clusters. InternationalConference on Data Mining Workshops . 2009
9Cheng-Tao Chu,Sang Kyun Kim,Yi-An Lin.Map-Reduce for Machine Learning on Multicore.. Proceedings of Neural Information Processing Systems Conference(NIPS) . 2006

二级参考文献67

1姚再勇,郑启龙,许胤龙,姚震,张红涛,胡晨光.基于Eclipse的并行开发环境EMPI[J].计算机应用与软件,2005,22(10):5-7. 被引量：3
2林金晓,陈伟男,周学功,彭澄廉,吴荣泉.基于Eclipse平台的边界扫描测试软件的开发[J].计算机工程,2007,33(12):280-282. 被引量：5
3Data mining tools you used in 2005 [EB/OL]. [2007].http ://www. kdnugget s.com/polls/2005/data_mining_tools.htm.
4Witten I H,Frank E.Data mining practical machine learning tools and techniques[M].2nd ed.北京:机械工业出版社,2005.
5Kirkby R,Frank E.WEKA explorer user guide for version 3-4-3 [EB/OL].[2007].http://www.es.waikato.ae.nz/ml/WEKA/2004.
6UCI machine learning repository[EB/OL].[2007].http://mlearn.ics.uci. edu/MLRepository.html.
7Sims K. IBM introduces ready-to-use cloud computing collaboration services get clients started with cloud computing. 2007. http://www-03.ibm.com/press/us/en/pressrelease/22613.wss
8Boss G, Malladi P, Quan D, Legregni L, Hall H. Cloud computing. IBM White Paper, 2007. http://download.boulder.ibm.com/ ibmdl/pub/software/dw/wes/hipods/Cloud_computing_wp_final_8Oct.pdf
9Zhang YX, Zhou YZ. 4VP+: A novel meta OS approach for streaming programs in ubiquitous computing. In: Proc. of IEEE the 21st Int'l Conf. on Advanced Information Networking and Applications (AINA 2007). Los Alamitos: IEEE Computer Society, 2007. 394-403.
10Zhang YX, Zhou YZ. Transparent Computing: A new paradigm for pervasive computing. In: Ma JH, Jin H, Yang LT, Tsai JJP, eds. Proc. of the 3rd Int'l Conf. on Ubiquitous Intelligence and Computing (UIC 2006). Berlin, Heidelberg: Springer-Verlag, 2006. 1-11.

共引文献2111

1查伟,孙燕琼,郑继平.基于云测试架构的FIVP解决方案[J].铁路技术创新,2021(S01):82-86.
2林少伟.人工智能法律主体资格实现路径:以商事主体为视角[J].中国政法大学学报,2021(3):165-177. 被引量：5
3胡祖林,肇杰.云计算下的网盘安全[J].计算机产品与流通,2020,0(1):164-164.
4张盛,任伟,王玉,黄金明,陈旭彤.基于Web的重力异常正演建模工具[J].地质论评,2023,69(S01):595-597.
5赵文韬.基于5G技术的黑龙江云计算产业发展[J].电子技术（上海）,2020,49(9):186-187.
6宋东翔,马伽洛伦,王怡然,袁铭举.基于云原生和区块链的高校智能人事系统的研究[J].新一代信息技术,2022,5(6):67-70.
7Longfei He,Mei Xue,Bin Gu.Internet-of-things enabled supply chain planning and coordination with big data services:Certain theoretic implications[J].Journal of Management Science and Engineering,2020,5(1):1-22. 被引量：5
8王娟,沈小平,叶萌.云计算在医疗卫生职业教育信息化发展中的应用探索[J].微型电脑应用,2011(3):42-44. 被引量：5
9吴劲松,陈孚.云计算发展及应用研究[J].广西通信技术,2011(2):9-13. 被引量：5
10王晓光.一种云计算作业管理代理系统[J].有线电视技术,2012,19(6):75-78.

同被引文献615

1王守强,朱大铭,韩爱丽.基于初始点选取的k-means聚类近似常数算法[J].计算机研究与发展,2007,44(z2):69-74. 被引量：3
2黄訸,易晓东,李姗姗,廖湘科.面向高性能计算机的海量数据处理平台实现与评测[J].计算机研究与发展,2012,49(S1):357-361. 被引量：13
3章志刚,吉根林.基于迭代式MapReduce的Apriori算法设计与实现[J].华中科技大学学报（自然科学版）,2012,40(S1):9-12. 被引量：8
4周丽娟,王慧,王文伯,张宁.面向海量数据的并行KMeans算法[J].华中科技大学学报（自然科学版）,2012,40(S1):150-152. 被引量：32
5桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：21
6张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
7周锋,李旭伟.一种改进的MapReduce并行编程模型[J].科协论坛（下半月）,2009(2):65-66. 被引量：14
8贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
9黄永平,邹力鹍.数据仓库中基于密度的批量增量聚类算法[J].计算机工程与应用,2004,40(29):206-208. 被引量：9
10胡桔州,兰秋军.金融时间序列的数据挖掘技术与经典统计模型的比较[J].系统工程,2005,23(6):95-98. 被引量：10

引证文献79

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2许云峰,张妍,赵铁军.基于云计算的商业情报采集系统[J].河北科技大学学报,2012,33(2):161-165. 被引量：7
3桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：21
4张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
5原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
6徐晓旻,肖仰华.KBAC:一种基于K-means的自适应聚类[J].小型微型计算机系统,2012,33(10):2268-2272. 被引量：6
7张磊,张公让,张金广.一种网格化聚类算法的MapReduce并行化研究[J].计算机技术与发展,2013,23(2):60-64. 被引量：3
8张雪萍,龚康莉,赵广才.基于MapReduce的K-Medoids并行算法[J].计算机应用,2013,33(4):1023-1025. 被引量：33
9唐多余,曹菡.基于MapReduce的加权Voronoi图并行算法设计及应用[J].计算机应用研究,2013,30(5):1410-1412. 被引量：4
10张醒洲,武甜甜.基于K-means算法的工伤保险费率浮动机制研究[J].统计与咨询,2013(2):20-21. 被引量：1

二级引证文献445

1谌林,郑泓楠.分布式数据库查询处理和优化算法[J].中外企业家,2020,0(15):145-145. 被引量：3
2禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
3杜佳颖,段隆振,段文影,卜秋瑾.基于Spark的改进K-means算法的并行实现[J].计算机应用研究,2020,37(2):434-436. 被引量：12
4张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：20
5张妍,许云峰,张立全.基于云计算的中文分词研究[J].河北科技大学学报,2012,33(3):266-269. 被引量：5
6原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
7阿源.何劳婆婆不放心[J].知识经济,2000(6):69-69.
8尹家福.防治企业“虚胖症”[J].金山企业管理,2000(1):12-13.
9赵晖,邢攀科,秦乐乐,张会肖.基于“云计算”的人力资源档案信息决策支持系统的研究[J].河北工业科技,2013,30(2):73-76. 被引量：8
10李晓飞.云计算环境下Apriori算法的MapReduce并行化[J].长春工业大学学报,2013,34(6):736-740. 被引量：3

1杨凯,张宁.微博用户关系网络的结构研究与聚类分析[J].复杂系统与复杂性科学,2013,10(2):37-43. 被引量：16
2春梅,巴雅尔.利用K-Means算法遥感测定分析沙地概况[J].内蒙古民族大学学报（自然科学蒙古文版）,2011(1):4-9.
3黄晓玲,陈桂林,赵生慧.基于云计算的并行测试方案设计与实现[J].计算机工程,2012,38(24):27-31. 被引量：7
4高忠科,金宁德.基于K-means聚类和数据场理论的复杂网络社团结构探寻[J].控制与决策,2009,24(3):377-382. 被引量：9
5章志刚,吉根林.基于迭代式MapReduce的Apriori算法设计与实现[J].华中科技大学学报（自然科学版）,2012,40(S1):9-12. 被引量：8
6李学勇,高国红,孙甲霞.基于互信息和K-means聚类的信息安全风险评估[J].河南师范大学学报（自然科学版）,2011,39(2):152-155.
7赵凯.BH_p函数及其性质[J].湖北民族学院学报（自然科学版）,1993,11(1):35-39.
8莫赞,罗世雄,杨清平,吴静.基于K-means算法的改进蚁群聚类算法及其应用[J].系统科学学报,2012,20(3):91-95. 被引量：3
9Zhigang CAO,Yuzhong ZHANG.SCHEDULING WITH REJECTION AND NON-IDENTICAL JOB ARRIVALS[J].Journal of Systems Science & Complexity,2007,20(4):529-535. 被引量：7
10Daniel K. Bediako.Soul, Spirit, Breath, and Life in the Book of Job[J].Journal of Philosophy Study,2013,3(8):739-749.

华中科技大学学报（自然科学版）

2011年第S1期

浏览历史

内容加载中请稍等...

k-means聚类算法的MapReduce并行化实现被引量：79

参考文献9

二级参考文献67

共引文献2111

同被引文献615

引证文献79

二级引证文献445

相关作者

相关机构

相关主题

浏览历史

k-means聚类算法的MapReduce并行化实现 被引量：79

参考文献9

二级参考文献67

共引文献2111

同被引文献615

引证文献79

二级引证文献445

相关作者

相关机构

相关主题

浏览历史

k-means聚类算法的MapReduce并行化实现被引量：79