期刊文献+

k-means聚类算法的MapReduce并行化实现 被引量:79

Parallel implementing k-means clustering algorithm using MapReduce programming mode
原文传递
导出
摘要 针对k-means聚类算法特点,给出了MapReduce编程模型实现k-means聚类算法的方法,Map函数完成每个记录到聚类中心距离的计算并重新标记其属于的新聚类类别,Reduce函数根据Map函数得到的中间结果计算出新的聚类中心,供下一轮MapReduce Job使用.实验结果表明:k-means算法MapReduce并行化后部署在Hadoop集群上运行,具有较好的加速比和良好的扩展性. 针对k-means聚类算法特点,给出了MapReduce编程模型实现k-means聚类算法的方法,Map函数完成每个记录到聚类中心距离的计算并重新标记其属于的新聚类类别,Reduce函数根据Map函数得到的中间结果计算出新的聚类中心,供下一轮MapReduce Job使用.实验结果表明:k-means算法MapReduce并行化后部署在Hadoop集群上运行,具有较好的加速比和良好的扩展性.
出处 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第S1期120-124,共5页 Journal of Huazhong University of Science and Technology(Natural Science Edition)
基金 中央高校基本科研业务费专项资金资助项目(CZY11002) 武汉市科技攻关项目(201110821229) 华中科技大学暨湖北省移动通信公司TD-SCDMA联合创新实验室创新基金资助项目
关键词 云计算 并行计算 MAPREDUCE模型 数据挖掘 K-MEANS聚类算法 cloud computing parallel computing MapReduce programming mode data mining k-means clustering algorithm
  • 相关文献

参考文献9

  • 1陈全,邓倩妮.云计算及其关键技术[J].计算机应用,2009,29(9):2562-2567. 被引量:929
  • 2陈康,郑纬民.云计算:系统实例与研究现状[J].软件学报,2009,20(5):1337-1348. 被引量:1310
  • 3陈慧萍,林莉莉,王建东,苗新蕊.WEKA数据挖掘平台及其二次开发[J].计算机工程与应用,2008,44(19):76-79. 被引量:35
  • 4Apache Hadoop.Hadoop. http:∥hadoop.apache.org . 2011
  • 5Wikipedia.k-means clustering. http:∥en.wikipedia.org/wiki/k-means-cluste-ring . 2011
  • 6Dean J,Ghemawat S.MapReduce:Simplified data processing on large clusters. Communications of the ACM . 2005
  • 7Eibe Frank,Mark Hall,Len Trigg.Waikato Environment for Knowledge Analysis,weka. http://www.cs.waikato.ac.nz/ml/weka/: .
  • 8Dennis Wegener,Michael Mock.Toolkit-based high-performance Data Mining of large Data on MapReduce Clusters. InternationalConference on Data Mining Workshops . 2009
  • 9Cheng-Tao Chu,Sang Kyun Kim,Yi-An Lin.Map-Reduce for Machine Learning on Multicore.. Proceedings of Neural Information Processing Systems Conference(NIPS) . 2006

二级参考文献67

  • 1姚再勇,郑启龙,许胤龙,姚震,张红涛,胡晨光.基于Eclipse的并行开发环境EMPI[J].计算机应用与软件,2005,22(10):5-7. 被引量:3
  • 2林金晓,陈伟男,周学功,彭澄廉,吴荣泉.基于Eclipse平台的边界扫描测试软件的开发[J].计算机工程,2007,33(12):280-282. 被引量:5
  • 3Data mining tools you used in 2005 [EB/OL]. [2007].http ://www. kdnugget s.com/polls/2005/data_mining_tools.htm.
  • 4Witten I H,Frank E.Data mining practical machine learning tools and techniques[M].2nd ed.北京:机械工业出版社,2005.
  • 5Kirkby R,Frank E.WEKA explorer user guide for version 3-4-3 [EB/OL].[2007].http://www.es.waikato.ae.nz/ml/WEKA/2004.
  • 6UCI machine learning repository[EB/OL].[2007].http://mlearn.ics.uci. edu/MLRepository.html.
  • 7Sims K. IBM introduces ready-to-use cloud computing collaboration services get clients started with cloud computing. 2007. http://www-03.ibm.com/press/us/en/pressrelease/22613.wss
  • 8Boss G, Malladi P, Quan D, Legregni L, Hall H. Cloud computing. IBM White Paper, 2007. http://download.boulder.ibm.com/ ibmdl/pub/software/dw/wes/hipods/Cloud_computing_wp_final_8Oct.pdf
  • 9Zhang YX, Zhou YZ. 4VP+: A novel meta OS approach for streaming programs in ubiquitous computing. In: Proc. of IEEE the 21st Int'l Conf. on Advanced Information Networking and Applications (AINA 2007). Los Alamitos: IEEE Computer Society, 2007. 394-403.
  • 10Zhang YX, Zhou YZ. Transparent Computing: A new paradigm for pervasive computing. In: Ma JH, Jin H, Yang LT, Tsai JJP, eds. Proc. of the 3rd Int'l Conf. on Ubiquitous Intelligence and Computing (UIC 2006). Berlin, Heidelberg: Springer-Verlag, 2006. 1-11.

共引文献2111

同被引文献615

引证文献79

二级引证文献445

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部