期刊文献+

面向海量数据的并行KMeans算法 被引量:31

Parallel KMeans algorithm for massive data
原文传递
导出
摘要 针对海量数据的特性及KMeans算法的并行特性,提出了一种基于MapReduce编程框架的并行聚类算法,给出了算法的主要设计方法和策略.Map函数计算出每个记录所属的簇并用簇标号来标记;为了减少网络流量,利用Combine函数合并了本地的簇中的样本和;Reduce函数合并簇中所有的记录,并重新计算聚类的中心,供下一轮MapReduce迭代使用.最后用不同大小的数据集对改进算法的效率及伸缩性进行了验证,结果表明基于Hadoop的并行KMeans算法适合于海量数据的分析和挖掘. 针对海量数据的特性及KMeans算法的并行特性,提出了一种基于MapReduce编程框架的并行聚类算法,给出了算法的主要设计方法和策略.Map函数计算出每个记录所属的簇并用簇标号来标记;为了减少网络流量,利用Combine函数合并了本地的簇中的样本和;Reduce函数合并簇中所有的记录,并重新计算聚类的中心,供下一轮MapReduce迭代使用.最后用不同大小的数据集对改进算法的效率及伸缩性进行了验证,结果表明基于Hadoop的并行KMeans算法适合于海量数据的分析和挖掘.
出处 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第S1期150-152,共3页 Journal of Huazhong University of Science and Technology(Natural Science Edition)
基金 国家科技支撑计划资助项目(2012BAH20B03) 国家自然科学基金资助项目(31101078) 北京市重点建设学科经费资助项目
关键词 并行KMeans 海量数据 云计算 数据挖掘 the parallel KMeans massive data cluster cloud computing data mining
  • 相关文献

参考文献10

  • 1Ekanayake J,Pallickara S.MapReduce for data in-tensive scientific analysis. IEEE eScience . 2008
  • 2Zhou Ping,Lei Jingsheng,Ye Wenjun.Large-scaledata sets clustering based on MapReduce and hadoop. Journal of Computational Information Systems . 2011
  • 3Hadoop:Open source implementation of MapReduce. http:∥hadoop.apache.org . 2010
  • 4Wang Xuan.Clustering in the cloud:clustering algo-rithms to Hadoop Map/Reduce framework. . 2010
  • 5DEAN J,GHEMAWAT S.MapReduce:simplified data processing on large clusters. . 2004
  • 6Ekanayake J,Pallickara S.MapReduce for data in-tensive scientific analysis. IEEE eScience . 2008
  • 7Zhou Ping,Lei Jingsheng,Ye Wenjun.Large-scaledata sets clustering based on MapReduce and hadoop. Journal of Computational Information Systems . 2011
  • 8Hadoop:Open source implementation of MapReduce. http:∥hadoop.apache.org . 2010
  • 9Wang Xuan.Clustering in the cloud:clustering algo-rithms to Hadoop Map/Reduce framework. . 2010
  • 10DEAN J,GHEMAWAT S.MapReduce:simplified data processing on large clusters. . 2004

同被引文献233

引证文献31

二级引证文献185

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部