摘要
针对k-means聚类算法特点,给出了MapReduce编程模型实现k-means聚类算法的方法,Map函数完成每个记录到聚类中心距离的计算并重新标记其属于的新聚类类别,Reduce函数根据Map函数得到的中间结果计算出新的聚类中心,供下一轮MapReduce Job使用.实验结果表明:k-means算法MapReduce并行化后部署在Hadoop集群上运行,具有较好的加速比和良好的扩展性.
针对k-means聚类算法特点,给出了MapReduce编程模型实现k-means聚类算法的方法,Map函数完成每个记录到聚类中心距离的计算并重新标记其属于的新聚类类别,Reduce函数根据Map函数得到的中间结果计算出新的聚类中心,供下一轮MapReduce Job使用.实验结果表明:k-means算法MapReduce并行化后部署在Hadoop集群上运行,具有较好的加速比和良好的扩展性.
出处
《华中科技大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2011年第S1期120-124,共5页
Journal of Huazhong University of Science and Technology(Natural Science Edition)
基金
中央高校基本科研业务费专项资金资助项目(CZY11002)
武汉市科技攻关项目(201110821229)
华中科技大学暨湖北省移动通信公司TD-SCDMA联合创新实验室创新基金资助项目