期刊文献+

加速大数据聚类K-means算法的改进 被引量:13

Improved accelerating large data K-means clustering algorithm
下载PDF
导出
摘要 为有效处理大规模数据聚类的问题,提出一种先抽样再用最大最小距离进行K-means并行化聚类的方法。基于抽样的方法避免了聚类陷入局部解中,基于最大最小距离法使得初始聚类中心趋于最优化。大量实验结果表明,无论是在单机环境还是集群环境下,该方法受初始聚类中心的影响降低,提高了聚类的准确性,减少了聚类的迭代次数,降低了聚类的时间。 To deal with large-scale data clustering problems,a speeding K-means parallel clustering method was presented which randomly sampled first and then used max-min distance means to carry out K-means parallel clustering.Sampling based method avoids the problem of clustering in local solutions and max-min distance based method makes the initial clustering centers tend to be optimum.Results of a large number of experiments show that the proposed method is affected less by the initial clustering center and improves the precision of clustering in both stand-alone environment and cluster environment.It also reduces the num-ber of iterations of clustering and the clustering time.
作者 韩岩 李晓
出处 《计算机工程与设计》 北大核心 2015年第5期1317-1320,共4页 Computer Engineering and Design
基金 中国科学院西部之光人才培养计划基金项目(RCPT201205)
关键词 K-均值算法 随机抽样 最大最小距离法 映射归约 并行化 K-means algorithm random sampling max-min distance method MapReduce parallelization
  • 相关文献

参考文献10

二级参考文献64

共引文献329

同被引文献121

引证文献13

二级引证文献119

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部