基于MapReduce的K_means并行算法及改进被引量：4

Parallel K-Means Algorithm and Improved Based on Map Reduce

下载PDF

导出

摘要针对传统k_means聚类算法在处理海量数据时所面临的内存不足、运算速度慢等问题,提出了一种基于Map Reduce的K_means并行算法,同时为了改善k_means算法在初始值确定方面的盲目性,采用canopy算法进行改进.实验结果表明,基于Map Reduce的K_means并行算法和改进后的算法均能产生良好的聚类效果,不仅提高了聚类质量,而且在处理大数据集方面,改进后的算法的还能够得到趋近于线性的加速比. In view of the problems that traditional k-means clustering algorithm faces in dealing with mass data, such as running out of memory, the operating in slow speed and so on, this paper proposes a parallel k-means algorithm based on MapReduce. At the same time, in order to overcome the blindness of the k-means algorithm in terms of determining the initial value, we use the canopy algorithm to improve the insufficient. The experimental results show that the parallel k-means algorithm based on MapReduce has an effect on clustering before and after the improvement, not only the quality of the clustering has been increased, but in terms of processing large datasets. The speed-up ratio of the improved algorithm can get closer to the linear.

作者衣治安王月

机构地区东北石油大学计算机与信息技术学院

出处《计算机系统应用》 2015年第6期188-192,共5页 Computer Systems & Applications

关键词 MAP REDUCE K-MEANS算法 canopy算法并行计算聚类 MapReduce k-means algorithm canopy algorithm parallel computation cluster

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1Huang WQ, Chen M. Note on: An improved algorithm for the packing of unequal circles within a larger containing circle. Computers & Industrial Engineering, 2006, 50(3): 338-344.
2Dean J, Ghemawat S. MapReduce: Simplified Data processing on Large Clusters. Communications of the ACM, 2008, 51(1): 107-113.
3周锋,李旭伟.一种改进的MapReduce并行编程模型[J].科协论坛（下半月）,2009(2):65-66. 被引量：14
4Wegener D. Mock M. Adranale D. et al. Toolkit based high-performance data mining of large data on MapReduce clusters. IEEE International Conference on Data Mining ICDM. Washington. IEEE. 2009. 296-301.
5吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35. 被引量：161
6郑启龙,房明,汪胜,王向前,吴晓伟,王昊.基于MapReduce模型的并行科学计算[J].微电子学与计算机,2009,26(8):13-17. 被引量：39
7Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters. Operating System Design and Implementa- tion, 2004: 137-149.
8李成华,张新访,金海,向文.MapReduce:新型的分布式并行计算编程模型[J].计算机工程与科学,2011,33(3):129-135. 被引量：111
9Kruijf MD, Sankaralingam K. MapReduce for the cell broadband engine architecture. IBM Journal of Research and Development, 2009, 53(5): 747-758.

二级参考文献72

1周锋,李旭伟.一种改进的MapReduce并行编程模型[J].科协论坛（下半月）,2009(2):65-66. 被引量：14
2王汉芝,刘振全.一种新的确定K-均值算法初始聚类中心的方法[J].天津科技大学学报,2005,20(4):76-79. 被引量：9
3李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
4张文君,顾行发,陈良富,余涛,许华.基于均值-标准差的K均值初始聚类中心选取算法[J].遥感学报,2006,10(5):715-721. 被引量：57
5蒋盛益,李庆华.一种增强的k-means聚类算法[J].计算机工程与科学,2006,28(11):56-59. 被引量：15
6张逸清,刘文才.聚类数的确定[J].计算机与数字工程,2007,35(2):42-44. 被引量：7
7牛琨,张舒博,陈俊亮.融合网格密度的聚类中心初始化方案[J].北京邮电大学学报,2007,30(2):6-10. 被引量：15
8吴宝贵,丁振国.基于Map/Reduce的分布式搜索引擎研究[J].现代图书情报技术,2007(8):52-55. 被引量：9
9Khan S S, Ahmad A. Cluster Center Initialization Algorithm for K - means Clustering [ J ]. Pattern Recognition Letters, 2004,25 (11) :1293 -1302.
10Redmond S J, Heneghan C. A Method for Initialising the K - means Clustering Algorithm Using Kd - trees [ J ]. Pattern Recognition Letters ,2007,28 ( 8 ) :965 - 973.

共引文献318

1孙骎童.关于集群虚拟机资源调度专利申请分析[J].军民两用技术与产品,2018,0(16):198-198.
2左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2
3王生昌,李良敏,杨立本,邱兆文.营运车辆驾驶人适宜性甄别检测评价系统研究[J].交通信息与安全,2013,31(1):65-69. 被引量：2
4李艳平,徐雅斌,陈俊伊.搜索服务中基于云计算的垃圾网页识别研究[J].华中科技大学学报（自然科学版）,2012,40(S1):249-253.
5杨喆,陈锋.使用MapReduce编程模型进行大规模FCD并行处理[J].电子技术（上海）,2010(9):17-19. 被引量：3
6施亮,钱雪忠.基于Hadoop的并行FP-Growth算法的研究与实现[J].微电子学与计算机,2015,32(4):150-154. 被引量：15
7刘超,金海,蒋文斌,李浩.基于MapReduce的数据密集型应用性能优化研究[J].武汉理工大学学报,2010,32(20):36-40. 被引量：3
8李成华,张新访,金海,向文.MapReduce:新型的分布式并行计算编程模型[J].计算机工程与科学,2011,33(3):129-135. 被引量：111
9张圣.一种基于云计算的关联规则Apriori算法[J].通信技术,2011,44(6):141-143. 被引量：25
10李远方,邓世昆,闻玉彪,韩月阳.Hadoop-MapReduce下的PageRank矩阵分块算法[J].计算机技术与发展,2011,21(8):6-9. 被引量：13

同被引文献25

1张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
2江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1065
4毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：65
5翟岩龙,罗壮,杨凯,徐晟晨.基于Hadoop的高性能海量数据处理平台研究[J].计算机科学,2013,40(3):100-103. 被引量：32
6廖彬,于炯,张陶,杨兴耀.基于分布式文件系统HDFS的节能算法[J].计算机学报,2013,36(5):1047-1064. 被引量：58
7周诗慧,殷建.Hadoop平台下的并行Web日志挖掘算法[J].计算机工程,2013,39(6):43-46. 被引量：6
8周婷,张君瑛,罗成.基于Hadoop的K-means聚类算法的实现[J].计算机技术与发展,2013,23(7):18-21. 被引量：24
9翟东海,鱼江,高飞,于磊,丁锋.最大距离法选取初始簇中心的K-means文本聚类算法的研究[J].计算机应用研究,2014,31(3):713-715. 被引量：107
10谢雪莲,李兰友.基于云计算的并行K-means聚类算法研究[J].计算机测量与控制,2014,22(5):1510-1512. 被引量：21

引证文献4

1李淋淋,倪建成,曹博,于苹苹,姚彬修.基于Spark框架的并行聚类算法[J].计算机技术与发展,2017,27(5):97-101. 被引量：6
2邓小盾.一种基于大数据的网络日志分析模型构建研究[J].电子设计工程,2017,25(23):97-100. 被引量：11
3宋董飞,徐华.基于Spark的K-means改进算法的并行化实现[J].计算机系统应用,2018,27(4):151-156. 被引量：3
4任秦霄,闫建红.基于Kd-tree的k-means算法并行化实现[J].数码设计,2019,8(15):118-119.

二级引证文献20

1杜佳颖,段隆振,段文影,卜秋瑾.基于Spark的改进K-means算法的并行实现[J].计算机应用研究,2020,37(2):434-436. 被引量：12
2尹家福.防治企业“虚胖症”[J].金山企业管理,2000(1):12-13.
3龙婧,刘伟,殷胜.基于机器学习的电网设备档案数据异常诊断研究[J].电力信息与通信技术,2018,16(7):21-27. 被引量：13
4贾如春.基于海量数据集中式数字图形仿真视景系统的研究与应用[J].激光杂志,2018,39(11):195-199. 被引量：1
5张扬.基于大数据技术的网络日志分析系统[J].电子技术与软件工程,2018(17):175-175. 被引量：2
6李伟,孙新杰,张毓福.基于Spark的新闻大数据分析研究[J].六盘水师范学院学报,2019,31(3):20-22. 被引量：2
7康海燕,王紫豪,于爱民,谭雨轩.基于网络日志的用户行为刻画与预测研究[J].郑州大学学报（理学版）,2019,51(3):48-54. 被引量：6
8罗年山.基于大数据的三维水文地质结构模型构建分析[J].世界有色金属,2019,44(17):211-211. 被引量：1
9邓滨玥.K均值优化算法综述[J].软件,2020,41(2):188-192. 被引量：11
10任秦霄,闫建红.基于Kd-tree的k-means算法并行化实现[J].数码设计,2019,8(15):118-119.

1王鑫.基于Hadoop平台的MapReduce的技术研究[J].信息通信,2015,28(6):5-6. 被引量：1
2冀素琴,石洪波.面向海量数据的K-means聚类优化算法[J].计算机工程与应用,2014,50(14):143-147. 被引量：13
3王海波.Hadoop架构的关键技术的分析与研究[J].科技风,2016(22):53-53.
4龙昊,冯剑琳,李曲.R-means:以关联规则为簇中心的文本聚类[J].计算机科学,2005,32(9):156-159. 被引量：3
5孙平安.基于维分量簇中心为初始中心的多维k-means聚类算法[J].曲阜师范大学学报（自然科学版）,2012,38(4):65-69.
6郑珩.基于云数据的数据挖掘算法研究及实现[J].电脑编程技巧与维护,2015(13):54-55. 被引量：2
7胡睿,陈清华.云计算中大数据的MapReduce处理方法简析[J].信息技术与信息化,2015(10):86-87. 被引量：1
8谢志明.基于MapReduce的Apriori算法并行化研究[J].宁波职业技术学院学报,2015,19(5):76-80.
9P.J.Denning,张晓东.设计智能系统的盲目性[J].世界科学,1989,11(11):9-10.
10吴小菁,陈星娥.基于蚁群算法和C-means算法的图像分割方法[J].长春师范学院学报（自然科学版）,2013,32(5):28-29.

计算机系统应用

2015年第6期

浏览历史

内容加载中请稍等...

基于MapReduce的K_means并行算法及改进被引量：4

参考文献9

二级参考文献72

共引文献318

同被引文献25

引证文献4

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的K_means并行算法及改进 被引量：4

参考文献9

二级参考文献72

共引文献318

同被引文献25

引证文献4

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的K_means并行算法及改进被引量：4