双MapReduce改进的Canopy-Kmeans算法被引量：6

Improved Canopy-Kmeans Algorithm based on Double-MapReduce

下载PDF

导出

摘要由于传统的Canopy-Kmeans算法在中心点的选取存在随机性,其迭代过程的冗余计算降低了算法的运行效率.文中基于＂最小最大原则＂和三角不等式原理,在Hadoop平台上提出了一种基于双MapReduce改进的Canopy-Kmeans算法.实验结果表明：设计的并行算法精确率在不同大小的数据集上平均提高了15.3%,加速比和扩展性随着数据规模和节点的不断增加也相应的提高了1.5~3倍,解决了Canopy中心点选中存在的问题和迭代过程中冗余的距离计算. The Canopy-Kmeans algorithm has the disadvantage of great randomness in the selection of center points,and the redundant computation in the iterative process significantly reduces the operation efficiency of the algorithm.So the paper proposes an improved Canopy-Kmeans algorithm based on the Double-MapReduce on the Hadoop platform,which is based on the ＂ minimum maximum principle＂ and the principle of triangle inequality.The experimental results show that the precision of the designed parallel algorithm is raised by 15.3% on average,and the speedup and scalability are increased by 1.5to3 times with the increase of the data size and the number of node.The problem existing in the selection of Canopy center point is successfully solved and the redundant distance calculation in iterative is avoided.

作者刘宝龙苏金

机构地区西安工业大学计算机科学与工程学院

出处《西安工业大学学报》 CAS 2016年第9期730-737,共8页 Journal of Xi’an Technological University

基金陕西省科技统筹创新工程计划项目(2015KTCXSF-10-11) 西安市未央区科技计划项目(201609)

关键词 Canopy-Kmeans 冗余计算 HADOOP平台双MapReduce Canopy-Kmeans redundant computation hadoop platform double-MapReduce

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：65
2张顺龙,库涛,周浩.针对多聚类中心大数据集的加速K-means聚类算法[J].计算机应用研究,2016,33(2):413-416. 被引量：28
3赵卫中,马慧芳,傅燕翔,史忠植.基于云计算平台Hadoop的并行k-means聚类算法设计研究[J].计算机科学,2011,38(10):166-168. 被引量：83
4雷小锋,谢昆青,林帆,夏征义.一种基于K-Means局部最优性的高效聚类算法[J].软件学报,2008,19(7):1683-1692. 被引量：112
5武霞,董增寿,孟晓燕.基于大数据平台hadoop的聚类算法K值优化研究[J].太原科技大学学报,2015,36(2):92-96. 被引量：11
6周丽娟,王慧,王文伯,张宁.面向海量数据的并行KMeans算法[J].华中科技大学学报（自然科学版）,2012,40(S1):150-152. 被引量：31
7贾瑞玉,管玉勇,李亚龙.基于MapReduce模型的并行遗传k-means聚类算法[J].计算机工程与设计,2014,35(2):657-660. 被引量：22
8常晋义,何春霞.基于三角不等式原理的K-means加速算法[J].计算机工程与设计,2007,28(21):5094-5096. 被引量：4
9江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
10何春霞,常晋义.三角不等式原理对聚类算法的改进[J].常熟理工学院学报,2007,21(2):100-103. 被引量：3

二级参考文献124

1刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
2刘星,毕奇龙,郑付刚.基于蚁群K均值聚类算法的边坡稳定性分析[J].水电能源科学,2010,28(8):108-109. 被引量：4
3王家耀,张雪萍,周海燕.一个用于空间聚类分析的遗传K-均值算法[J].计算机工程,2006,32(3):188-190. 被引量：19
4刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
5文锋,陈宗海,卓睿,周光明.连续状态自适应离散化基于K-均值聚类的强化学习方法[J].控制与决策,2006,21(2):143-147. 被引量：7
6袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
7陆林花,王波.一种改进的遗传聚类算法[J].计算机工程与应用,2007,43(21):170-172. 被引量：26
8Hatzivassiloglou V, Klavans J L, Holcombe M L, et al.Simfinder: A flexible clustering tool for surmnarization. In: Proceedings of the NAACI, 2001 Workshop on Automatic Surrunarization, Pittsburgh, PA, 2001, 41-49 .
9Jain A K,Dubes R C. Algorithms for clustering data. Englewood Cliffs NJ, USA: Prentice Hall, 1988.
10Sneath P H, Sokal R R. Numerical Taxonomy. London, UK:Freeman. 1973.

共引文献429

1吕政阳,邓涛,张丽艳.一种基于机器视觉的飞机钣金件跨粒度识别方法[J].仪器仪表学报,2020,41(2):195-204. 被引量：10
2禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
3许云峰,张妍,赵铁军.基于云计算的商业情报采集系统[J].河北科技大学学报,2012,33(2):161-165. 被引量：7
4桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：21
5张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
6王海,高岭,陈东棋,任杰.一种基于用户行为的嵌入式功耗优化方法[J].系统仿真学报,2015,27(2):320-326.
7原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
8孟海涛,陈笑蓉.基于模糊相似度的科技文献软聚类算法[J].贵州大学学报（自然科学版）,2007,24(2):175-178. 被引量：9
9吉雍慧.数字图书馆中的检索结果聚类和关联推荐研究[J].现代图书情报技术,2008(2):69-75. 被引量：13
10刘茵,李弼程,郭映月.一种基于聚类算法的主旨句提取方法[J].情报学报,2008,27(1):49-55. 被引量：1

同被引文献55

1刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
2张选平,祝兴昌,马琮.一种基于边界识别的聚类算法[J].西安交通大学学报,2007,41(12):1387-1390. 被引量：5
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1060
4张忠林,曹志宇,李元韬.基于加权欧式距离的k_means算法研究[J].郑州大学学报（工学版）,2010,31(1):89-92. 被引量：34
5韩凌波,王强,蒋正锋,郝志强.一种改进的k-means初始聚类中心选取算法[J].计算机工程与应用,2010,46(17):150-152. 被引量：91
6季赛,谭畅.基于UPGMA聚类无线传感网络的簇头选择方法[J].武汉理工大学学报,2010,32(16):139-142. 被引量：1
7于彦伟,王沁,邝俊,何杰.一种基于密度的空间数据流在线聚类算法[J].自动化学报,2012,38(6):1051-1059. 被引量：28
8鲁伟明,杜晨阳,魏宝刚,沈春辉,叶振超.基于MapReduce的分布式近邻传播聚类算法[J].计算机研究与发展,2012,49(8):1762-1772. 被引量：53
9毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：65
10张雪萍,龚康莉,赵广才.基于MapReduce的K-Medoids并行算法[J].计算机应用,2013,33(4):1023-1025. 被引量：33

引证文献6

1李向.基于蚁群算法优化Hadoop平台计算效能方法[J].微型电脑应用,2018,34(12):140-143. 被引量：1
2马洋春,王兴芬.基于Spark的K-means聚类的并行实现与优化[J].福建电脑,2017,33(11):1-4. 被引量：1
3郭卫霞,薛涛,李婷.基于Hadoop的Canopy-K-means并行算法的学生成绩与毕业流向关系分析[J].西安工程大学学报,2018,32(6):705-712. 被引量：11
4王义武,杨余旺,于天鹏,沈兴鑫,李猛坤.基于Spark平台的K-means算法的设计与优化[J].计算机技术与发展,2019,29(3):72-76. 被引量：5
5杨延庆,袁华兵.基于MapReduce的模糊K-means算法并行化研究[J].计算机与数字工程,2020,48(7):1564-1567. 被引量：1
6邵欣欣.基于Canopy和共享最近邻的服务推荐算法[J].计算机科学,2020,47(S02):479-481. 被引量：3

二级引证文献21

1王鸿玺,李飞,林志文,罗义钊,梁海涛,胡建新.基于IK-means的用电行为研究[J].国外电子测量技术,2020,39(1):54-58. 被引量：5
2夏邢,薛涛,李婷.基于Spark的模糊C均值算法改进[J].西安工程大学学报,2019,33(1):100-105. 被引量：5
3常颖.基于Hadoop下的数据智能分类算法分析[J].通讯世界,2019,26(12):78-79. 被引量：1
4吴发辉,张玲.基于PRAM模型的集群计算机混合并行算法设计[J].信息工程大学学报,2019,20(4):417-420.
5王东新,曲建晶.基于ASP.NET的学生素质评价管理系统设计[J].微型电脑应用,2020,36(7):81-84. 被引量：3
6蒋勇斌,赵炜,曹晶晶,周丹.基于k-means聚类算法的用户复杂用电特征挖掘方法研究[J].电子设计工程,2020,28(18):11-15. 被引量：7
7杨延庆,袁华兵.基于MapReduce的模糊K-means算法并行化研究[J].计算机与数字工程,2020,48(7):1564-1567. 被引量：1
8孙美琪,薛涛,梁家瑞.一种基于节点局部相似度的标签传播算法[J].西安工程大学学报,2020,34(5):93-99.
9潘云.基于Hadoop技术的疗养中心信息化建设与改进[J].生命科学仪器,2020,18(5):59-65. 被引量：3
10余弦,周谊芬.大数据背景下基于Apriori算法的学生成绩与就业流向研究[J].四川职业技术学院学报,2020,30(6):156-160. 被引量：5

1常晋义,何春霞.基于三角不等式原理的K-means加速算法[J].计算机工程与设计,2007,28(21):5094-5096. 被引量：4
2单玉双,邢长征.一种更有效的K-means聚类算法[J].计算机系统应用,2009,18(8):96-99. 被引量：5
3孟海东,任敬佩.基于云计算平台的聚类算法[J].计算机工程与设计,2015,36(11):2990-2994. 被引量：10
4刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
5何春霞,常晋义.三角不等式原理对聚类算法的改进[J].常熟理工学院学报,2007,21(2):100-103. 被引量：3
6毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：65
7陈晓云,王平,何春霞,冷明伟.基于三角不等式原理的TTSAS聚类加速算法[J].计算机工程,2006,32(17):97-99. 被引量：1
8罗笑冰,黎湘,庄钊文.基于特征不变量的红外图像识别研究[J].系统工程与电子技术,2004,26(4):539-541. 被引量：3
9赵庆.基于Hadoop平台下的Canopy-Kmeans高效算法[J].电子科技,2014,27(2):29-31. 被引量：39
10武云鹏,包卫东,张维明.基于三角不等式原理的数据匹配方法[J].华南理工大学学报（自然科学版）,2010,38(7):33-38.

西安工业大学学报

2016年第9期

浏览历史

内容加载中请稍等...

双MapReduce改进的Canopy-Kmeans算法被引量：6

参考文献13

二级参考文献124

共引文献429

同被引文献55

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

双MapReduce改进的Canopy-Kmeans算法 被引量：6

参考文献13

二级参考文献124

共引文献429

同被引文献55

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

双MapReduce改进的Canopy-Kmeans算法被引量：6