一种MapReduce架构下基于遗传算法的K-Medoids聚类被引量：18

Genetic Algorithm Based K-Medoids Clustering within MapReduce Framework

下载PDF

导出

摘要由互联网时代快速发展而产生的海量数据给传统聚类方法带来了巨大挑战,如何改进聚类算法从而获取有效信息成为当前的研究热点。K-Medoids是一种常见的基于划分的聚类算法,其优点是可以有效处理孤立、噪声点,但面临着初始中心敏感、容易陷入局部最优值、处理大数据时的CPU和内存瓶颈等问题。为解决上述问题,提出了一种MapReduce架构下基于遗传算法的K-Medoids聚类。利用遗传算法的种群进化特点改进K-Medoids算法的初始中心敏感的问题,在此基础上,利用MapReduce并行遗传K-Medoids算法提高算法效率。通过带标签的数据集进行实验的结果表明,运行在Hadoop集群上的基于MapReduce和遗传算法的K-Medoids算法能有效提高聚类的质量和效率。 Huge volumes of data are increasing exponentially with the rapid development of Intemet,which poses signifi- cant challenges to traditional clustering technologies. Thus, improving the accuracy and computing performance of clus- tering has become a research hotspot. As one of the partition-based clustering algorithms, K-Medoids can effectively deal with the problems with isolate and noise points. However,it also suffers from problems such as sensitive to initial centers, easily falling into local optimum, CPU and memory bottlenecks with big data sets. We proposed a genetic algo- rithm based K-Medoids clustering under MapReduce framework. The algorithm solves the center sensitivity problem of the K-Medoids by using the genetic algorithm. Also, it is built on the MapReduce framework to boost the efficiency both for K-Medoids and the genetic algorithm. The experiments demonstrate that the proposed algorithm can effectively im- prove the quality and efficiency of clustering.

作者赖向阳宫秀军韩来明 LAI Xiang-yang GONG Xiu-jun HAN Lai-ming(College of Computer Science and Technology, Tianjin University, Tianjin 300072, China Tianjin Key Laboratory of Cognitive Computing and Application, Tianjin 300072, China)

机构地区天津大学计算机科学与技术学院天津市认知计算与应用重点实验室

出处《计算机科学》 CSCD 北大核心 2017年第3期23-26,58,共5页 Computer Science

基金国家自然科学基金项目(61170177) 国家重点基础研究发展计划项目(2013CB32930X)资助

关键词海量数据 K-Medoids MAPREDUCE 遗传算法聚类效率 Big-data,K-medoids, MapReduce, Genetic algorithms, Clustering efficiency

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献7

1张雪萍,龚康莉,赵广才.基于MapReduce的K-Medoids并行算法[J].计算机应用,2013,33(4):1023-1025. 被引量：33
2李静滨,杨柳,华蓓.基于多核平台并行K-Medoids算法研究[J].计算机应用研究,2011,28(2):498-500. 被引量：9
3郭彤城,慕春棣.并行遗传算法的新进展[J].系统工程理论与实践,2002,22(2):15-23. 被引量：51
4李静滨,杨柳,陈宁江.基于MapReduce的改进K-Medoids并行算法[J].广西大学学报（自然科学版）,2014,39(2):341-345. 被引量：5
5王小良,李强.并行遗传算法研究及其应用[J].微计算机信息,2007,23(03X):205-206. 被引量：5
6唐朝霞.一种改进的基于遗传算法的K均值聚类算法[J].成都大学学报（自然科学版）,2011,30(2):162-164. 被引量：5
7赖玉霞,刘建平,杨国兴.基于遗传算法的K均值聚类分析[J].计算机工程,2008,34(20):200-202. 被引量：70

二级参考文献52

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2金朝红,吴汉松,李腊梅,王树人.一种基于自适应遗传算法的神经网络学习算法[J].微计算机信息,2005,21(10S):49-51. 被引量：30
3潘伟,刁华宗,井元伟.一种改进的实数自适应遗传算法[J].控制与决策,2006,21(7):792-795. 被引量：53
4陆林花,王波.一种改进的遗传聚类算法[J].计算机工程与应用,2007,43(21):170-172. 被引量：26
5邹燕明.小生境遗传算法的研究与应用[M].北京:北京理工大学,1999..
6GODDOGER.多核处理器_百度百科[EB/OL].(2009-12-26).http://baike.baidu.com/view/2797908.htm?fr=ala0_1_1.
7TOP500.ORG.TOP500ListHighlights[EB/OL].(2009-11).http://www.top500.org/lists/2009/11/highlights.
8CONSTANTINOU T, SAZEIDES Y, MICHAUD P, et al. Perfor-mance implications of single thread migration on a chip multi-core[J].ACM SIGARCH Computer Architecture News,2005,33(4):80-91.
9MAKHTER S,ROBERT J.多核程序设计技术[M].李宝峰,富弘毅,李韬,译.北京:电子工业出版社,2007.
10HAE S P, CHI H J. A simple and fast algorithm for K-Medoids clustering[J].Expert Systems with Applications,2009,36(2):3336-3341.

共引文献167

1张智畯,于建华,邱清水.基于自适应并行遗传算法的结构模糊动力优化[J].四川大学学报（工程科学版）,2009,41(1):68-73. 被引量：3
2孙年芳.遗传算法求解TSP问题[J].长春理工大学学报（高教版）,2009(2):120-121. 被引量：1
3徐辉,李石君.一种整合粒子群优化和K-均值的数据聚类算法[J].山西大学学报（自然科学版）,2011,34(4):518-523. 被引量：9
4刘伯颖,张素琪,张丽丽.一种引力搜索和K-means的混合聚类算法[J].河北工业大学学报,2013,42(3):23-27. 被引量：3
5姜月秋,牛硕,高宏伟.一种新的基于K均值聚类的色彩量化算法研究[J].计算机科学,2012,39(S3):375-377. 被引量：6
6叶志伟,尹宇洁,王明威,赵伟.一种基于杜鹃搜索算法的聚类分析方法[J].微电子学与计算机,2015,32(5):104-110. 被引量：6
7孟佳娜,王立宏.基于多种群的强者进化遗传算法[J].计算机工程与应用,2004,40(14):41-42. 被引量：5
8孟佳娜,王立宏.基于异构多种群的一种改进遗传算法[J].微电子学与计算机,2004,21(6):71-73. 被引量：5
9许向勇,杨启文,范新南.基于Internet的并行遗传算法及其关键实现技术[J].系统工程与电子技术,2004,26(8):1102-1106. 被引量：2
10郑锋,孙树栋,吴秀丽.基于遗传算法和模型仿真的调度规则决策方法[J].计算机集成制造系统,2004,10(7):808-814. 被引量：7

同被引文献191

1余建桥,张帆.基于数据场改进的PAM聚类算法[J].计算机科学,2005,32(1):165-167. 被引量：15
2杨丽敏,张慧颖.运用层次分析法优化教师教学质量评估办法[J].教学研究,2006,29(2):125-128. 被引量：2
3孟伟,韩学东,洪炳镕.蜜蜂进化型遗传算法[J].电子学报,2006,34(7):1294-1300. 被引量：78
4CHIANG Chingsan,CHU Shuchua,John F. Roddick,PAN Jengshyang.New Search Strategies and New Derived Inequality for Efficient K-Medoids-Based Algorithms[J].Chinese Journal of Electronics,2007,16(1):82-87. 被引量：3
5孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1070
6蒋建国,苏兆品,张国富,夏娜.多任务联盟形成中的Agent行为策略研究[J].控制理论与应用,2008,25(5):853-856. 被引量：9
7周董,刘鹏.VDBSCAN:变密度聚类算法[J].计算机工程与应用,2009,45(11):137-141. 被引量：21
8汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：140
9夏鲁宁,荆继武.SA-DBSCAN:一种自适应基于密度聚类算法[J].中国科学院研究生院学报,2009,26(4):530-538. 被引量：81
10郁雪,李敏强.一种结合有效降维和K-means聚类的协同过滤推荐模型[J].计算机应用研究,2009,26(10):3718-3720. 被引量：15

引证文献18

1黄明吉,张倩.基于Spark的并行DBSCAN算法的设计与实现[J].计算机科学,2017,44(B11):524-529. 被引量：3
2辛宇,童孟军,华宇婷.一种基于最优特征选择改进的遗传算法[J].传感技术学报,2018,31(11):1747-1752. 被引量：18
3宋飞豹,贾瑞玉.精英遗传K-medoids聚类算法[J].计算机工程与应用,2018,54(22):144-149. 被引量：8
4刘勇,何婧,姚绍文,向毅,张浩.基于重心点转移的St-DBSCAN改进算法[J].计算机技术与发展,2018,28(11):6-11. 被引量：1
5韩冰,姜合.基于相似度计算公式改进的K-中心点算法[J].计算机与现代化,2019(5):113-117. 被引量：2
6蓝机满.基于云计算的数据挖掘系统设计[J].电子科技,2019,32(8):70-74. 被引量：29
7陈胜发,贾瑞玉.基于密度权重Canopy的改进K-medoids算法[J].计算机工程与科学,2019,41(10):1823-1828. 被引量：8
8付宏鹏.基于K-medoids聚类的层次化教学质量提升评估研究[J].现代电子技术,2019,42(23):110-114.
9谢卫红,杨超波,朱郁筱,李忠顺,蒋瞰阳.网络舆情监控算法研究与分析[J].科技管理研究,2019,39(22):197-205. 被引量：8
10刘佳耀,王佳斌.Slope One算法的改进及其在大数据平台的实现[J].计算机工程与应用,2020,56(1):83-91. 被引量：5

二级引证文献120

1樊鹏.云计算背景下大数据挖掘平台的构建策略[J].中国新通信,2020,0(2):46-46. 被引量：1
2宋鹏,葛洪伟,乔宇鑫.加权最近邻分配的局部间隙密度聚类[J].南京大学学报（自然科学版）,2022,58(5):827-835.
3邢春燕.大规模数据集聚类算法的研究进展分析[J].花炮科技与市场,2020(2):4-4.
4胡聪,徐敏,洪德华,刘翠玲,薛晓茹,王海鑫.基于改进K-medoids聚类和SVM的异常用电模式在线检测方法[J].国外电子测量技术,2022,41(2):53-59. 被引量：7
5高飞.基于大数据的智慧造纸多车间产量均衡调度研究[J].造纸科学与技术,2022,41(4):29-33. 被引量：2
6<<药品非临床研究质量管理规范>>(试行)[J].中国医药情报,2000,6(1):21-27.
7何玉林,黄哲学.大规模数据集聚类算法的研究进展[J].深圳大学学报（理工版）,2019,36(1):4-17. 被引量：9
8秦映波,曹步清,邓春晖.一种基于竞争型群体优化的数据聚类方法[J].计算机与现代化,2019(1):75-79. 被引量：3
9张振宇,朱培栋,赵东升.一种用于病案相似性度量的弱监督学习算法[J].计算机技术与发展,2019,29(9):1-6. 被引量：1
10陈赓,田波,宫健,冯存前.雷达有源干扰鉴别技术综述[J].现代防御技术,2019,47(5):113-119. 被引量：7

1于金良,朱志祥,李聪颖.Hadoop MapReduce新旧架构的对比研究综述[J].计算机与数字工程,2017,45(1):83-87. 被引量：8
2郑欣杰,朱程荣,熊齐邦.基于MapReduce的分布式光线跟踪的设计与实现[J].计算机工程,2007,33(22):83-85. 被引量：7
3黄胜华,沈辉.突破640k编程[J].新浪潮,1994(9):14-19.
4金晶,王妍,李昕,陈山枝.MapReduce架构的多控制节点改进[J].北京邮电大学学报,2012,35(4):89-93. 被引量：2
5洪毅虹.基于MapReduce架构的文档相似度计算方法[J].网络与信息,2010,24(9):36-37. 被引量：4
6丁光华,周继鹏,周敏.基于MapReduce的并行贝叶斯分类算法的设计与实现[J].微计算机信息,2010,26(9):190-191. 被引量：5
7王旭仁,姚叶鹏,冉春风,何发镁.一种并行LDA主题模型建立方法研究[J].北京理工大学学报,2013,33(6):590-593. 被引量：12
8周文晖,程鹤群,孟影,章清锋.基于MapReduce的图像序列可视外壳绘制方法[J].杭州电子科技大学学报（自然科学版）,2015,35(6):55-59.
9师金钢,郑艳,孙焕良,栾方军.云环境中海量数据的并行分组密码体制研究[J].计算机科学与探索,2014,8(2):161-170. 被引量：3
10解慧娟.MapReduce在Hadoop平台下作业调度算法的改进和实现[J].电脑知识与技术（过刊）,2014,20(5X):3206-3208. 被引量：1

计算机科学

2017年第3期

浏览历史

内容加载中请稍等...

一种MapReduce架构下基于遗传算法的K-Medoids聚类被引量：18

参考文献7

二级参考文献52

共引文献167

同被引文献191

引证文献18

二级引证文献120

相关作者

相关机构

相关主题

浏览历史

一种MapReduce架构下基于遗传算法的K-Medoids聚类 被引量：18

参考文献7

二级参考文献52

共引文献167

同被引文献191

引证文献18

二级引证文献120

相关作者

相关机构

相关主题

浏览历史

一种MapReduce架构下基于遗传算法的K-Medoids聚类被引量：18