期刊文献+

一种MapReduce架构下基于遗传算法的K-Medoids聚类 被引量:18

Genetic Algorithm Based K-Medoids Clustering within MapReduce Framework
下载PDF
导出
摘要 由互联网时代快速发展而产生的海量数据给传统聚类方法带来了巨大挑战,如何改进聚类算法从而获取有效信息成为当前的研究热点。K-Medoids是一种常见的基于划分的聚类算法,其优点是可以有效处理孤立、噪声点,但面临着初始中心敏感、容易陷入局部最优值、处理大数据时的CPU和内存瓶颈等问题。为解决上述问题,提出了一种MapReduce架构下基于遗传算法的K-Medoids聚类。利用遗传算法的种群进化特点改进K-Medoids算法的初始中心敏感的问题,在此基础上,利用MapReduce并行遗传K-Medoids算法提高算法效率。通过带标签的数据集进行实验的结果表明,运行在Hadoop集群上的基于MapReduce和遗传算法的K-Medoids算法能有效提高聚类的质量和效率。 Huge volumes of data are increasing exponentially with the rapid development of Intemet,which poses signifi- cant challenges to traditional clustering technologies. Thus, improving the accuracy and computing performance of clus- tering has become a research hotspot. As one of the partition-based clustering algorithms, K-Medoids can effectively deal with the problems with isolate and noise points. However,it also suffers from problems such as sensitive to initial centers, easily falling into local optimum, CPU and memory bottlenecks with big data sets. We proposed a genetic algo- rithm based K-Medoids clustering under MapReduce framework. The algorithm solves the center sensitivity problem of the K-Medoids by using the genetic algorithm. Also, it is built on the MapReduce framework to boost the efficiency both for K-Medoids and the genetic algorithm. The experiments demonstrate that the proposed algorithm can effectively im- prove the quality and efficiency of clustering.
作者 赖向阳 宫秀军 韩来明 LAI Xiang-yang GONG Xiu-jun HAN Lai-ming(College of Computer Science and Technology, Tianjin University, Tianjin 300072, China Tianjin Key Laboratory of Cognitive Computing and Application, Tianjin 300072, China)
出处 《计算机科学》 CSCD 北大核心 2017年第3期23-26,58,共5页 Computer Science
基金 国家自然科学基金项目(61170177) 国家重点基础研究发展计划项目(2013CB32930X)资助
关键词 海量数据 K-Medoids MAPREDUCE 遗传算法 聚类效率 Big-data,K-medoids, MapReduce, Genetic algorithms, Clustering efficiency
  • 相关文献

参考文献7

二级参考文献52

  • 1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报(自然科学版),2011,39(S1):120-124. 被引量:79
  • 2金朝红,吴汉松,李腊梅,王树人.一种基于自适应遗传算法的神经网络学习算法[J].微计算机信息,2005,21(10S):49-51. 被引量:30
  • 3潘伟,刁华宗,井元伟.一种改进的实数自适应遗传算法[J].控制与决策,2006,21(7):792-795. 被引量:53
  • 4陆林花,王波.一种改进的遗传聚类算法[J].计算机工程与应用,2007,43(21):170-172. 被引量:26
  • 5邹燕明.小生境遗传算法的研究与应用[M].北京:北京理工大学,1999..
  • 6GODDOGER.多核处理器_百度百科[EB/OL].(2009-12-26).http://baike.baidu.com/view/2797908.htm?fr=ala0_1_1.
  • 7TOP500.ORG.TOP500ListHighlights[EB/OL].(2009-11).http://www.top500.org/lists/2009/11/highlights.
  • 8CONSTANTINOU T, SAZEIDES Y, MICHAUD P, et al. Perfor-mance implications of single thread migration on a chip multi-core[J].ACM SIGARCH Computer Architecture News,2005,33(4):80-91.
  • 9MAKHTER S,ROBERT J.多核程序设计技术[M].李宝峰,富弘毅,李韬,译.北京:电子工业出版社,2007.
  • 10HAE S P, CHI H J. A simple and fast algorithm for K-Medoids clustering[J].Expert Systems with Applications,2009,36(2):3336-3341.

共引文献167

同被引文献191

引证文献18

二级引证文献120

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部