基于MapReduce模型的并行遗传k-means聚类算法被引量：22

Parallel k-means clustering algorithm based on MapReduce model

下载PDF

导出

摘要为了提高遗传k-means算法时间效率和聚类结果的正确率,利用遗传算法的粗粒度并行化设计思想,提出了在Hadoop平台下将遗传k-means算法进行并行化设计。将各个子种群编号作为个体区分,个体所包含的各个聚类中心和其适应度作为值共同作为个体的输入;在并行化过程中,设计了较优的种群迁移策略来避免早熟现象的发生。实验对不同的数据集进行处理,实验结果表明,并行化的遗传k-means算法在处理较大数据集时比传统的串行算法在时间上和最后的结果上都具有明显的优越性。 To improve the time efficiency and the accuracy rate of clustering results of genetic k-means algorithm, using the idea of coarse grain parallel genetic algorithm, parallel genetic k-means algorithm is proposed on the Hadoop platform. Every sub populations is numbered to identify individuals which contain cluster centers and fitness value. The two numbers are used as indi- vidual input. At the same time, a preferable population migration strategy is designed to avoid the premature phenomena in the parallelization process. Different data sets are processed in the experiment to verify that parallel genetic k-means algorithm in processing larger data sets is obvious superior both in time and the final results.

作者贾瑞玉管玉勇李亚龙

机构地区安徽大学计算机科学与技术学院

出处《计算机工程与设计》 CSCD 北大核心 2014年第2期657-660,共4页 Computer Engineering and Design

基金安徽省教育厅自然科学研究基金重点项目(2011A006)

关键词遗传算法 K-MEANS算法 MAPREDUCE模型 HADOOP平台并行化 genetic algorithm k-means algorithm MapReduee model Hadoop platform parallelization

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1李群,袁津生.基于DBSCAN的最优密度文本聚类算法[J].计算机工程与设计,2012,33(4):1409-1413. 被引量：14
2赖玉霞,刘建平.K-means算法的初始聚类中心的优化[J].计算机工程与应用,2008,44(10):147-149. 被引量：75
3田森平,吴文亮.自动获取k-means聚类参数k值的算法[J].计算机工程与设计,2011,32(1):274-276. 被引量：18
4戴文华,焦翠珍,何婷婷.基于并行遗传算法的K-means聚类研究[J].计算机科学,2008,35(6):171-174. 被引量：17
5赵卫中,马慧芳,傅燕翔,史忠植.基于云计算平台Hadoop的并行k-means聚类算法设计研究[J].计算机科学,2011,38(10):166-168. 被引量：84
6陆林花,王波.一种改进的遗传聚类算法[J].计算机工程与应用,2007,43(21):170-172. 被引量：26
7赵玖玲;卫海鹏.基于MPI的并行遗传算法的设计与实现[J]计算机科学,2006(09):186-189.
8Verma A,Llora X,Goldberg D E. Scaling genetic algorithms using mapreduce[A].2009.
9Jin C,Vecchiola C,Buyya R. Mrpga:An extension of mapreduce for parallelizing genetic algorithms[A].2008.214-221.
10李东,潘志松.一种适用于大规模变量的并行遗传算法研究[J].计算机科学,2012,39(7):182-184. 被引量：13

二级参考文献66

1刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111. 被引量：23
2荆丰伟,刘冀伟,王淑盛.改进的K-均值算法在岩相识别中的应用[J].微计算机信息,2004,20(7):41-42. 被引量：5
3袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48
4蔡之华,彭锦国,高伟,魏巍,康立山.一种改进的求解TSP问题的演化算法[J].计算机学报,2005,28(5):823-828. 被引量：60
5张雷,李人厚.人工免疫C-均值聚类算法[J].西安交通大学学报,2005,39(8):836-839. 被引量：17
6杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：192
7李晓光,宋宝燕,于戈,王大玲.一种基于内容特性的文本聚类方法[J].计算机工程,2007,33(14):24-26. 被引量：2
8Guha S,Rastogi R,Shim K.Cure:an efficient clustering algorithm for large database[C]//Proc of ACM-SIGMOND lnt Conf Managemerit on Data, Seattle, Washington, 1998 . 73-84.
9Ester M,Kriegel H P,Sander J.A density-based algorithm tier discovering chlsters in large spatial databases with noise[C]//Proc 2nd Int Conf on Knowledge Discovery and Data Mining.Portland, 1999.20:226-231.
10Http://hadoop.apache.org/.

共引文献236

1刘欣雨.基于弹幕的突发信息安全类事件舆情分析——以“滴滴平台下架”事件为例[J].情报工程,2022,8(4):85-109. 被引量：3
2陈寿文,李明东.遗传聚类算法及其改进[J].宿州学院学报,2008,23(4):101-102. 被引量：1
3楼佳,王小华.一种分裂式的k-means聚类算法[J].杭州电子科技大学学报（自然科学版）,2009,29(4):54-57. 被引量：1
4许云峰,张妍,赵铁军.基于云计算的商业情报采集系统[J].河北科技大学学报,2012,33(2):161-165. 被引量：7
5张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
6孟娜娜,徐振明.一种基于划分的无监督优化算法[J].计算机工程,2011,37(S1):168-170. 被引量：1
7吴小涛,赵锋.基于遗传算法和梯度下降法的聚类新算法[J].科协论坛（下半月）,2009(4):61-62.
8原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
9陈寿文,李明东.基于面向对象思想KMeans算法实现[J].滁州学院学报,2008,10(3):42-44. 被引量：7
10乔斌,王春光.基于聚类遗传算法的损伤苹果切片图像分割方法[J].自动化技术与应用,2009,28(7):5-7.

同被引文献164

1刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111. 被引量：23
2周丽娟,王慧,王文伯,张宁.面向海量数据的并行KMeans算法[J].华中科技大学学报（自然科学版）,2012,40(S1):150-152. 被引量：32
3张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
4吴泓辰,王新军,成勇,彭朝晖.基于协同过滤与划分聚类的改进推荐算法[J].计算机研究与发展,2011,48(S3):205-212. 被引量：20
5江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
6陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
7张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
8刘晓平,安竹林,郑利平.基于MPI的主从式并行遗传算法框架[J].系统仿真学报,2004,16(9):1938-1940. 被引量：26
9张海燕,丁峰,姜丽红.基于模糊聚类的协同过滤推荐方法[J].计算机仿真,2005,22(8):144-147. 被引量：25
10王家耀,张雪萍,周海燕.一个用于空间聚类分析的遗传K-均值算法[J].计算机工程,2006,32(3):188-190. 被引量：19

引证文献22

1张广蓉,陈庆奎,章刚,赵海燕,高丽萍,霍欢.基于MapReduce的并行化模糊划分算法[J].计算机应用,2014,34(11):3073-3077.
2单留举,王晓东,马英运.基于大数据的用户学习偏好建模及应用[J].计算机应用与软件,2016,33(1):77-80. 被引量：8
3李兰英,董义明,孔银,周秋丽.改进K-means算法的MapReduce并行化研究[J].哈尔滨理工大学学报,2016,21(1):31-35. 被引量：7
4孙玉强,李媛媛,陆勇.基于MapReduce的K-means聚类算法的优化[J].计算机测量与控制,2016,24(7):272-275. 被引量：5
5卞云超,司秀丽.基于MapReduce的新聚类算法在农业领域的应用——以柑橘红蜘蛛图像目标识别为例[J].中国农机化学报,2016,37(9):166-171. 被引量：6
6文静,曹妍,牟向伟.双重遗传算法在文本聚类中的应用[J].计算机工程与设计,2016,37(9):2435-2439.
7高见文,薛行贵,罗杰,姜源,吴启武.基于迭代式MapReducede的海量数据并行聚类算法研究[J].中国科技论文,2016,11(14):1626-1631. 被引量：6
8郭晨晨,朱红康.基于Hadoop MapReduce和粗粒度并行遗传算法的大数据聚类方法改进[J].黑龙江大学工程学报,2016,7(3):87-91. 被引量：3
9刘宝龙,苏金.双MapReduce改进的Canopy-Kmeans算法[J].西安工业大学学报,2016,36(9):730-737. 被引量：6
10孟佳伟,孙红.基于Hadoop平台的K-means算法优化综述[J].软件导刊,2017,16(6):208-211. 被引量：8

二级引证文献85

1张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：21
2王鸿玺,李飞,林志文,罗义钊,梁海涛,胡建新.基于IK-means的用电行为研究[J].国外电子测量技术,2020,39(1):54-58. 被引量：5
3李向.基于蚁群算法优化Hadoop平台计算效能方法[J].微型电脑应用,2018,34(12):140-143. 被引量：1
4郭晨晨,朱红康.基于Hadoop MapReduce和粗粒度并行遗传算法的大数据聚类方法改进[J].黑龙江大学工程学报,2016,7(3):87-91. 被引量：3
5单康康,王佶,常晓洁,牟星亮,张华,朱生.高校网络日志大数据分析平台研究[J].计算机时代,2017(4):86-88. 被引量：6
6陈海建,戴永辉,韩冬梅,冯彦杰,黄河笑.开放式教学下的学习者画像及个性化教学探讨[J].开放教育研究,2017,23(3):105-112. 被引量：94
7屈洁.虚拟环境下大数据智能并行聚类方法研究[J].计算机测量与控制,2017,25(6):257-260. 被引量：4
8孟佳伟,孙红.基于Hadoop平台的K-means算法优化综述[J].软件导刊,2017,16(6):208-211. 被引量：8
9刘玉芳.大规模关系图增量计算框架研究[J].自动化与仪器仪表,2017(7):33-35.
10单康康,王佶,常晓洁,郑强.基于大数据的校园网海量日志分析平台研究[J].信息通信,2017,30(3):154-155. 被引量：3

1蒙祖强,蔡自兴.一种基于并行遗传算法的非线性系统辨识方法[J].控制与决策,2003,18(3):367-370. 被引量：11
2余新宇.并行遗传算法的研究[J].电脑知识与技术,2006(9):127-127. 被引量：2
3吉向东.从Embedded Visual C++ 4.0到Visual Studio 2005的迁移策略[J].自动化技术与应用,2009,28(7):26-28.
4孙兴文.并行算法设计及编程基本方法[J].零陵学院学报（教育科学版）,2004,2(4):182-184. 被引量：1
5王新颖,刘文江,景亚萍.移动Agent迁移策略的分析与研究[J].中国电子商务,2013(10):44-45.
6谌勇,许大丹.基于角色的粗粒度权限控制框架设计与实现[J].华北水利水电学院学报,2007,28(1):66-68. 被引量：6
7马传香,张凌.序列模式挖掘算法的分析与比较[J].湖北大学学报（自然科学版）,2006,28(2):138-143. 被引量：1
8于晓冬.一种基于约束机制的通用并行遗传算法[J].华章（初中读写）,2007(4):139-139.
9张小琴.移动Agent在数字图书馆资源检索中的迁移策略[J].中南民族大学学报（自然科学版）,2009,28(2):79-81. 被引量：2
10杨泽民,陈莉.关联规则的并行挖掘算法[J].雁北师范学院学报,2002(2):11-13.

计算机工程与设计

2014年第2期

浏览历史

内容加载中请稍等...

基于MapReduce模型的并行遗传k-means聚类算法被引量：22

参考文献10

二级参考文献66

共引文献236

同被引文献164

引证文献22

二级引证文献85

相关作者

相关机构

相关主题

浏览历史

基于MapReduce模型的并行遗传k-means聚类算法 被引量：22

参考文献10

二级参考文献66

共引文献236

同被引文献164

引证文献22

二级引证文献85

相关作者

相关机构

相关主题

浏览历史

基于MapReduce模型的并行遗传k-means聚类算法被引量：22