改进K-means算法的MapReduce并行化研究被引量：7

Parallelization Study of Improved K-means Algorithm on MapReduce Programming Model

下载PDF

导出

摘要针对K-means在处理海量数据时,因初始聚类中心的选取不确定,从而导致收敛速度过慢的问题,本文提出了改进的K-means算法,首先用模糊聚类的思想对数据集进行模糊分类,其次采用动态计算聚类中心的方式对数据集进行二次分类,最后将算法在MapReduce模型上进行了实现.实验结果表明,改进后的算法不仅提高了加速比,而且算法的收敛速度更快. Because the selection of the initial clustering center is not sure, K-means algorithm has slow conver- gence speed when it is dealing with massive amounts of data. This paper introduced an improved k-means algorithm. Firstly, the idea of fuzzy clustering is introduced to classify the datasets. Secondly, the datasets are reclassified by means of dynamic clustering center. Finally, the improved algorithm is tested on MapReduce programming model. The experimental results show that the improved algorithm not only has a higher speedup, but also has a faster convergence.

作者李兰英董义明孔银周秋丽

机构地区哈尔滨理工大学计算机科学与技术学院

出处《哈尔滨理工大学学报》 CAS 北大核心 2016年第1期31-35,共5页 Journal of Harbin University of Science and Technology

基金黑龙江省教育厅科学技术研究项目(12531107)

关键词聚类 MAPREDUCE K—means 加速比 clustering algorithm MapReduce K-means speedup

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献20

1朱林,雷景生,毕忠勤,杨杰.一种基于数据流的软子空间聚类算法[J].软件学报,2013,24(11):2610-2627. 被引量：31
2吴烨,钟志农,熊伟,陈荦,景宁.一种高效的属性图聚类方法[J].计算机学报,2013,36(8):1704-1713. 被引量：21
3陈吉荣,乐嘉锦.基于Hadoop生态系统的大数据解决方案综述[J].计算机工程与科学,2013,35(10):25-35. 被引量：116
4李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：185
5许丞,刘洪,谭良.Hadoop云平台的一种新的任务调度和监控机制[J].计算机科学,2013,40(1):112-117. 被引量：52
6胡伟.一种改进的动态k-均值聚类算法[J].计算机系统应用,2013,22(5):116-121. 被引量：8
7江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
8周婷,张君瑛,罗成.基于Hadoop的K-means聚类算法的实现[J].计算机技术与发展,2013,23(7):18-21. 被引量：24
9赵庆.基于Hadoop平台下的Canopy-Kmeans高效算法[J].电子科技,2014,27(2):29-31. 被引量：39
10贾瑞玉,管玉勇,李亚龙.基于MapReduce模型的并行遗传k-means聚类算法[J].计算机工程与设计,2014,35(2):657-660. 被引量：22

二级参考文献240

1余丹.关于查全率和查准率的新认识[J].西南民族大学学报（人文社会科学版）,2009,30(2):283-285. 被引量：15
2朱颢东,钟勇,赵向辉.一种优化初始中心点的K-Means文本聚类算法[J].郑州大学学报（理学版）,2009,41(2):29-32. 被引量：13
3李凯,李昆仑,崔丽娟.模型聚类及在集成学习中的应用研究[J].计算机研究与发展,2007,44(z2):203-207. 被引量：7
4张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
5朱克斌,唐菁,杨炳儒.Web文本挖掘系统及聚类分析算法[J].计算机工程,2004,30(13):138-139. 被引量：7
6刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
7史庆伟,赵政,朝柯.一种基于后缀树的中文网页层次聚类方法[J].辽宁工程技术大学学报（自然科学版）,2006,25(6):890-892. 被引量：11
8贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：222
9宁焕生,张瑜,刘芳丽,刘文明,渠慎丰.中国物联网信息服务系统研究[J].电子学报,2006,34(B12):2514-2517. 被引量：151
10袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152

共引文献713

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2陈豫,曾铮,王三梅.科技信息工作中大数据技术的应用和发展[J].情报学进展,2014(1):81-122. 被引量：2
3许云峰,张妍,赵铁军.基于云计算的商业情报采集系统[J].河北科技大学学报,2012,33(2):161-165. 被引量：7
4陈旭文,林若波.云存储在高校信息化管理中的应用研究[J].兰州文理学院学报（自然科学版）,2013,27(4):70-73. 被引量：4
5桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：21
6张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
7董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：69
8原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
9亢丽芸,王效岳,白如江.MapReduce原理及其主要实现平台分析[J].现代图书情报技术,2012(2):60-67. 被引量：17
10李莉华,冯志强,冉兵,赵春玲,张春来,盘强文,邬丽莎.缺血预处理减轻兔肾缺血再灌流损伤的研究[J].中国病理生理杂志,2000,16(5):461-461. 被引量：2

同被引文献45

1孙焕良,邱菲,刘俊岭,朱叶丽.IncSNN——一种基于密度的增量聚类算法[J].计算机研究与发展,2006,43(z3):309-313. 被引量：5
2张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
3刘晓平,安竹林,郑利平.基于MPI的主从式并行遗传算法框架[J].系统仿真学报,2004,16(9):1938-1940. 被引量：26
4张婧,杨炳儒.基于混合遗传算法的聚类模式数据挖掘方法[J].微计算机信息,2006,22(06X):219-221. 被引量：5
5夏桂梅,曾建潮.基于锦标赛选择遗传算法的随机微粒群算法[J].计算机工程与应用,2007,43(4):51-53. 被引量：17
6普运伟,金炜东,朱明,胡来招.核空间中的Xie-Beni指标及其性能[J].控制与决策,2007,22(7):829-832. 被引量：9
7孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1061
8宋清昆,郝敏.一种改进的模糊C均值聚类算法[J].哈尔滨理工大学学报,2007,12(4):8-10. 被引量：26
9李建明,迟忠先,万单领.一种基于GPU加速细粒度并行遗传算法的实现方法[J].控制与决策,2008,23(6):697-700. 被引量：15
10张宇,朱凝秀.数据挖掘中的模糊聚类分析[J].工业设计,2012(3):71-72. 被引量：4

引证文献7

1郭晨晨,朱红康.基于Hadoop MapReduce和粗粒度并行遗传算法的大数据聚类方法改进[J].黑龙江大学工程学报,2016,7(3):87-91. 被引量：3
2阴爱英,吴运兵,朱敏琛,张莹.基于MapReduce框架下K-means的改进算法[J].计算机应用研究,2018,35(8):2295-2298. 被引量：11
3尹宝勇,吴斌,刘建生.一种改进的K-means算法[J].江西理工大学学报,2018,39(5):97-102. 被引量：6
4王法玉,刘志强.Spark框架下分布式K-means算法优化方法[J].计算机工程与设计,2019,40(6):1595-1600. 被引量：12
5迟殿委.基于Mahout与Hadoop2.0的聚类实现[J].新一代信息技术,2019,2(11):24-28.
6何云斌,孙暖,万静,李松.角度度量的动态增量聚类算法[J].哈尔滨理工大学学报,2019,24(6):109-116. 被引量：3
7何云斌,董恒,万静.移动型数据与静态型数据的混合聚类算法[J].哈尔滨理工大学学报,2021,26(2):26-34. 被引量：2

二级引证文献36

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2屈洁.虚拟环境下大数据智能并行聚类方法研究[J].计算机测量与控制,2017,25(6):257-260. 被引量：4
3姜海洋,闫照儒,郭琦.基于改进遗传算法的机器人路径规划[J].黑龙江大学自然科学学报,2017,34(5):601-607. 被引量：6
4王龙,姚文明.基于Spark的并行遗传算法在物流配送问题中的应用[J].计算机与现代化,2018(1):19-22. 被引量：3
5张雯玮,徐凡,黄君杰,赵明修.基于k-means算法的保险业数字化变革[J].数字技术与应用,2019,37(4):121-122. 被引量：1
6杨红,李丹宁,王雅洁.基于离群点检测(LOF)的K-means算法[J].通信技术,2019,52(8):1884-1888. 被引量：7
7王健豪,苏勇.基于K-means算法的案件预测应用[J].计算机与数字工程,2019,47(8):1999-2001. 被引量：3
8段勇强,廖红华,郑才,樊姗,滕召波.基于改进Kmeans算法的富硒绿茶嫩芽识别[J].湖北民族学院学报（自然科学版）,2019,37(4):445-448. 被引量：4
9罗伟峰,刘昕林,刘睿臻.海量数据流环境下自动化巡检平台开发与实现[J].自动化与仪器仪表,2020,0(3):137-140. 被引量：2
10孙彬,王欣,徐春.一种基于劳动密集度的剩余劳动力资源聚类方法[J].地域研究与开发,2020,39(3):53-58.

1张宏博,江弋.改进K-means算法在网络入侵检测中的应用[J].福建电脑,2012,28(1):89-91. 被引量：2
2刻录机速度过慢[J].电脑爱好者（普及版）,2010(A02):252-252.
3清馨.网速过慢谁之过？[J].电击高手,2004(7):30-30.
4软件类[J].网友世界,2005(24):92-92.
5孙珊珊.聚类分析在入侵检测中的应用[J].河北省科学院学报,2010,27(3):31-34. 被引量：2
6陈积,李海珍.基于改进k-means算法的入侵检测系统及其应用研究[J].企业科技与发展,2014(5):53-56. 被引量：2
7吕明磊,刘冬梅,曾智勇.基于改进K-means算法的图像检索方法[J].计算机应用,2013,33(A01):195-198. 被引量：10
8韩春燕.一种改进的K-means算法[J].内江师范学院学报,2009,24(8):27-30.
9田盛丰.模糊分类专家系统中的规则应用[J].北方交通大学学报,1989,13(3):74-79.
10李法运,农罗锋.基于向量语义相似度的改进K-Means算法[J].情报科学,2013,31(2):34-37. 被引量：2

哈尔滨理工大学学报

2016年第1期

浏览历史

内容加载中请稍等...

改进K-means算法的MapReduce并行化研究被引量：7

参考文献20

二级参考文献240

共引文献713

同被引文献45

引证文献7

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

改进K-means算法的MapReduce并行化研究 被引量：7

参考文献20

二级参考文献240

共引文献713

同被引文献45

引证文献7

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

改进K-means算法的MapReduce并行化研究被引量：7