基于MapReduce的随机抽样K-means算法被引量：8

K-means algorithm of random sample based on MapReduce

下载PDF

导出

摘要 K-means算法处理海量数据时,易产生系统内存溢出的现象。利用MapReduce框架改进K-means虽然解决了这个问题,但也存在着聚类效果不稳定以及准确率不高等问题,提出一种改进算法,利用MapReduce框架实现K-means时,采用多次随机抽样,通过计算密度、距离与平方误差等方法,最终选取较优的初始聚类中心,并在迭代中采用新的中心点计算方法。实验结果证明,改进后的算法具有较好的稳定性、准确性和加速比。 The K-means algorithm when dealing with massive data, is easy to bring the phenomenon of memory overflow.Although this problem is solved by using the MapReduce framework to improve K-means, the phenomenon clustering effect is not so stable and the accuracy is not so high. It is necessary to raise an improved algorithm, which uses MapReduce framework to implement the K-means, by means of random sampling, calculating density, distance and the square difference. Finally, it selects the best initial cluster center and adopts the new method of center point calculation in the iteration. Experimental results show that, the improved algorithm has good stability,accuracy and accelerating ratio.

作者王永贵武超戴伟

机构地区辽宁工程技术大学

出处《计算机工程与应用》 CSCD 北大核心 2016年第8期74-79,共6页 Computer Engineering and Applications

关键词 K-MEANS 随机抽样海量数据 MAPREDUCE K-means random sampling massive data MapReduce

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献13

1喻彪,骆雯,赖朝安.数据挖掘聚类算法研究[J].现代制造工程,2009(3):141-145. 被引量：13
2江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
3毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：65
4虞倩倩,戴月明,李晶晶.基于MapReduce的ACO-K-means并行聚类算法[J].计算机工程与应用,2013,49(16):117-120. 被引量：13
5雷小锋,谢昆青,林帆,夏征义.一种基于K-Means局部最优性的高效聚类算法[J].软件学报,2008,19(7):1683-1692. 被引量：114
6Verma A,Zea N.Breaking the mapreduce stage barrier[C]//Proc of IEEE International Conference on Cluster Computing.Los Alamitos:IEEE Computer Society,2010:235-244.
7李玉林,董晶.基于Hadoop的MapReduce模型的研究与改进[J].计算机工程与设计,2012,33(8):3110-3116. 被引量：36
8Marozzo F,Talia D,Trunfio P.P2P-Map Reduce:parallel data processing in dynamic Cloud environments[J].Journal of Computer and System Sciences,2011,78(5):1382-1402.
9李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：186
10林彬,李姗姗,廖湘科,孟令丙,刘晓东,黄訸.Seadown:一种异构MapReduce集群中面向SLA的能耗管理方法[J].计算机学报,2013,36(5):977-987. 被引量：13

二级参考文献184

1刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
2刘星,毕奇龙,郑付刚.基于蚁群K均值聚类算法的边坡稳定性分析[J].水电能源科学,2010,28(8):108-109. 被引量：5
3刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
4张丽娟,李舟军.分类方法的新发展:研究综述[J].计算机科学,2006,33(10):11-15. 被引量：20
5宁焕生,张瑜,刘芳丽,刘文明,渠慎丰.中国物联网信息服务系统研究[J].电子学报,2006,34(B12):2514-2517. 被引量：151
6林宇,等.数据仓库原理与实践[M].北京:人民邮电出版社,2005.
7Wang W, Muntz R, STING. A Statistical Information Grid Approach to Spatial Data Mining[ C]. Athens Proceedings of the 23rd Conference on VLDB, 1997, 186 - 195.
8李明华,等.数据挖掘中聚类算法的新发展[D].苏州:苏州大学计算机科学与技术学院,2008.
9张建华,江贺,张宪超.蚁群聚类算法综述[D].阜阳:大连理工大学软件学院,2006.
10Han J, Kamber M. Data Mining:Concepts and Techniques [ M ]. Morgan Kaufmann Publishers,2000.

共引文献562

1吕政阳,邓涛,张丽艳.一种基于机器视觉的飞机钣金件跨粒度识别方法[J].仪器仪表学报,2020,41(2):195-204. 被引量：10
2禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
3李川,陶波.多任务并行处理框架下的雷达信息处理设计[J].中国电子科学研究院学报,2023,18(5):438-443.
4陈小样.关于数据统计的课程推荐算法在远程教育平台的应用概述[J].吉林广播电视大学学报,2021(6):21-23. 被引量：1
5许云峰,张妍,赵铁军.基于云计算的商业情报采集系统[J].河北科技大学学报,2012,33(2):161-165. 被引量：7
6桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：21
7张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
8王海,高岭,陈东棋,任杰.一种基于用户行为的嵌入式功耗优化方法[J].系统仿真学报,2015,27(2):320-326.
9原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
10王少锋,伍少成,刘涛,邓琨,黄兵.对Hadoop的用电信息大数据计算服务应用分析[J].自动化与仪器仪表,2016(4):221-222. 被引量：6

同被引文献62

1张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
2孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1072
3雷小锋,谢昆青,林帆,夏征义.一种基于K-Means局部最优性的高效聚类算法[J].软件学报,2008,19(7):1683-1692. 被引量：114
4韩凌波,王强,蒋正锋,郝志强.一种改进的k-means初始聚类中心选取算法[J].计算机工程与应用,2010,46(17):150-152. 被引量：93
5赵卫中,马慧芳,傅燕翔,史忠植.基于云计算平台Hadoop的并行k-means聚类算法设计研究[J].计算机科学,2011,38(10):166-168. 被引量：83
6李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：186
7牛新征,佘堃.面向大规模数据的快速并行聚类划分算法研究[J].计算机科学,2012,39(1):134-137. 被引量：22
8陈光平,王文鹏,黄俊.一种改进初始聚类中心选择的K-means算法[J].小型微型计算机系统,2012,33(6):1320-1323. 被引量：40
9黄腾,阮宗才.基于运动轨迹分析的头部行为识别[J].计算机工程,2012,38(17):218-221. 被引量：2
10毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：65

引证文献8

1李淋淋,倪建成,曹博,于苹苹,姚彬修.基于Spark框架的并行聚类算法[J].计算机技术与发展,2017,27(5):97-101. 被引量：6
2郭占元,林涛.面向大规模数据快速聚类K-means算法的研究[J].计算机应用与软件,2017,34(5):43-47. 被引量：17
3张嘉诚,张晓滨.基于Spark的移动用户行为轨迹大数据分析[J].西安工程大学学报,2018,32(3):343-347. 被引量：6
4阴爱英,吴运兵,朱敏琛,张莹.基于MapReduce框架下K-means的改进算法[J].计算机应用研究,2018,35(8):2295-2298. 被引量：11
5陆勰,罗守山,张玉梅.基于Hadoop的海量安全日志聚类算法研究[J].信息网络安全,2018(8):56-63. 被引量：6
6周功建.基于Hadoop平台Canopy-Kmeans聚类算法优化改进研究[J].安徽广播电视大学学报,2018(4):117-122. 被引量：2
7邵欣欣.基于Canopy和共享最近邻的服务推荐算法[J].计算机科学,2020,47(S02):479-481. 被引量：3
8杜鹃,张卓,曹建春.利用快速无偏分层图抽样算法的MapReduce负载平衡方法[J].计算机应用与软件,2021,38(11):288-294. 被引量：2

二级引证文献52

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2俞志龙,杨明辉.基于机器学习算法的数据安全稽核模型搭建[J].信息网络安全,2020(S01):1-5. 被引量：2
3鲍世方.基于Spark/GraphX图聚类算法的入室盗窃串并案研究[J].计算机应用与软件,2017,34(9):108-113.
4龙婧,刘伟,殷胜.基于机器学习的电网设备档案数据异常诊断研究[J].电力信息与通信技术,2018,16(7):21-27. 被引量：13
5唐德权,史伟奇,张波云.基于多模态信息特征融合的犯罪预测算法研究[J].计算机应用与软件,2018,35(7):221-225. 被引量：6
6贾如春.基于海量数据集中式数字图形仿真视景系统的研究与应用[J].激光杂志,2018,39(11):195-199. 被引量：1
7张春霞,王新猛,张晓熙.基于Hadoop的森林公安网络舆情监测系统设计与实现[J].信息网络安全,2018(12):82-86. 被引量：8
8叶骁.K-means聚类算法在肿瘤基因变异识别中的应用[J].计算机应用与软件,2019,36(3):287-290. 被引量：6
9高瞻,余辰,向郑涛,陈宇峰.基于网格化的出租车空载寻客路径推荐[J].计算机应用与软件,2019,36(5):281-288. 被引量：6
10李伟,孙新杰,张毓福.基于Spark的新闻大数据分析研究[J].六盘水师范学院学报,2019,31(3):20-22. 被引量：2

1孙秀娟.加权平均值的改进k-means算法[J].电子技术与软件工程,2014(4):198-198. 被引量：1
2卜旭松,刘立波,石磊.基于PAM和簇阈值的改进K-Means聚类算法[J].湖北工程学院学报,2015,35(3):36-39. 被引量：2
3刘澎,陆介平.基于MapReduce的改进k-means文本聚类算法[J].信息技术,2016,40(11):201-205. 被引量：3
4范晶晶,邢桂山.基于改进K—Means聚类算法的网络流量预测系统研究[J].中国科技投资,2014(A02):219-219.
5赵鑫龙,张维石,李辉.基于改进聚类的云计算平台攻击检测方法[J].网络新媒体技术,2016,0(4):46-51. 被引量：1
6张蕾,崔志坤,李井泉,白涛.改进K-means模型在电力系统用户行为分析中的应用[J].无线电工程,2017,47(3):12-14. 被引量：2
7但汉辉,张玉芳,张世勇.一种改进的K-均值聚类算法[J].重庆工商大学学报（自然科学版）,2009,26(2):144-147. 被引量：8
8韩龙.对数据挖掘中K-means聚类算法的改进研究[J].无线互联科技,2013,10(2):157-157. 被引量：1
9金铭,汪友生,边航,王雨婷.一种基于视觉词袋模型的图像检索方法[J].计算机应用与软件,2017,34(4):249-254. 被引量：3
10栗国保,韩青菊.一种改进K-means聚类算法的MapReduce并行化实现[J].数字技术与应用,2016,34(12):134-134. 被引量：2

计算机工程与应用

2016年第8期

浏览历史

内容加载中请稍等...

基于MapReduce的随机抽样K-means算法被引量：8

参考文献13

二级参考文献184

共引文献562

同被引文献62

引证文献8

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的随机抽样K-means算法 被引量：8

参考文献13

二级参考文献184

共引文献562

同被引文献62

引证文献8

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的随机抽样K-means算法被引量：8