基于Spark框架的改进并行K-means算法研究被引量：2

Research of improved parallel K-means algorithm based on Spark framework

下载PDF

导出

摘要传统的K-means算法由于随机选择初始聚类中心,使得聚类结果不精确。随着网络数据量的激增,传统的串行算法运算时间明显太长,有研究者利用Hadoop并行框架进行K-means并行化研究,虽然提高了算法的运行时间,但K-means算法在聚类判定时需要反复迭代,反复进行磁盘的读写操作,很大一部分时间花费在磁盘操作上,并行算法的效率大打折扣。为此,本文提出基于Spark框架的改进并行K-means算法,通过对RDD的操作有效解决了频繁的磁盘读写。在标准数据集下,进行对比实验,通过聚类效果和算法并行的加速比,验证了改进算法的有效性。 The traditional K-means algorithm makes the clustering result inaccurate due to the random selection of initial clusteringcenters. With the surge of network data volume, the traditional serial algorithm operation time is obviously too long. Someresearchers use the Hadoop parallel framework to do K-means parallelization research. Although the running time of the algorithm isimproved,judgment requires repeated iterations and repeated disk read and write operations, a large part of the time is spent on thedisk operation, the efficiency of parallel algorithms is greatly reduced. To this end, this paper proposes an improved parallel K-means algorithm based on the Spark framework, which can effectively solve the frequent disk read and write through the operation ofRDD. Under the standard dataset, a comparison experiment is carried out. The efficiency of the improved algorithm is verified by theclustering effect and the algorithm parallel speedup.

作者邓青杨宁

机构地区山西轻工职业技术学院山西云时代技术有限公司

出处《智能计算机与应用》 2018年第1期76-78,共3页 Intelligent Computer and Applications

关键词 SPARK K-MEANS MAP REDUCE HADOOP 加速比 Spark K-means Map Reduce Hadoop speedup

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
2汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：140
3江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
4陈虹君.基于Spark框架的聚类算法研究[J].电脑知识与技术,2015,0(2):56-57. 被引量：9

二级参考文献36

1李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
2钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
3Han J, Kamber M. Data Mining Concepts and Techniques. Orlando, USA: Morgan Kaufmann Publishers, 2001
4Huang J Z, Ng M K, Rang Hongqiang, et al. Automated Variable Weighting in K-means Type Clustering. IEEE Trans on Pattern Analysis and Machine Intelligence, 2005, 27 (5) : 657 - 668
5Dhillon I S, Guan Yuqiang, Kogan J. Refining Clusters in High Dimensional Text Data//Proc of the 2nd SIAM Workshop on Clustering High Dimensional Data. Arlington, USA, 2002 : 59 - 66
6Zhang B. Generalized K-Harmonic Means: Dynamic Weighting of Data in Unsupervised Learning//Proc of the 1 st SIAM International Conference on Data Mining. Chicago, USA, 2001 : 1 - 13
7Sarafis I, Zalzala A M S, Trinder P W. A Genetic Rule-Based Data Clustering Toolkit//Proc of the Congress on Evolutionary Computation. Honolulu, USA, 2002 : 1238 - 1243
8Ma J, Perkins S. Time-Series Novelty Detection Using One-Class Support Vector Machines// Proc of the International Joint Conference on Neural Networks. Portland, USA, 2003, Ⅲ: 1741 - 1745
9Kaufman L,Rousseeuw P J. Finding Groups in Data: An Introduction to Cluster Analysis. New York, USA: John Wiley & Sons, 1990
10Rui Xu, Wunsch D I I. Survey of Clustering Algorithms. IEEE Trans on Neural Networks, 2005, 16(3 ) : 645 -678

共引文献236

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2许云峰,张妍,赵铁军.基于云计算的商业情报采集系统[J].河北科技大学学报,2012,33(2):161-165. 被引量：7
3桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：22
4张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
5王海,高岭,陈东棋,任杰.一种基于用户行为的嵌入式功耗优化方法[J].系统仿真学报,2015,27(2):320-326.
6原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
7陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
8汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：140
9巩敦卫,蒋余庆,张勇,周勇.基于微粒群优化聚类数目的K-均值算法[J].控制理论与应用,2009,26(10):1175-1179. 被引量：18
10吴景岚.一种基于GRASP的文档聚类算法[J].闽江学院学报,2009,30(5):62-65.

同被引文献9

1黄士科,陶琳,张天序.一种改进的基于光流的运动目标检测方法[J].华中科技大学学报（自然科学版）,2005,33(5):39-41. 被引量：17
2梁大芬.人的因素与道路交通安全[J].中国道路运输,2006(8):53-54. 被引量：1
3赵俊杰,盛剑锋,陶新民.一种基于特征加权的KNN文本分类算法[J].电脑学习,2010(2):84-86. 被引量：4
4牛增良,李海斌,王文峰,白丽霞.基于聚类分析的营运驾驶人危险驾驶行为研究[J].山东交通学院学报,2014,22(1):19-23. 被引量：14
5伍国鑫,刘秉权,刘铭.一种改进的多视图K-均值聚类算法[J].智能计算机与应用,2014,4(3):11-14. 被引量：4
6陈翔,李国芳.基于监控视频动态图像的交通事故车速鉴定[J].经济与社会发展研究,2014(12):234-235. 被引量：1
7徐鹏程,王诚.K-Means算法改进及基于Spark计算模型的实现[J].南京邮电大学学报（自然科学版）,2017,37(4):113-118. 被引量：11
8李斌,李蓉,周蕾.分布式K-means聚类算法研究与实现[J].软件,2018,39(1):35-38. 被引量：13
9宋董飞,徐华.基于Spark的K-means改进算法的并行化实现[J].计算机系统应用,2018,27(4):151-156. 被引量：3

引证文献2

1杜佳颖,段隆振,段文影,卜秋瑾.基于Spark的改进K-means算法的并行实现[J].计算机应用研究,2020,37(2):434-436. 被引量：13
2杜勇,王春明,崔金,李磊军,崔尧,郭培智.基于稀疏时空特征描述的驾驶者多种非安全驾驶行为识别[J].智能计算机与应用,2018,8(6):49-53. 被引量：1

二级引证文献14

1徐丹,代勇,纪军红.基于卷积神经网络的驾驶人行为识别方法研究[J].中国安全科学学报,2019,29(10):12-17. 被引量：19
2谢悦,林建国,芦静.浓度对流扩散方程并行计算与MATLAB高效实现方法[J].计算机应用研究,2020,37(S01):143-146. 被引量：1
3徐建国,韩琮师.改进K-means算法在高校舆情中的应用[J].软件导刊,2019,18(7):142-144. 被引量：4
4侯佳正,张绍阳,陈博远.基于Microsoft HPC的Magic迭代计算软件的并行化[J].应用科技,2020,47(3):100-105. 被引量：1
5郭晓军,王云峰,朱亮.基于时序特征提取的用户群体划分模型[J].中国电子科学研究院学报,2021,16(6):592-598. 被引量：1
6雒明雪,苑迎春,陈江薇,王克俭.基于邻域密度的K-means初始聚类中心优选方法[J].重庆理工大学学报（自然科学）,2021,35(10):180-186. 被引量：3
7刘跃鸿.一种基于人工智能的多层次网络安全体系研究与设计[J].网络安全技术与应用,2021(12):30-31.
8蔡艳婧,陆健,曹春梅,徐立.基于综合用电指数的用户画像研究[J].河南科技,2022,41(12):21-24. 被引量：1
9王睿.基于K-means算法的网络主动安全防御系统研究与设计[J].网络安全技术与应用,2022(11):31-33. 被引量：2
10司春波,赵志强,高春超,邱剑,张燕平.基于大数据的无线网络优化模式研究[J].长江信息通信,2022,35(11):187-189. 被引量：4

1李莉,王小刚.基于Spark的并行K-means气象数据挖掘研究[J].信息技术,2017,41(9):26-30. 被引量：7
2李莉.基于云计算平台Hadoop的并行k-means聚类算法设计研究[J].网络安全技术与应用,2017(12):46-47. 被引量：2
3陈亮,赵磊,李珂.CUDA环境下地形因子的并行计算[J].北京测绘,2017,31(4):9-12. 被引量：1
4梁晓轩.揭开暗网的神秘面纱[J].检察风云,2017,0(23):12-14. 被引量：4
5周跃春.指向表达的语文教学高效课堂的构建[J].教育观察,2018,7(2):46-48. 被引量：2
6刘利锋,吴小东,黄永宗.基于spark的推荐系统设计[J].电脑迷,2017(11):33-33. 被引量：2
7张翔,石力,尚勃,董丽丽.深度置信网络的Spark并行化在微博情感分类中的应用研究[J].计算机应用与软件,2018,35(2):48-53. 被引量：5
8黄红玉.一带一路背景下经济发展新模式[J].当代旅游,2017,0(7):72-72.
9牛健,崔焕庆,成曦,傅游.求解大规模稀疏有向图回路的多线程并行算法[J].山东科技大学学报（自然科学版）,2018,37(2):32-38. 被引量：1
10李洋.新常态下一种新型计算技术在物探中的应用[J].中国石油和化工标准与质量,2017,37(17):176-177.

智能计算机与应用

2018年第1期

浏览历史

内容加载中请稍等...

基于Spark框架的改进并行K-means算法研究被引量：2

参考文献4

二级参考文献36

共引文献236

同被引文献9

引证文献2

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于Spark框架的改进并行K-means算法研究 被引量：2

参考文献4

二级参考文献36

共引文献236

同被引文献9

引证文献2

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于Spark框架的改进并行K-means算法研究被引量：2