基于Spark的K-means改进算法的并行化实现被引量：3

Parallel Implementation of Improved K-means Algorithm Based on Spark

下载PDF

导出

摘要针对传统K-means算法在处理海量数据时,存在计算复杂度高和计算能力不足等问题,提出了SKDkmeans(Spark based kd-tree K-means)并行聚类算法.该算法通过引入kd-tree改善初始中心点的选择,克服传统Kmeans算法因初始点的不确定性,易陷入局部最优解的问题,同时利用kd-tree的最近邻搜索减少K-means在迭代中的距离计算,加快聚类速度,并在Spark平台上实现了该算法的并行化,使其适用于海量数据聚类,最后通过实验验证了算法具有良好的准确率和并行计算性能. In view of the problems that when processing massive data the traditional K-means is highly complex and insufficient in computation, a SKDk-means （Spark based kd-tree K-means） parallel clustering algorithm has been proposed. The algorithm improves the choice of initial center point by introducing kd-tree and overcomes the problem that the traditional K-means algorithm is easy to fall into the local optimal solution due to the uncertainty of the initial point. During K-means iterative calculation, the redundant computation has been reduced and clustering speed has been accelerated by the nearest neighbor search of kd-tree. The parallelization of the algorithm is realized on the spark platform and it is applied to the massive data clustering. Finally, the experimental results show that the algorithm has good accuracy and parallel computing performance.

作者宋董飞徐华 SONG Dong-Fei, XU Hua(School of Intemet of Things Engineering, Jiangnan University, Wuxi 214122, Chin)

机构地区江南大学物联网工程学院

出处《计算机系统应用》 2018年第4期151-156,共6页 Computer Systems & Applications

基金江苏省自然科学基金(BK20140165) 国家留学基金委项目(201308320030)

关键词 KD-TREE SPARK K-MEANS 并行化云计算 kd-tree Spark K-means parallel cloud computing

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1065
2毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：65
3衣治安,王月.基于MapReduce的K_means并行算法及改进[J].计算机系统应用,2015,24(6):188-192. 被引量：4
4翟东海,鱼江,高飞,于磊,丁锋.最大距离法选取初始簇中心的K-means文本聚类算法的研究[J].计算机应用研究,2014,31(3):713-715. 被引量：107
5张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
6陈晓康,刘竹松.基于改进Kd-Tree构建算法的k近邻查询[J].广东工业大学学报,2014,31(3):119-123. 被引量：8

二级参考文献54

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2周锋,李旭伟.一种改进的MapReduce并行编程模型[J].科协论坛（下半月）,2009(2):65-66. 被引量：14
3鲁庆,余永权.分析服务组件模型在数据挖掘中的研究与应用[J].广东工业大学学报,2005,22(1):53-56. 被引量：1
4杨立,左春,王裕国.基于语义距离的K-最近邻分类方法[J].软件学报,2005,16(12):2054-2062. 被引量：31
5刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
6李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：113
7陈作平,叶正麟,赵红星,郑红婵.结合K均值聚类和KD-Tree搜索的快速分形编码方法[J].计算机辅助设计与图形学学报,2006,18(7):965-970. 被引量：6
8王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33
9彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
10胡燕,吴虎子,钟珞.基于改进的kNN算法的中文网页自动分类方法研究[J].武汉大学学报（工学版）,2007,40(4):141-144. 被引量：20

共引文献1240

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
3林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
4高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
5毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
6张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：3
7李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
8尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
9段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
10何睿,余娜,李淼,张峻巍,王浩杰,赵玉茗.基于单细胞RNA测序数据的细胞类型聚类算法[J].智能计算机与应用,2020,10(7):104-108. 被引量：2

同被引文献19

1郝占刚,王正欧.基于遗传算法和k-medoids算法的聚类新算法[J].现代图书情报技术,2006(5):44-46. 被引量：5
2徐克圣,王澜.一种自动获得k值的聚类算法[J].大连交通大学学报,2007,28(4):68-71. 被引量：3
3张忠平,王爱杰,柴旭光.简单有效的确定聚类数目算法[J].计算机工程与应用,2009,45(15):166-168. 被引量：23
4李春生,王耀南.聚类中心初始化的新方法[J].控制理论与应用,2010,27(10):1435-1440. 被引量：23
5曹丹阳,杨炳儒,李广原,刘英华.一种基于CF树的k-medoids聚类算法[J].计算机应用研究,2011,28(9):3260-3263. 被引量：3
6马箐,谢娟英.基于粒计算的K-medoids聚类算法[J].计算机应用,2012,32(7):1973-1977. 被引量：39
7毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：65
8翟东海,鱼江,高飞,于磊,丁锋.最大距离法选取初始簇中心的K-means文本聚类算法的研究[J].计算机应用研究,2014,31(3):713-715. 被引量：107
9陈晓康,刘竹松.基于改进Kd-Tree构建算法的k近邻查询[J].广东工业大学学报,2014,31(3):119-123. 被引量：8
10谢娟英,高瑞.Num-近邻方差优化的K-medoids聚类算法[J].计算机应用研究,2015,32(1):30-34. 被引量：11

引证文献3

1杜佳颖,段隆振,段文影,卜秋瑾.基于Spark的改进K-means算法的并行实现[J].计算机应用研究,2020,37(2):434-436. 被引量：12
2邓滨玥.K均值优化算法综述[J].软件,2020,41(2):188-192. 被引量：11
3任秦霄,闫建红.基于Kd-tree的k-means算法并行化实现[J].数码设计,2019,8(15):118-119.

二级引证文献23

1谢悦,林建国,芦静.浓度对流扩散方程并行计算与MATLAB高效实现方法[J].计算机应用研究,2020,37(S01):143-146. 被引量：1
2佐磊,胡小敏,何怡刚,孙洪凯,李兵.小样本数据处理的加速寿命预测方法[J].电子测量与仪器学报,2020,32(11):26-32. 被引量：8
3徐建国,韩琮师.改进K-means算法在高校舆情中的应用[J].软件导刊,2019,18(7):142-144. 被引量：4
4侯佳正,张绍阳,陈博远.基于Microsoft HPC的Magic迭代计算软件的并行化[J].应用科技,2020,47(3):100-105. 被引量：1
5王习涛.基于Python的K-means算法实现方式对比研究[J].软件,2020,41(8):87-88. 被引量：3
6韩海.包含视野参数的聚类目标函数设计[J].江汉大学学报（自然科学版）,2020,48(6):91-96.
7郭晓军,王云峰,朱亮.基于时序特征提取的用户群体划分模型[J].中国电子科学研究院学报,2021,16(6):592-598. 被引量：1
8雒明雪,苑迎春,陈江薇,王克俭.基于邻域密度的K-means初始聚类中心优选方法[J].重庆理工大学学报（自然科学）,2021,35(10):180-186. 被引量：3
9刘跃鸿.一种基于人工智能的多层次网络安全体系研究与设计[J].网络安全技术与应用,2021(12):30-31.
10郭漩,钱海忠,王骁,刘俊楠,钟吉.道路网选取的案例与本体推理方法[J].测绘学报,2021,50(12):1717-1727. 被引量：6

1付小妮.基于hadoop与医疗大数据的apriori算法并行化研究[J].信息通信,2017,30(9):30-31. 被引量：1
2李琪,张欣,张平康,张航.基于密度峰值优化的Canopy-Kmeans并行算法[J].通信技术,2018,51(2):312-317. 被引量：7
3李俊,李玲娟.基于最小生成树的K-均值算法设计与并行化实现[J].南京邮电大学学报（自然科学版）,2017,37(5):81-86. 被引量：5
4刘鹏,滕家雨,丁恩杰,孟磊.基于Spark的大规模文本k-means并行聚类算法[J].中文信息学报,2017,31(4):145-153. 被引量：14
5胡志成.Jacobi与Gauss-Seidel迭代的比较及算法的MATLAB实现[J].高师理科学刊,2018,38(3):59-61. 被引量：3
6蒋丽,薛善良.基于改进k-means算法的文本聚类[J].计算机与现代化,2018(4):17-21. 被引量：6
7熊风光,霍旺,韩燮,况立群.三维点云中关键点误匹配剔除方法[J].光学学报,2018,38(2):121-131. 被引量：25
8李建中,董海.基于Spark框架和ARIMA-BPNN的交通流量预测模型的研究[J].电脑编程技巧与维护,2017(20):41-44. 被引量：1
9高盼,向敏.基于Hadoop的电力大数据Apriori并行计算方法[J].科技创新与应用,2018,8(8):7-9. 被引量：2
10李存燕.基于分类数据的可视化改善方法[J].现代计算机（中旬刊）,2018(3):47-51.

计算机系统应用

2018年第4期

浏览历史

内容加载中请稍等...

基于Spark的K-means改进算法的并行化实现被引量：3

参考文献6

二级参考文献54

共引文献1240

同被引文献19

引证文献3

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于Spark的K-means改进算法的并行化实现 被引量：3

参考文献6

二级参考文献54

共引文献1240

同被引文献19

引证文献3

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于Spark的K-means改进算法的并行化实现被引量：3