Spark环境下K-means初始中心点优化研究综述被引量：9

Survey of optimization on K-means algorithm in Spark

下载PDF

导出

摘要为了能够及时了解Spark环境下经典聚类算法K-means的最新研究进展,把握K-means算法当前的研究热点和方向,针对K-means算法的初始中心点优化研究进行综述。首先介绍了内存计算框架Spark和K-means算法,并分析了K-means算法聚类不稳定性的成因和影响,其目的在于指出优化K-means算法的重要性;详细介绍了目前在Spark环境下优化K-means初始中心点的主要方法和最新研究现状,并展望了K-means初始中心点优化问题的未来研究方向。 In order to understand the latest research progress of the classical clustering algorithm K-means in Spark environment,and grasp the current research hotspots and directions of K-means algorithm,this paper reviewed the initial center point optimization research on K-means algorithm.Firstly,it introduced the memory computing framework Spark and K-means algorithms,and analyzed the cause and effects of clustering instability of K-means algorithm,which pointed out the importance of optimizing K-means algorithm.This paper introduced the main methods and the latest research status of optimizing the initial center point of K-means in Spark environment in detail,and also discussed the future research trends in initial center point optimization of K-means.

作者行艳妮钱育蓉南方哲赵京霞 Xing Yanni;Qian Yurong;Nan Fangzhe;Zhao Jingxia(College of Software,Xinjiang University,Urumqi 830046,China)

机构地区新疆大学软件学院

出处《计算机应用研究》 CSCD 北大核心 2020年第3期641-647,共7页 Application Research of Computers

基金国家自然科学基金资助项目(61562086,61462079,61966035) 新疆维吾尔自治区教育厅创新团队资助项目(XJEDU2016S035) 自治区研究生创新项目(XJ2019G072,XJ2019G069,XJ2019G071)。

关键词 K-均值算法分布式内存计算框架算法优化聚类算法 K-means distributed memory computing framework algorithm optimization clustering algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献21

1马菁,李力.RDD上扩展索引层优化的分布式K-means算法[J].计算机工程与应用,2019,55(1):161-167. 被引量：11
2毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：65
3班俊硕,赖惠成,林宪峰,杨敏,董九玲.改进PSO与K均值聚类肤色分割的人脸检测算法[J].激光杂志,2017,38(2):82-86. 被引量：6
4许明杰,蔚承建,沈航.基于Spark的并行K-means算法研究[J].微电子学与计算机,2018,35(5):95-99. 被引量：13
5贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：222
6万静,张超,何云斌,李松.可变网格优化的K-means聚类方法[J].小型微型计算机系统,2018,39(1):95-99. 被引量：10
7万虎,徐远超,闫俊峰,孙凤芸,张伟功.通过非易失存储和检查点优化缓解日志开销[J].计算机研究与发展,2015,52(6):1351-1361. 被引量：6
8贾瑞玉,李玉功.类簇数目和初始中心点自确定的K-means算法[J].计算机工程与应用,2018,54(7):152-158. 被引量：47
9江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
10何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：312

二级参考文献278

1张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
2陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
3刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
4陈贵敏,贾建援,韩琪.粒子群优化算法的惯性权值递减策略研究[J].西安交通大学学报,2006,40(1):53-56. 被引量：304
5刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
6杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：187
7李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：113
8张文君,顾行发,陈良富,余涛,许华.基于均值-标准差的K均值初始聚类中心选取算法[J].遥感学报,2006,10(5):715-721. 被引量：57
9周涓熊忠阳张玉芳.初始中心优化的K-means聚类算法.计算机科学,2006,26(6):1425-1426.
10Guha S,Rastogi R,Shim K.CURE:An Efficient Clustering Algorithm for Large Databases[C].Seattle:Proceedings of the ACM SIGMOD Conference,1998.73-84.

共引文献1941

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：11
2刘壮,张悦.统计学方法在生物信息学分析中的应用[J].医学信息学杂志,2020,41(6):20-23. 被引量：1
3禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
4丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
5赵栋梁,周晓磊,窦志强,武暕.基于改进FA算法的河流突发水污染事件溯源[J].计算机系统应用,2022,31(10):191-198. 被引量：1
6陈欣宇.基于大数据背景的机器学习算法研究[J].计算机产品与流通,2020,0(3):85-85. 被引量：1
7王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
8林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
9高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
10毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.

同被引文献68

1夏显召,朱世贤,周意遥,叶茂,赵毅强.基于阈值的激光雷达K均值聚类算法[J].北京航空航天大学学报,2020,46(1):115-121. 被引量：19
2袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
3赖玉霞,刘建平.K-means算法的初始聚类中心的优化[J].计算机工程与应用,2008,44(10):147-149. 被引量：74
4周水庚,李丰,陶宇飞,肖小奎.面向数据库应用的隐私保护研究综述[J].计算机学报,2009,32(5):847-861. 被引量：219
5王增福,潘泉,郎林,程咏梅.基于减法聚类的动态航迹聚类算法[J].系统仿真学报,2009,21(16):5240-5243. 被引量：12
6单奇,钮俊清,李川.炮位侦校雷达的数据处理研究[J].雷达科学与技术,2010,8(2):171-176. 被引量：17
7熊忠阳,陈若田,张玉芳.一种有效的K-means聚类中心初始化方法[J].计算机应用研究,2011,28(11):4188-4190. 被引量：86
8陈光平,王文鹏,黄俊.一种改进初始聚类中心选择的K-means算法[J].小型微型计算机系统,2012,33(6):1320-1323. 被引量：39
9李杨,郝志峰,温雯,谢光强.差分隐私保护k-means聚类方法研究[J].计算机科学,2013,40(3):287-290. 被引量：48
10周恒星,赵奕,伏昕,昝慧昉,李春晖.徘徊在大数据门前[J].中国企业家,2013(7):92-95. 被引量：9

引证文献9

1严志.一种云平台下的大数据聚类系统研究[J].长沙民政职业技术学院学报,2019,26(1):113-117. 被引量：1
2贺亮,徐正国,贾愚,沈超,李赟.深度强化学习复原多目标航迹的TOC奖励函数[J].计算机应用研究,2020,37(6):1626-1632. 被引量：2
3相益萱,姜合,潘品臣,孙聪慧.二次幂耦合的K-means聚类算法研究[J].计算机工程与应用,2021,57(14):95-102. 被引量：5
4孔钰婷,谭富祥,赵鑫,张正航,白璐,钱育蓉.基于差分隐私的K-means算法优化研究综述[J].计算机科学,2022,49(2):162-173. 被引量：5
5王全民,胡德程.基于Spark的K-means快速聚类算法的优化[J].计算机仿真,2022,39(3):344-349. 被引量：9
6邵金鑫,行艳妮,南方哲,赵鑫,马廷淮,钱育蓉.改进CK-means+算法及并行实现[J].计算机工程与设计,2022,43(5):1240-1248. 被引量：1
7李同亮,朱勇,于琼.基于聚类思想的弹道外推算法研究[J].雷达科学与技术,2022,20(2):150-156.
8王冠帮,刘鸿雁,李劲松,刘晓雲.基于K-Means的学生成绩预测方法研究[J].信息技术,2023,47(2):1-6. 被引量：2
9柳菁,邱紫滢,郭茂祖,余冬华.基于Tukey规则与初始中心点优化的K⁃means聚类改进算法[J].数据采集与处理,2023,38(3):643-651. 被引量：2

二级引证文献27

1黄学雨,程世超.KNN优化的密度峰值聚类算法[J].通信技术,2021,54(7):1608-1618. 被引量：6
2何聪,王彦成,冯军,姜山,李兆阳.基于K-means聚类的通航协同空域规划算法设计和实现[J].西华大学学报（自然科学版）,2021,40(6):27-31. 被引量：1
3贺雪梅,匡胤,杨志鹏,杨亚乔.基于深度强化学习的AGV智能导航系统设计[J].计算机应用研究,2022,39(5):1501-1504. 被引量：6
4颜宁,钟瑶,李相俊,武中立.基于风险防御的退役动力电池递进式分选方法研究[J].太阳能学报,2022,43(5):525-532.
5胡珊.云环境下K-means算法的并行化研究[J].电子技术与软件工程,2022(17):217-220. 被引量：1
6张雅茹.基于改进二分K-means算法的网络异常检测技术研究[J].鄂州大学学报,2022,29(6):97-99. 被引量：5
7李毅,李海鹏,杜毅,岩樱洁,罗玲,曹志勇.基于机器视觉的氨基甲酸酯类农残的检测[J].云南农业,2023(2):78-81.
8于志良.基于Flink的鲸鱼优化K-Means算法[J].互联网周刊,2023(4):83-85. 被引量：2
9舒兆翰,李小龙,黎宇茵.融合聚类法的改进三帧差分车辆检测算法[J].江西科学,2023,41(1):159-166. 被引量：1
10黄凌子.基于Spark的旅游舆情热点发现方法研究[J].信息系统工程,2023(1):14-17.

1孙红艳.用遗传算法优化初始聚类中心的K-means算法研究[J].电声技术,2019,43(11):32-33. 被引量：6
2靳爽,庞明宝.基于K-means的城市轨道交通社区接驳共享单车停靠点规划[J].科学技术与工程,2019,19(30):343-347. 被引量：10
3王卫红,曾英杰.基于聚类和用户偏好的协同过滤推荐算法[J].计算机工程与应用,2020,56(3):68-73. 被引量：21
4肖琦敏,方志坚,孙浩淞,罗义旺,林翰,刘积娟.含分布式电源的智能电网负荷预测研究[J].国外电子测量技术,2020,0(2):77-82. 被引量：12
5常雪,石鸿雁.基于改进蝙蝠算法优化的FCM聚类算法[J].计算机与现代化,2020,0(5):29-33. 被引量：5
6张宁,刘锐.一种动车组转向架装配线电机传动系统健康状态评估优化方法研究[J].铁道学报,2020,42(5):66-71. 被引量：1
7程国敏,赵璐.河流治理:丁坝坝头的有效防护[J].区域治理,2020,0(2):189-191. 被引量：1

计算机应用研究

2020年第3期

浏览历史

内容加载中请稍等...

Spark环境下K-means初始中心点优化研究综述被引量：9

参考文献21

二级参考文献278

共引文献1941

同被引文献68

引证文献9

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

Spark环境下K-means初始中心点优化研究综述 被引量：9

参考文献21

二级参考文献278

共引文献1941

同被引文献68

引证文献9

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

Spark环境下K-means初始中心点优化研究综述被引量：9