改进CK-means+算法及并行实现被引量：3

Improved CK-means+algorithm and parallel implementation

下载PDF

导出

摘要为降低K值的不确定性和初始聚类中心的随机性对聚类结果的影响,提出一种基于优化Canopy算法和均值计算法的改进K-means算法——CK-means+。优化Canopy算法,降低距离阈值T不确定性对最终输出K值的影响,通过Canopy算法和均值计算法得到K值和初始中心点。在UCI数据集上,结合Spark框架并行化,实验结果表明,相较其它算法,CK-means+算法效率更高,可以更好适应大规模数据应用场景。 To reduce the influence of the uncertainty of K values and the randomness of initial clustering centers on the clustering results,a K-means algorithm was improved based on the optimized Canopy algorithm and the mean calculation method(CK-means+).The Canopy algorithm was optimized to reduce the influence of the distance threshold T uncertainty on the final output K-value,and the K-value and initial centroids were obtained through the Canopy algorithm and the mean calculation method.On the UCI dataset and combined with the parallelization of Spark framework,experimental results verify that compared with other algorithms,the CK-means+algorithm is more efficient and can be better adapted to large-scale data application scenarios.

作者邵金鑫行艳妮南方哲赵鑫马廷淮钱育蓉 SHAO Jin-xin;XING Yan-ni;NAN Fang-zhe;ZHAO Xin;MA Ting-huai;QIAN Yu-rong(Key Laboratory of Signal Detection and Processing in Xinjiang Uygur Autonomous Region,Software College,Xinjiang University,Urumqi 830046,China;School of International Education,Nanjing University of Information Science and Technology,Nanjing 210044,China)

机构地区新疆大学软件学院新疆维吾尔自治区信号检测与处理重点实验室南京信息工程大学国际教育学院

出处《计算机工程与设计》北大核心 2022年第5期1240-1248,共9页 Computer Engineering and Design

基金国家自然科学基金项目(61966035) 新疆维吾尔自治区教育厅创新团队基金项目(XJEDU2017T002)。

关键词 Canopy算法 K-MEANS算法初始值K 初始中心点并行化 Canopy algorithm K-means algorithm value K initial center point parallelization

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1赵鑫,汪丽娟,行艳妮,赵燚,赵京霞,钱育蓉.改进的CK-means优化及并行策略[J].计算机应用研究,2020,37(11):3287-3291. 被引量：7
2行艳妮,钱育蓉,南方哲,赵京霞.Spark环境下K-means初始中心点优化研究综述[J].计算机应用研究,2020,37(3):641-647. 被引量：9
3班俊硕,赖惠成,林宪峰,杨敏,董九玲.改进PSO与K均值聚类肤色分割的人脸检测算法[J].激光杂志,2017,38(2):82-86. 被引量：6
4李立军,张晓光.基于动态粒子群优化与K-means聚类的图像分割算法[J].现代电子技术,2018,41(10):164-168. 被引量：15
5许明杰,蔚承建,沈航.基于Spark的并行K-means算法研究[J].微电子学与计算机,2018,35(5):95-99. 被引量：13
6徐鹏程,王诚.K-Means算法改进及基于Spark计算模型的实现[J].南京邮电大学学报（自然科学版）,2017,37(4):113-118. 被引量：11
7马菁,李力.RDD上扩展索引层优化的分布式K-means算法[J].计算机工程与应用,2019,55(1):161-167. 被引量：11
8韩岩,李晓.加速大数据聚类K-means算法的改进[J].计算机工程与设计,2015,36(5):1317-1320. 被引量：13
9陈小雪,尉永清,任敏,孟媛媛.基于萤火虫优化的加权K-means算法[J].计算机应用研究,2018,35(2):466-470. 被引量：43
10贾瑞玉,李玉功.类簇数目和初始中心点自确定的K-means算法[J].计算机工程与应用,2018,54(7):152-158. 被引量：50

二级参考文献73

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
3刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
4杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：190
5周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：72
6张文君,顾行发,陈良富,余涛,许华.基于均值-标准差的K均值初始聚类中心选取算法[J].遥感学报,2006,10(5):715-721. 被引量：57
7贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：225
8韩家炜,坎伯.数据挖掘概念与技术[M].北京:机械工业出版社.2008.
9Srirama SN,Jakovits P,Vainikko E.使用MapReduce解决云端的科学计算问题[J].下一代计算机系统,2012,39(11):184-192.
10孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1072

共引文献184

1赵栋梁,周晓磊,窦志强,武暕.基于改进FA算法的河流突发水污染事件溯源[J].计算机系统应用,2022,31(10):191-198. 被引量：2
2杜佳颖,段隆振,段文影,卜秋瑾.基于Spark的改进K-means算法的并行实现[J].计算机应用研究,2020,37(2):434-436. 被引量：12
3刘晓琳,孙晓璐.基于改进麻雀算法的机场跑道胶痕检测方法[J].电子测量技术,2023,46(14):162-173.
4唐辉,刘晓波,韩祥民,邱知,徐邦贤.基于混沌剑鱼算法的K_means算法[J].智能计算机与应用,2022,12(1):69-73.
5王鸿玺,李飞,林志文,罗义钊,梁海涛,胡建新.基于IK-means的用电行为研究[J].国外电子测量技术,2020,39(1):54-58. 被引量：5
6谢川.基于混沌关联维特征提取的大数据聚类算法[J].计算机科学,2016,43(6):229-232. 被引量：6
7牛常勇,刘国枢.基于局部全局相似度的SVD的协同过滤算法[J].计算机工程与设计,2016,37(9):2497-2501. 被引量：6
8田诗宵,丁立新,郑金秋.基于密度峰值优化的K-means文本聚类算法[J].计算机工程与设计,2017,38(4):1019-1023. 被引量：26
9郭占元,林涛.面向大规模数据快速聚类K-means算法的研究[J].计算机应用与软件,2017,34(5):43-47. 被引量：17
10宋学伟,李东营,黄天仑.T型管液压成形加载路径自适应多目标优化[J].哈尔滨工业大学学报,2017,49(7):139-145. 被引量：4

同被引文献25

1Fengyin Li,Xinying Yu,Rui Ge,Yanli Wang,Yang Cui,Huiyu Zhou.BCSE:Blockchain-Based Trusted Service Evaluation Model over Big Data[J].Big Data Mining and Analytics,2022,5(1):1-14. 被引量：2
2张宏莉,鲁刚.分类不平衡协议流的机器学习算法评估与比较[J].软件学报,2012,23(6):1500-1516. 被引量：26
3韩岩,李晓.加速大数据聚类K-means算法的改进[J].计算机工程与设计,2015,36(5):1317-1320. 被引量：13
4Eric P. Xing,Qirong Ho,Dai Wei,Pengtao Xie.Strategies and Principles of Distributed Machine Learning on Big Data[J].Engineering,2016,2(2):179-195. 被引量：17
5潘巍,周晓英,吴立锋,王国辉.基于半监督K-Means的属性加权聚类算法[J].计算机应用与软件,2017,34(3):189-193. 被引量：6
6田诗宵,丁立新,郑金秋.基于密度峰值优化的K-means文本聚类算法[J].计算机工程与设计,2017,38(4):1019-1023. 被引量：26
7向鸿鑫,杨云.不平衡数据挖掘方法综述[J].计算机工程与应用,2019,55(4):1-16. 被引量：54
8邓金,史国阳,蔡天鸿,朱晋,怀丽波.基于TF-IDF算法的唐代著名诗僧残缺诗句的填充方法研究[J].现代计算机,2019,25(8):7-11. 被引量：2
9王建仁,马鑫,段刚龙.改进的K-means聚类k值选择算法[J].计算机工程与应用,2019,55(8):27-33. 被引量：109
10陈胜发,贾瑞玉.基于密度权重Canopy的改进K-medoids算法[J].计算机工程与科学,2019,41(10):1823-1828. 被引量：8

引证文献3

1胡珊.云环境下K-means算法的并行化研究[J].电子技术与软件工程,2022(17):217-220. 被引量：1
2刘正阳,翟慧鹏,姜勃,王忠勇.基于密距的CK-means协议分类算法[J].计算机仿真,2024,41(5):353-358.
3Zhihua Li,Xinye Yu,Tao Wei,Junhao Qian.Unstructured Big Data Threat Intelligence Parallel Mining Algorithm[J].Big Data Mining and Analytics,2024,7(2):531-546.

二级引证文献1

1张婷.基于大数据挖掘技术的图书馆服务自动化感知模型[J].自动化与仪器仪表,2023(7):5-9.

1苟悦宬.使用OpenMP+MPI的矩阵乘法并行实现[J].电脑与电信,2022(3):77-80. 被引量：2
2杨建华,肖达强,张伟,余明琼,易本顺.基于改进RBFNN的1000 kV特高压线损预测[J].中国电力,2022,55(5):122-127. 被引量：10
3毛晓艳,苗志富,陈建新,李志平,滕宝毅,邢琰.“祝融号”火星车立体视觉算法并行设计与实现[J].深空探测学报（中英文）,2022,9(2):202-210. 被引量：2
4李凌君.基于聚类算法的数据情报挖掘与分析[J].信息技术,2022,46(5):123-127. 被引量：1

计算机工程与设计

2022年第5期

浏览历史

内容加载中请稍等...

改进CK-means+算法及并行实现被引量：3

参考文献12

二级参考文献73

共引文献184

同被引文献25

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

改进CK-means+算法及并行实现 被引量：3

参考文献12

二级参考文献73

共引文献184

同被引文献25

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

改进CK-means+算法及并行实现被引量：3