面向大数据的K-means算法综述被引量：16

Survey of K-means algorithm on big data

下载PDF

导出

摘要聚类作为一种重要的数据挖掘方式,如何在海量数据下更快获得一个有理论保证的K-means的近似解是一个关键问题。首先,定义K-means问题并介绍相关背景;然后,从理论保证和加速两个方面分别介绍国内外先进研究成果;最后,总结现有成果并对未来面向大数据的K-means研究方向予以展望和预测。 Among all the clustering problems,the K-means problem is probably the most well-known one.How to obtain a theoretically guaranteed solution of K-means efficiently for the big data can be a key problem.This paper surveyed the progress of this problem.Firstly,this paper defined the K-means problem and introduced relevant backgrounds.Secondly,it introduced separately and described in details the techniques for theoretical guarantee and speed up.Finally,it summarized the main results and forecasted the future directions of K-means algorithms on big data.

作者任远航 Ren Yuanhang(School of Information&Software Engineering,University of Electronic Science&Technology of China,Chengdu 610054,China)

机构地区电子科技大学信息与软件工程学院

出处《计算机应用研究》 CSCD 北大核心 2020年第12期3528-3533,共6页 Application Research of Computers

关键词聚类 K-MEANS 采样次线性时间算法理论保证 clustering K-means sampling sub-linear time algorithms theoretical guarantee

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献7

1宁康,陈挺.生物医学大数据的现状与展望[J].科学通报,2015,60(5):534-546. 被引量：61
2周爱武,于亚飞.K-Means聚类算法的研究[J].计算机技术与发展,2011,21(2):62-65. 被引量：134
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1079
4贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：228
5周涛,陆惠玲.数据挖掘中聚类算法研究进展[J].计算机工程与应用,2012,48(12):100-111. 被引量：145
6张建萍,刘希玉.基于聚类分析的K-means算法研究及应用[J].计算机应用研究,2007,24(5):166-168. 被引量：124
7吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35. 被引量：166

二级参考文献226

1钱锋,徐麟文.知识发现中的聚类分析及其应用[J].杭州师范大学学报（自然科学版）,2001,5(1):34-37. 被引量：16
2伍忠东,高新波,谢维信.基于核方法的模糊聚类算法[J].西安电子科技大学学报,2004,31(4):533-537. 被引量：75
3WANGShun-jiu,YANGZhi-feng,DINGJing.Projection pursuit cluster model and its application in water quality assessment[J].Journal of Environmental Sciences,2004,16(6):994-995. 被引量：20
4陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75. 被引量：44
5周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
6何彬彬,方涛,郭达志.基于不确定性的空间聚类[J].计算机科学,2004,31(11):196-198. 被引量：8
7王汉芝,刘振全.一种新的确定K-均值算法初始聚类中心的方法[J].天津科技大学学报,2005,20(4):76-79. 被引量：9
8李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
9李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
10修宇,王士同,吴锡生,胡德文.方向相似性聚类方法DSCM[J].计算机研究与发展,2006,43(8):1425-1431. 被引量：21

共引文献1824

1刘壮,张悦.统计学方法在生物信息学分析中的应用[J].医学信息学杂志,2020,41(6):20-23. 被引量：1
2丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
3王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85. 被引量：1
4林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
5陈卫东,胡盛林.兼顾公平和效率原则的我国电力市场碳配额分配方案[J].煤炭经济研究,2020,40(1):15-21. 被引量：8
6高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
7毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
8张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：4
9李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
10孙伟鹏,吴锡生,孟斌.基于Spark并行的密度峰值聚类算法[J].计算机应用研究,2020,37(1):163-166. 被引量：2

同被引文献196

1赵朗月,吴一全.基于机器视觉的表面缺陷检测方法研究进展[J].仪器仪表学报,2022,43(1):198-219. 被引量：94
2Laura HATTAM,Danica Vukadinovic GREETHAM.Green neighbourhoods in low voltage networks:measuring impact of electric vehicles and photovoltaics on load profiles[J].Journal of Modern Power Systems and Clean Energy,2017,5(1):105-116. 被引量：8
3刘亭亭,于晓辉,吕大刚.基于偏最小二乘回归的地震动复合强度参数构造与统计性分析[J].建筑结构学报,2020,41(S01):406-416. 被引量：4
4田堃,蒋树屏,宫伟军.基于蒙特卡洛法的城市隧道火灾概率分布研究[J].地下空间与工程学报,2020(S01):329-340. 被引量：3
5杨松,马非,娄刃,赵卫斌,刘松荣.基于风险控制的智慧交通隧道机电技术体系与方案研究[J].公路交通技术,2021,37(S01):71-76. 被引量：6
6何继善,陈晓红,洪开荣.论工程管理[J].中国工程科学,2005,7(10):5-10. 被引量：61
7李小芳,陈青云.墙体材料及其组合对日光温室墙体保温性能的影响[J].中国生态农业学报,2006,14(4):185-189. 被引量：96
8朱晓赟,许民利.项目管理研究综述[J].价值工程,2008,27(11):128-131. 被引量：11
9史卫亚,郭跃飞,薛向阳.一种解决大规模数据集问题的核主成分分析算法[J].软件学报,2009,20(8):2153-2159. 被引量：21
10张士勤,徐传胜.不确定性集合理论及其研究进展[J].西北大学学报（自然科学版）,2009,39(4):696-700. 被引量：2

引证文献16

1张晨,王建东,罗宵,赵鲲,廖勇.工程管理数字化关键技术研究进展[J].计算机应用,2023,43(S01):187-195. 被引量：10
2冯丹丹,王同勋.数据驱动的电能质量扰动特征建模方法[J].供用电,2020,37(9):23-28. 被引量：5
3李杰其,胡良兵.基于机器学习的设备预测性维护方法综述[J].计算机工程与应用,2020,56(21):11-19. 被引量：27
4苏晓眉,张涛,李玉飞,卿玉,李玉梅.基于K-Means聚类算法的沉砂卡钻预测方法研究[J].钻采工艺,2021,44(3):5-9. 被引量：13
5罗平娟,张胜礼.基于K-means聚类算法的物流配送方案设计[J].现代计算机,2021,27(24):26-29. 被引量：6
6张仕斌,黄曦,昌燕,闫丽丽,程稳.大数据环境下量子机器学习的研究进展及发展趋势[J].电子科技大学学报,2021,50(6):802-819. 被引量：10
7施天虎,徐洪珍.基于改进K-means和优化评分的协同过滤推荐算法[J].江苏科技大学学报（自然科学版）,2021,35(6):72-77. 被引量：6
8张玉琛,张义,程瑞锋,王超.基于偏最小二乘回归的日光温室墙体放热量预测[J].江苏农业科学,2022,50(11):208-213. 被引量：3
9樊宇,杨建业.大数据在拧紧数据分析中的应用[J].汽车工艺与材料,2022(6):27-32. 被引量：3
10刘哲,周波,余澜婷,牛成钢,许幸满,赵良强,王文丰.融合Pearson相似度与最小生成树的K-means算法[J].南昌工程学院学报,2022,41(6):91-96. 被引量：1

二级引证文献91

1何立蜓.基于K-means聚类算法的防汛物资调配改进模型[J].人民黄河,2021,43(S02):272-275. 被引量：2
2孙亮.人工智能在高速公路机电设备预测性维修中的应用研究[J].中国交通信息化,2024(S01):114-116.
3徐达,洪文慧,季天瑶,徐钰涵,李梦诗.基于S变换和长短期记忆网络的电能质量复合扰动识别[J].广东电力,2021,34(7):33-39. 被引量：5
4符养斌,刘雄伟.人工智能技术在高速公路分布式能源系统中的应用[J].山西交通科技,2021(5):8-10. 被引量：1
5张治发,钱浩东,张帆,王鹏,杨哲.基于信息平台的水平井井眼清洁状况实时预判与参数优化[J].钻采工艺,2021,44(6):49-54. 被引量：6
6张晓旭,高振涛,吴磊,李鑫,卢明静.基于混合量子-经典神经网络模型的股价预测[J].电子科技大学学报,2022,51(1):16-23. 被引量：6
7黄赞扬,王亚静,祁东利,高迪,王晓宇,王宇,王雁雯,叶相印.基于质量源于设计理念构建多糖组分干法制粒前馈控制模型[J].中国实验方剂学杂志,2022,28(4):130-137. 被引量：4
8徐荣,张凤娟,宋朝钦.基于物联网技术的医院后勤设备维护系统研究[J].中国医院建筑与装备,2022,23(3):60-63. 被引量：3
9刘明燕.基于Lingo软件的货物配送方案研究[J].科技与创新,2022(7):78-80. 被引量：1
10徐秀珍,张媛媛,卢安文.基于K-means聚类模型的留学生多维度分层教学研究[J].现代计算机,2022,28(4):70-75.

1周龙祥,陆玉芹.高中历史唯物史观素养培养路径刍议[J].中学历史教学,2020(9):22-23.
2王子焱,王荣,佘瑞宁,代璐,范金茹.数据挖掘分析名老中医治疗冠心病心绞痛研究概述[J].中国中医药信息杂志,2020,27(10):136-140. 被引量：16
3赵烜.民航订座需求预测算法综述[J].软件导刊,2020,19(11):279-281. 被引量：1
4赵继东,侯庆.基于TOA算法的UWB的室内定位系统设计[J].计算机科学与应用,2020,10(8):1437-1443. 被引量：4
5袁坤,霍力.视网膜OCT B-scan图像分割算法综述[J].半导体光电,2020,41(5):605-610.
6周小龙,刘倩倩,产思贤,陈胜勇.基于事件相机的视觉跟踪算法综述[J].小型微型计算机系统,2020,41(11):2325-2332. 被引量：7
7《中国电影市场》杂志社编辑部.《中国电影市场》征稿启事[J].中国电影市场,2020(10):63-63.
8朱亚楠,温广辉.权重平衡有向网络下分布式约束优化的连续时间算法设计[J].南京信息工程大学学报（自然科学版）,2020,12(5):549-555. 被引量：1

计算机应用研究

2020年第12期

浏览历史

内容加载中请稍等...

面向大数据的K-means算法综述被引量：16

参考文献7

二级参考文献226

共引文献1824

同被引文献196

引证文献16

二级引证文献91

相关作者

相关机构

相关主题

浏览历史

面向大数据的K-means算法综述 被引量：16

参考文献7

二级参考文献226

共引文献1824

同被引文献196

引证文献16

二级引证文献91

相关作者

相关机构

相关主题

浏览历史

面向大数据的K-means算法综述被引量：16