大规模数据集聚类算法的研究进展被引量：9

A review on clustering algorithms for large-scale data sets

下载PDF

导出

摘要聚类是机器学习领域的一个重要研究方向,在过去几十年间,针对不同类型中小规模数据集聚类算法的研究取得了很大的进展,许多行之有效的算法先后问世.然而,这些算法在处理大规模数据集时,计算复杂度较高,处理高维数据的能力较弱,难以获得令人满意的效果.随着大数据时代的到来,数据的采集和存储变得相对容易和便捷,但数据量也与日俱增,因此,针对各种实际应用的聚类问题应运而生,使得专门针对大规模数据集的聚类算法研究成为当前机器学习领域的重要任务之一.本文以大规模数据集的可计算性为切入点,对目前串行和并行计算环境下专门用于处理大规模数据集的聚类算法进行综述和分析,重点评述了串行计算环境下基于样例选择、增量学习、特征子集和特征转换的聚类算法以及并行计算环境下基于MapReduce、Spark和Storm框架的聚类算法,给出了有关未来大规模数据集聚类算法设计思路与应用前景的思考和讨论,包括基于数据并行和训练过程自动化的聚类算法设计策略及关于社交网络大数据聚类算法的若干理解. Clustering is an important research branch of machine learning.In the past decades,many well-known clustering algorithms have been designed to handle the clustering problems of small-scale and medium-scale data sets.Although these algorithms have obtained the good clustering performances,they are usually inefficient when dealing with the clustering tasks of large-scale data sets due to the high computation complexity and weak capability of handling the high-dimensional data.In the age of big data,the collection and storage of data become easier and more convenient.The clustering technologies are desperately needed to satisfy the requirements of real applications which generate a great deal of large-scale data sets.Thus,the clustering for large-scale data sets becomes an important research direction in the field of machine learning.In this paper,the current clustering algorithms are reviewed and analyzed for large-scale data sets under both the sequential clustering algorithms based on instance selection,incremental learning,feature subset and feature transformation and the parallel clustering algorithms based on MapReduce,Spark and Storm computational frameworks,respectively.Unlike the existing literature reviews,we focus on the computability of large-scale data sets.Meanwhile,we provide some new thoughts for the designs and applications of clustering algorithms for large-scale data sets,including the design strategies of clustering algorithms based on data parallelization,automation of training process,and some understandings of clustering algorithms for large-scale data in social networks.

作者何玉林黄哲学 HE Yulin;HUANG Zhexue(College of Computer Science and Software Engineering,Shenzhen University,Shenzhen 518060,Guangdong Province,P.R.China;National Engineering Laboratory for Big Data System Computing Technology,Shenzhen University,Shenzhen 518060,Guangdong Province,P.R.China)

机构地区深圳大学计算机与软件学院深圳大学大数据系统计算技术国家工程实验室

出处《深圳大学学报（理工版）》 EI CAS CSCD 北大核心 2019年第1期4-17,共14页 Journal of Shenzhen University(Science and Engineering)

基金国家重点研发计划资助项目(2017YFC0822604-2) 国家自然科学基金资助项目(61503252 61473194) 中国博士后科学基金资助项目(2016T90799) 深圳大学新引进教师科研启动资助(2018060)~~

关键词人工智能大规模数据聚类串行计算并行计算数据挖掘综述 artificial intelligence large-scale data clustering sequential computing parallel computing data mining review

分类号 TP311 [自动化与计算机技术—计算机软件与理论] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献41

1蒋盛益,庞观松,张建军.基于聚类的垃圾邮件识别技术研究[J].山东大学学报（理学版）,2011,46(5):71-76. 被引量：2
2周小明,苏安龙,杨宏宇.基于K-Means聚类算法的行业用电行为分析[J].电气应用,2015,34(S1):178-182. 被引量：8
3陈宁,陈安,周龙骧.数值型和分类型混合数据的模糊K-Prototypes聚类算法(英文)[J].软件学报,2001,12(8):1107-1119. 被引量：47
4纪良浩.基于密度偏差抽样的聚类算法研究[J].重庆邮电大学学报（自然科学版）,2007,19(6):729-732. 被引量：2
5胡彩平,秦小麟.一种改进的基于密度的抽样聚类算法[J].中国图象图形学报,2007,12(11):2031-2036. 被引量：4
6张驹,黄汉永,肖杰.一种基于Hash函数抽样的数据流聚类算法[J].计算机系统应用,2009,18(3):73-75. 被引量：3
7邱云飞,孙梦冉.基于差异性采样的流数据聚类算法[J].计算机应用研究,2019,36(6):1646-1651. 被引量：3
8王秀华.基于随机抽样的加速K-均值聚类方法[J].计算机与现代化,2013(12):27-29. 被引量：7
9罗军锋,洪丹丹.基于数据抽样的自动k-means聚类算法[J].现代电子技术,2014,37(8):19-21. 被引量：4
10徐新华,谢永红.增量聚类综述及增量DBSCAN聚类算法研究[J].华北航天工业学院学报,2006,16(2):15-17. 被引量：5

二级参考文献479

1李宏明.基于多元统计分析的地方高校课堂教学质量评价——以台州学院为例[J].台州学院学报,2010,32(3):77-80. 被引量：4
2崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
3江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
4周强,陈岭,马骄阳,赵宇亮,吴勇,王敬昌.基于改进DPhyp算法的Impala查询优化[J].计算机研究与发展,2013,50(S2):114-120. 被引量：3
5李洁,高新波,焦李成.一种基于GA的混合属性特征大数据集聚类算法[J].电子与信息学报,2004,26(8):1203-1209. 被引量：9
6张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
7金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,15(8):1172-1181. 被引量：161
8马帅,唐世渭,杨冬青,王腾蛟.一种用于位置数据库结构调整的增量聚类算法[J].软件学报,2004,15(9):1351-1360. 被引量：5
9黄永平,邹力鹍.数据仓库中基于密度的批量增量聚类算法[J].计算机工程与应用,2004,40(29):206-208. 被引量：9
10周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42

共引文献548

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2邢春燕.大规模数据集聚类算法的研究进展分析[J].花炮科技与市场,2020(2):4-4.
3梁胜彬,朱斌,渠慎明.一种基于FOA与Autoencoder改进的聚类算法[J].河南大学学报（自然科学版）,2020,0(1):70-79.
4王鸿玺,李飞,林志文,罗义钊,梁海涛,胡建新.基于IK-means的用电行为研究[J].国外电子测量技术,2020,39(1):54-58. 被引量：5
5张亚迪,李俊山,胡双演.类模糊C均值聚类的关键帧提取算法[J].微电子学与计算机,2009,26(2):89-92. 被引量：6
6许云峰,张妍,赵铁军.基于云计算的商业情报采集系统[J].河北科技大学学报,2012,33(2):161-165. 被引量：7
7桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：21
8张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
9原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
10王少锋,伍少成,刘涛,邓琨,黄兵.对Hadoop的用电信息大数据计算服务应用分析[J].自动化与仪器仪表,2016(4):221-222. 被引量：6

同被引文献93

1赵希男,刘炳东,许慧敏.竞优思想及其对人类进步的作用分析[J].科学技术与辩证法,2006,23(2):32-35. 被引量：30
2赵希男,王奇,朱春红.一种基于目标界定的客观识别个性特征的方法[J].系统工程理论方法应用,2006,15(5):459-466. 被引量：40
3贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：225
4陈黎飞,姜青山,王声瑞.基于层次划分的最佳聚类数确定方法[J].软件学报,2008,19(1):62-72. 被引量：82
5赵玉艳,郭景峰,郑丽珍,李晶.一种改进的BIRCH分层聚类算法[J].计算机科学,2008,35(3):180-182. 被引量：15
6王学勇,邵勇,王玉石.定点停靠公交站的服务效率与停靠能力研究[J].交通标准化,2010,38(11):202-205. 被引量：8
7冯晓蒲,张铁峰.四种聚类方法之比较[J].微型机与应用,2010,29(16):1-3. 被引量：36
8周爱武,于亚飞.K-Means聚类算法的研究[J].计算机技术与发展,2011,21(2):62-65. 被引量：134
9刘晓勇,付辉.一种快速AP聚类算法[J].山东大学学报（工学版）,2011,41(4):20-23. 被引量：20
10周林,平西建,徐森,张涛.基于谱聚类的聚类集成算法[J].自动化学报,2012,38(8):1335-1342. 被引量：62

引证文献9

1赵玉明,舒红平,魏培阳,刘魁.基于Spark的聚类算法优化与实现[J].现代电子技术,2020,43(8):52-55. 被引量：1
2张海华,李楠楠.基于大数据K-means聚类算法的在线学习行为路径的研究[J].电子设计工程,2020,28(12):17-20. 被引量：13
3杨锴,周岩.外引内联型科研团队创新能力纵向匹配研究[J].科技进步与对策,2020,37(11):145-152. 被引量：1
4纪汉霖,李兆信.多种聚类算法性能的比较分析[J].计算机技术与发展,2020,30(8):14-21. 被引量：11
5柴变芳,李有熠.基于Spark的主动重叠K-means聚类算法[J].微电子学与计算机,2021,38(1):70-76. 被引量：6
6符春.大数据平台聚类分析系统的设计[J].电子技术与软件工程,2022(13):202-205. 被引量：1
7黄乐成,陈超,韩存鑫,赵彬.基于改进K-means的大气污染物高维度信息研究[J].实验室研究与探索,2022,41(9):135-139.
8黄洪滔,肖梅,刘倩,明秀玲,边浩毅.基于GPS数据的公交站运行状态分析[J].深圳大学学报（理工版）,2023,40(3):326-334. 被引量：2
9崔喜贺,魏艳东.智慧安全用电管理系统的开发[J].上海电气技术,2023,16(2):15-19. 被引量：1

二级引证文献36

1吴安迪,蒋文明.基于数据挖掘的《景岳全书·血证》用药规律分析[J].中药药理与临床,2022,38(1):201-206. 被引量：2
2徐送宁,孙树滋.N^+注入Ag薄膜晶体生长机制的研究[J].沈阳工业学院学报,2000,19(1):8-11.
3王婷,翟翼.基于K-means聚类算法在线学习行为路径的研究[J].通讯世界,2020,27(8):109-110.
4宋龙虎.基于大数据技术的网络资源管理系统设计[J].信息工程大学学报,2020,21(6):747-751. 被引量：5
5刘传波.基于情报大数据的目标活动规律分析[J].舰船电子工程,2021,41(3):37-41. 被引量：1
6沈子垚,袁晓玲.基于并行化K-means的综合能源服务客户识别[J].电力工程技术,2021,40(2):107-113. 被引量：6
7刘易,陈芳芳,解海翔,盖佳郇,徐天奇.基于弹性冲击波技术的输电杆塔螺栓快速检测及定位诊断[J].电子设计工程,2021,29(13):87-90. 被引量：1
8胡媛,李美玉,栾庆玲,吴安东.青年科研人员情感负荷影响因素模型构建[J].科学学研究,2021,39(10):1821-1831. 被引量：7
9徐天成,吴敏,贺冬仙,郑志安,徐辉煌,包金青.机器视觉在农业工程中的应用[J].农业工程,2021,11(8):40-48. 被引量：8
10胡春安,王家欣,毛伊敏.基于分组和IGSA的并行密度聚类算法[J].计算机应用研究,2021,38(11):3293-3299. 被引量：4

1敖成凯.从学习微积分的角度浅谈导数的学习[J].双语学习,2018,0(10):83-83.
2范忆.尊重儿童无问中外——对中新同行交流问题的思考[J].早期教育（幼教·教育教学）,2018(12):18-19.
3翟俊海,张素芳,王聪,沈矗,刘晓萌.基于MapReduce的大数据主动学习[J].计算机应用,2018,38(10):2759-2763. 被引量：5
4刘洪通,冯百明,温向慧,车翔飞.基于Storm的AQI实时预测模型[J].计算机工程与设计,2019,40(1):296-301. 被引量：3
5翟俊海,郝璞,王婷婷,张明阳.MapReduce并行化压缩近邻算法[J].小型微型计算机系统,2017,38(12):2678-2682. 被引量：1
6依吨.中小规模生猪养殖成本分析[J].中国畜禽种业,2019,15(1):115-115. 被引量：2
7张素芳,翟俊海,王婷婷,郝璞,王聪,赵春玲.基于Spark的压缩近邻算法[J].计算机科学,2018,45(B06):406-410. 被引量：2
8王沛佩.摄像头在校园中的应用探究[J].通讯世界,2019,26(1):220-221.
9施闯,王成,张涛.基于超算的全球电离层模型快速并行解算[J].武汉大学学报（信息科学版）,2018,43(12):2093-2098. 被引量：2
10韩菲,李炜.CPU与GPU的计算性能对比[J].电子技术与软件工程,2019(1):125-126. 被引量：3

深圳大学学报（理工版）

2019年第1期

浏览历史

内容加载中请稍等...

大规模数据集聚类算法的研究进展被引量：9

参考文献41

二级参考文献479

共引文献548

同被引文献93

引证文献9

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

大规模数据集聚类算法的研究进展 被引量：9

参考文献41

二级参考文献479

共引文献548

同被引文献93

引证文献9

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

大规模数据集聚类算法的研究进展被引量：9