聚类算法综述被引量：98

General Overview on Clustering Algorithms

下载PDF

导出

摘要数据挖掘技术可以从大量数据中发现潜在的、有价值的知识,它给人们在信息时代所积累的海量数据赋予了新的意义。随着数据挖掘技术的迅速发展,作为其重要的组成部分,网格聚类技术已经被广泛应用于数据分析、图像处理、市场研究等许多领域。网格聚类算法研究已经成为数据挖掘研究领域中非常活跃的一个研究课题。介绍了数据挖掘理论,对网格聚类算法进行了深入的分析研究。在研究了传统网格聚类算法的基础上,提出了一些改进的网格聚类算法,这些算法相比传统网格聚类算法有更好的聚类质量和效率。在分析了传统的多密度聚类算法的基础上,提出了基于网格的多密度聚类算法(Grid-based Clustering Algorithm for Multi-density)[1],该算法主要采用密度阈值递减的多阶段聚类技术提取不同密度的聚类,同时对聚类结果进行了人工干预。研究结果表明,基于网格的多密度聚类算法不仅能够对数据集进行正确的聚类,同时还能有效地弥补孤立点检测,有效地解决了传统多密度聚类算法不能有效识别孤立点和噪声的缺陷。基于网格的多密度聚类算法比传统的共享近邻SNN算法精度高,适合于均匀密度数据集、大部分多密度数据集,并且可以发现任意形状的聚类,对噪声数据和数据输入顺序不敏感,但对小部分多密度数据集的聚类结果不理想[1]。 Data mining techniques can be used to find out potential and useful knowledge from the vast amount of data,and it plays a new significant role to the stored data in the info-times.With the rapid development of the data mining techniques,the technique of grid clustering,as important parts of data mining,are widely applied to the fields such as pattern recognition,data analysis,image processing,and market research.Research on grid clustering algorithms has become a highly active topic in the data mining research.In this thesis,the author presented the theory of data mining,and deeply analyzes the algorithms of grid clustering.Based on the analysis of traditional grid clustering algorithms,we advanced some improved grid clustering algorithms that can enhance the quality and efficiency of grid clustering compared with the traditional grid clustering algorithms.Based on the analysis of traditional algorithms for multi-density,we advanced a grid-based clustering algorithm for multi-density(GDD).The GDD is a kind of the multi-stage clustering that integrates grid-based clustering,the technique of density threshold descending and border points extraction.As shown in the research,GDD algorithm can not only clusters correctly but find outliers in the dataset,and it effectively solves the problem that traditional grid algorithms can cluster only or find outliers only.The precision of GDD algorithm is better than that of SNN.The GDD algorithm works well for even density dataset and lots of multi-density datasets;it can discover clusters of arbitrary shapes;it isn't sensitive to the input order of noises and outliers data,but it is imperfect to cluster on some multi-density datasets.

作者伍育红

机构地区重庆邮电大学移通学院

出处《计算机科学》 CSCD 北大核心 2015年第S1期491-499 524,共10页 Computer Science

关键词网格聚类密度阈值递减多阶段聚类 Grid clustering,Density threshold descending,Multi-stage clustering

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1Ng R,Han J.Efficient and Effective Clustering Methods for Spatial Data Mining. Proc. 1994 Int. Conf. Very Large Data Bases (VLDB’ 94) . 1994
2Zhang T,Ramakrishnan R,Livny M.BIRCH: An efficient data clustering method for very large databases[].Proceedings of ACM-SIGMOD International Conference on Management of Data.1996
3Chen M S.Data mining:an overview from database perspective[].IEEE Transactions on Knowledge and Data Engineering.1996
4Tan Pang-ning,Steinbach M.Introduction to Data Mining. . 2010
5Chen Y,Tu L.Density-Based Clustering for Real-Time Stream Data. Proceedings of the 13th ACM SIGKDD International Conference of Knowledge Discovery and Data Mining . 2009
6Spivak G.Victory in Limbo:Imagism. . 2010

共引文献4

1海沫.大数据聚类算法综述[J].计算机科学,2016,43(S1):380-383. 被引量：38
2马林,丁勇.基于WEKA软件的图书馆数据挖掘研究[J].电脑知识与技术,2009,5(8X):6930-6932. 被引量：1
3孙巍.中药药理知识发现系统中关键技术的研究[J].大家健康（学术版）,2013(16):9-10.
4崔卫东.k-means算法研究[J].数字化用户,2013(11):121-121. 被引量：1

同被引文献795

1蔡涵鹏,胡浩炀,吴庆平,王军,李志鹏.基于叠前地震纹理特征的半监督地震相分析[J].石油地球物理勘探,2020(3):504-509. 被引量：12
2唐议,赵丽华.我国海洋渔业捕捞限额制度实施试点评析与完善建议[J].水产学报,2021,45(4):613-620. 被引量：12
3林志方.试论电力通信网运维的信息化与电子化[J].计算机产品与流通,2020(9):63-63. 被引量：7
4王笑风,毛海臻,杨博,侯明业.基于深度学习LSTM网络的沥青路面性能预测研究[J].公路交通科技（应用技术版）,2020(8):4-7. 被引量：5
5封春升,王莉莉,杨跃东.基于视域剔除和图像缓存技术的复杂场景快速绘制方法[J].系统仿真学报,2006,18(z1):94-98. 被引量：7
6张繁昌,刘杰,印兴耀,杨培杰.修正柯西约束地震盲反褶积方法[J].石油地球物理勘探,2008,43(4):391-396. 被引量：37
7向培素.聚类算法综述[J].西南民族大学学报（自然科学版）,2011,37(S1):112-114. 被引量：14
8孙昌思核,孔万增,戴国骏.一种自动确定类个数的谱聚类算法[J].杭州电子科技大学学报（自然科学版）,2010,30(2):53-56. 被引量：5
9邢军,陈军,吴井生,杨剑波.小梅山猪种质特性保存与利用的研究进展[J].中国猪业,2013,8(S1):79-81. 被引量：1
10张万山,肖瑶,梁俊杰,余敦辉.基于主题聚类的Web资源个性化推荐研究[J].微电子学与计算机,2015,32(4):35-39. 被引量：6

引证文献98

1刘英林,陈玉柱,丁文静,程红云.钢卷表面缺陷分布特征发现方法研究[J].冶金自动化,2020,44(1):27-31. 被引量：2
2张莉曼,张向先,卢恒,张玲.知识直播平台付费用户群体画像研究[J].图书情报工作,2019,63(5):84-91. 被引量：20
3许合利,牛丽君.基于层次与密度的任意形状聚类算法[J].计算机工程,2016,42(7):159-164. 被引量：8
4谢毓湘,栾悉道,郭延明,李琛,牛晓.基于聚类的视频专题演化分析方法[J].计算机科学,2016,43(7):62-66.
5李卓航.一种改进的CLTree算法[J].电信科学,2016,32(8):124-127.
6张晓民,张枫,刘黎明.一种基于代表点质量的万有引力聚类算法[J].南开大学学报（自然科学版）,2016,49(4):8-15.
7雷东,王韬,赵建鹏,马云飞.面向比特流的未知协议识别与分析技术综述[J].计算机应用研究,2016,33(11):3206-3210. 被引量：4
8姚奥,张宇.一种优化的K-Means聚类算法[J].工业控制计算机,2016,29(11):120-121. 被引量：3
9胡人远,张之明.基于混合粒子群和蚁群算法融合的聚类算法[J].武警工程大学学报,2016,32(6):15-19.
10张杰,齐官红,叶蓬,陈益.基于PCA的关键帧相似度核聚类检索算法[J].控制工程,2017,24(4):728-735. 被引量：5

二级引证文献413

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2陈新宇,唐沉,郑超琦,刘英林,陈玉柱,张超.基于贝叶斯网络的钢铁缺陷溯源方法[J].冶金自动化,2022,46(S01):52-55.
3李娜,吴凯萍.基于POI数据的城市功能区识别与分布特征研究[J].遥感技术与应用,2022,37(6):1482-1491. 被引量：6
4李江华,杨国斌,张援农,姜春华,刘桐辛.基于FPGA+ARM的电离层斜向探测系统设计[J].太赫兹科学与电子信息学报,2021,19(4):678-683. 被引量：2
5于振玺,朱旭.抖音平台文创产品消费群体画像研究[J].新媒体研究,2022,8(2):50-53. 被引量：1
6冯建英,王博,吴丹丹,穆维松,田东.用户画像技术与其在农业领域应用研究进展[J].农业机械学报,2021,52(S01):385-395. 被引量：6
7何行,刘旺根,何珊,赵振涵.支线航空网络节点的聚类与关键节点识别[J].舰船电子工程,2023,43(1):101-105.
8梁胜彬,朱斌,渠慎明.一种基于FOA与Autoencoder改进的聚类算法[J].河南大学学报（自然科学版）,2020,0(1):70-79.
9佐磊,胡小敏,何怡刚,孙洪凯,李兵.小样本数据处理的加速寿命预测方法[J].电子测量与仪器学报,2020,32(11):26-32. 被引量：8
10刘晓琳,孙晓璐.基于改进麻雀算法的机场跑道胶痕检测方法[J].电子测量技术,2023,46(14):162-173.

1张西芝,姬波,邱保志.基于网格的多密度聚类算法[J].微计算机信息,2005,21(12X):101-103. 被引量：7
2夏英,李克非,丰江帆.基于网格梯度的多密度聚类算法[J].计算机应用研究,2008,25(11):3278-3280. 被引量：4
3周悦来,谭建豪.基于网格和信息熵的多密度聚类算法[J].计算机系统应用,2011,20(10):189-192. 被引量：3
4刘敏娟,柴玉梅.基于网格的共享近邻聚类算法[J].计算机应用,2006,26(7):1673-1675. 被引量：7
5刘馨月,李静伟,于红,尤全增,林鸿飞.基于共享近邻的自适应谱聚类[J].小型微型计算机系统,2011,32(9):1876-1880. 被引量：15
6张胜.谱聚类在图像识别中的应用[J].安徽电子信息职业技术学院学报,2014,13(2):16-19.
7潘章明,陈尹立.基于共享反K近邻的局部离群点检测算法[J].计算机仿真,2013,30(2):269-273. 被引量：7
8文平,冷明伟,陈晓云.基于主动数据选取的半监督聚类算法[J].计算机应用研究,2012,29(8):2841-2844.
9潘章明,陈尹立.面向大数据集的共享近邻聚类研究[J].小型微型计算机系统,2014,35(1):50-54. 被引量：5
10赵双柱.SCMDFC算法研究与应用[J].网络安全技术与应用,2014(4):85-86.

计算机科学

2015年第S1期

浏览历史

内容加载中请稍等...

聚类算法综述被引量：98

参考文献6

共引文献4

同被引文献795

引证文献98

二级引证文献413

相关作者

相关机构

相关主题

浏览历史

聚类算法综述 被引量：98

参考文献6

共引文献4

同被引文献795

引证文献98

二级引证文献413

相关作者

相关机构

相关主题

浏览历史

聚类算法综述被引量：98