一种改进的CURE聚类算法被引量：4

An Improved Clustering Approach of CURE

下载PDF

导出

摘要聚类分析是数据挖掘领域的一个重要研究方向。已经有多种用于大规模数据库的聚类算法,CURE就是一个典型的代表。本文对CURE进行了改进,新方法用多点表示一个类,但舍弃了代表点收缩的过程;通过对类内最邻近距离统计特征的分析,提出了自动分离子类的方法,因而不用预先给定聚类个数;在CURE对原始数据进行随机采样和分区聚类的基础上,增加了划分网格一步,能降低噪声影响并缩短聚类时间。对二维数据的测试表明:改进的CURE能正确识别大多数类,速度上优于原算法。 Clustering is an important tool of Data Mining. CURE is a classical hierarchical method that is designed for the mining of very large database. In this paper, CURE is improved in three aspects. We use several representatives to figure a cluster but abandon the shrinking process. After analyzing the statistical characteristics of a cluster＇s 1-DIST, we present a new cluster isolating criterion which can automatically determine the number of clusters. We add grid method together with the CURE＇s sampling and partitioning technique to deal with the original data. The grid method can not only dampen the impact of noise but also reduce the time needed for clustering. Experiments on 2-dimcnsion datasets show that the improved CURE outperformed CURE in speed and the ability of discover arbitrary clusters with shapes.

作者郭俊樊彦国

机构地区石油大学(华东)资源与信息学院

出处《内蒙古石油化工》 CAS 2005年第8期12-15,共4页 Inner Mongolia Petrochemical Industry

关键词数据挖掘层次聚类代表对象聚类算法大规模数据库聚类分析统计特征自动分离随机采样原始数据 data mining, hierarchical clustering, representative objects, CURE

分类号 TP391.41 [自动化与计算机技术—计算机应用技术] TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1周水庚,周傲英,曹晶,胡运发.一种基于密度的快速聚类算法[J].计算机研究与发展,2000,37(11):1287-1292. 被引量：89
2钱卫宁,周傲英.从多角度分析现有聚类算法(英文)[J].软件学报,2002,13(8):1382-1394. 被引量：86

二级参考文献40

1[1]Fasulo, D. An analysis of recent work on clustering algorithms. Technical Report, Department of Computer Science and Engineering, University of Washington, 1999. http://www.cs.washington.edu.
2[2]Baraldi, A., Blonda, P. A survey of fuzzy clustering algorithms for pattern recognition. IEEE Transactions on Systems, Man and Cybernetics, Part B (Cybernetics), 1999,29:786～801.
3[3]Keim, D.A., Hinneburg, A. Clustering techniques for large data sets - from the past to the future. Tutorial Notes for ACM SIGKDD 1999 International Conference on Knowledge Discovery and Data Mining. San Diego, CA, ACM, 1999. 141～181.
4[4]McQueen, J. Some methods for classification and Analysis of Multivariate Observations. In: LeCam, L., Neyman, J., eds. Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. 1967. 281～297.
5[5]Zhang, T., Ramakrishnan, R., Livny, M. BIRCH: an efficient data clustering method for very large databases. In: Jagadish, H.V., Mumick, I.S., eds. Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data. Quebec: ACM Press, 1996. 103～114.
6[6]Guha, S., Rastogi, R., Shim, K. CURE: an efficient clustering algorithm for large databases. In: Haas, L.M., Tiwary, A., eds. Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data. Seattle: ACM Press, 1998. 73～84.
7[7]Beyer, K.S., Goldstein, J., Ramakrishnan, R., et al. When is 'nearest neighbor' meaningful? In: Beeri, C., Buneman, P., eds. Proceedings of the 7th International Conference on Data Theory, ICDT'99. LNCS1540, Jerusalem, Israel: Springer, 1999. 217～235.
8[8]Ester, M., Kriegel, H.-P., Sander, J., et al. A density-based algorithm for discovering clusters in large spatial databases with noises. In: Simoudis, E., Han, J., Fayyad, U.M., eds. Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining (KDD'96). AAAI Press, 1996. 226～231.
9[9]Ester, M., Kriegel, H.-P., Sander, J., et al. Incremental clustering for mining in a data warehousing environment. In: Gupta, A., Shmueli, O., Widom, J., eds. Proceedings of the 24th International Conference on Very Large Data Bases. New York: Morgan Kaufmann, 1998. 323～333.
10[10]Sander, J., Ester, M., Kriegel, H.-P., et al. Density-Based clustering in spatial databases: the algorithm GDBSCAN and its applications. Data Mining and Knowledge Discovery, 1998,2(2):169～194.

共引文献172

1刘英林,陈玉柱,丁文静,程红云.钢卷表面缺陷分布特征发现方法研究[J].冶金自动化,2020,44(1):27-31. 被引量：2
2毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
3李华,贾雪.基于FM度量的自适应K-Means聚类的工业生产运行基准挖掘[J].长春大学学报,2022,32(4):22-27.
4Qi Zhang,Jianshe Cao,Yanfeng Sui.Development of a research platform for BEPCⅡ accelerator fault diagnosis[J].Radiation Detection Technology and Methods,2020,4(3):269-276.
5郭景峰,赵玉艳,边伟峰,李晶.基于改进的凝聚性和分离性的层次聚类算法[J].计算机研究与发展,2008,45(z1):202-206. 被引量：15
6梁敏君,倪志伟,倪丽萍,杨葛钟啸.基于网格与分形维数的聚类算法[J].计算机应用,2009,29(3):830-832. 被引量：4
7周文勇.改进的K-均值聚类算法[J].光盘技术,2007(2):54-56. 被引量：6
8王海,王忠民.一种基于密度和网格的聚类算法在KDD中的应用[J].计算机工程与应用,2004,40(24):180-182. 被引量：3
9王建会,申展,胡运发.一种实用高效的聚类算法[J].软件学报,2004,15(5):697-705. 被引量：26
10周永权,焦李成.高属性维稀疏数据聚类回归逻辑神经网络模型及学习算法[J].电子学报,2004,32(8):1342-1345. 被引量：3

同被引文献22

1冯兴杰,黄亚楼.增量式CURE聚类算法研究[J].小型微型计算机系统,2004,25(10):1847-1849. 被引量：9
2倪维健,黄亚楼,李飞,刘赏.一种基于加权多代表点的层次聚类算法[J].计算机科学,2005,32(5):150-154. 被引量：5
3刘俊岭,孙焕良,王大玲,牛志成.一种优化的基于网格的聚类算法[J].小型微型计算机系统,2006,27(10):1927-1930. 被引量：6
4欧阳浩,肖建华.基于网格的最小生成树聚类算法[J].计算机与现代化,2006(12):81-82. 被引量：3
5蔡元萃,陈立潮.聚类算法研究综述[J].科技情报开发与经济,2007,17(1):145-146. 被引量：21
6刘敏娟,柴玉梅,张西芝.基于相似度的网格聚类算法[J].计算机工程与应用,2007,43(7):198-201. 被引量：12
7Lee M L, Lu Hongjun, Ling T W, et al. Cleansing Data for Mining and Warehousing[C]//Proc. of the 10th Int'l Conf. on Database and Expert Systems Applications. Florence, Italy: [s. n.], 1999:751-760.
8Liang Jin, Chen Li, Mehrotra S. Efficient Record Linkage in Large Data Sets[C]//Proc. of the 8th Int'l Conf. on Database Systems for Advanced Applications. Kyoto, Japan: [s. n.], 2003: 137-148.
9Hernandez M, Stolfo S. The Merge/Purge Problem for Large Databases[M]. New York, USA: ACM Press, 1995:127-138.
10Monge A E, Elkan C E An Efficient Domain-independent Algorithm for Detecting Approximately Duplicate Database Records[C]//Proc. of Workshop on Research Issues on Data Mining and Knowledge Discovery. Tucson, Arizona, USA: [s. n.], 1997: 23-29.

引证文献4

1董健康.数据挖掘中CURE聚类算法研究[J].电脑与电信,2007(4):14-15. 被引量：3
2时念云,张金明,褚希.基于CURE算法的相似重复记录检测[J].计算机工程,2009,35(5):56-58. 被引量：11
3庞春江,程伟想,牛为华.基于优化网格的最小生成树聚类算法[J].计算机应用与软件,2009,26(8):262-264.
4杨长春,周猛,叶施仁,徐小松.基于改进CURE算法的微博热点话题发现[J].计算机仿真,2013,30(11):383-387. 被引量：12

二级引证文献26

1周丽娟,肖满生.基于数据分组匹配的相似重复记录检测[J].计算机工程,2010,36(12):104-106. 被引量：6
2李佳.共词聚类分析法中的主要问题与对策[J].情报学报,2010,29(4):614-617. 被引量：33
3马翔.粒子群优化BP神经网络用于重复记录检测[J].辽宁工程技术大学学报（自然科学版）,2010,29(5):959-962. 被引量：4
4雷孝平,张旭,赵蕴华,郑佳.基于IRPU算法的专利数据相似重复属性及记录检测方法[J].现代图书情报技术,2010(12):46-51. 被引量：2
5吴庆辉,蔡海洋,吕精巧.基于改进型遗传神经网络的相似重复记录检测[J].计算机测量与控制,2011,19(5):1021-1023. 被引量：3
6蒋勇青,杨奕虹,杨贺.论数据清洗对信息检索质量的影响及清洗方法[J].中国索引,2012,10(1):16-20. 被引量：3
7赵妍,赵学民.基于CURE的用户聚类算法研究[J].计算机工程与应用,2012,48(11):97-101. 被引量：8
8刘明辉,周磊,谢婷婷,霍烁烁.基于CURE算法的电子装备时变误差分析[J].无线电工程,2012,42(7):40-43.
9陈芬.改进量子粒子群算法优化神经网络的数据库重复记录检测[J].计算机应用与软件,2014,31(3):20-21. 被引量：10
10王民,尹超,王稚慧,要趁红,高婧.Binary-Positive下的并行化CURE算法[J].计算机工程与应用,2014,50(11):58-61. 被引量：3

1郭俊,樊彦国.一种改进的CURE聚类算法[J].内蒙古石油化工,2005,31(4):14-17.
2王晓帆,王宝树,柴慧敏.一种基于属性-值树的求核与约简方法[J].西安电子科技大学学报,2010,37(6):1111-1118. 被引量：2
3罗春晔.知识表达与超文本[J].广西科学,1995,2(3):8-11.
4沈洁,赵雷,杨季文,李榕.一种基于划分的层次聚类算法[J].计算机工程与应用,2007,43(31):175-177. 被引量：13
5单蓉.文本聚类算法的比较研究[J].内江科技,2008,29(12):49-49. 被引量：1
6董健康.数据挖掘中CURE聚类算法研究[J].电脑与电信,2007(4):14-15. 被引量：3
7孙凌燕,杨明.一种基于密度的快速聚类算法的改进[J].太原师范学院学报（自然科学版）,2008,7(4):5-7.
8白迪,赵龙.数据挖掘在电力负荷预测中的应用[J].计算机与信息技术,2007(5):21-23. 被引量：4
9韦东兴,陈晓云,徐荣聪.一种基于形状特征的图像分类方法[J].微计算机信息,2010,26(21):220-222.
10冯兴杰,黄亚楼.增量式CURE聚类算法研究[J].小型微型计算机系统,2004,25(10):1847-1849. 被引量：9

内蒙古石油化工

2005年第8期

浏览历史

内容加载中请稍等...

一种改进的CURE聚类算法被引量：4

参考文献2

二级参考文献40

共引文献172

同被引文献22

引证文献4

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

一种改进的CURE聚类算法 被引量：4

参考文献2

二级参考文献40

共引文献172

同被引文献22

引证文献4

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

一种改进的CURE聚类算法被引量：4