面向混合属性的高效聚类算法研究

Research on Efficient Clustering Algorithm for Mixed Attributes

下载PDF

导出

摘要将夹角余弦的概念推广到混合属性的数据,提出了一种基于相似度的聚类方法CABMS,同时给出了一种计算聚类阈值的简单有效的策略。有关CABMS数据库的大小,属性个数具有近似线性时间复杂度,使得聚类方法CABMS具有好的扩展性。实验结果表明,CABMS可产生高质量的聚类结果。 The cosine is generalized to data with mixed attributes and a clustering algorithm based on the rule of maximum similarity, named CABMS, is presented in this paper. At the same time, a simple and effective strategy to calculate cluster threshold is put forward. The clustering algorithm CABMS has the nearly linear time complexity with the size of dataset and the number of attributes, which results in good scalability. The experimental results show that the CABMS creates high quality cluster.

作者蒋盛益阮幼林李庆华

机构地区广东外语外贸大学信息学院武汉理工大学信息工程学院华中科技大学计算机学院

出处《计算机工程》 EI CAS CSCD 北大核心 2006年第12期47-49,共3页 Computer Engineering

基金国家自然科学基金资助项目(60273075)

关键词相似度聚类数据挖掘 Similarity Clustering Data mining

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1Guha S,Rastogi R,Shim K.ROCK:A Robust Clustering Algorithm for Categorical Attributes[C].Proceedings of the 15th International Conference Data Engineering,Sydney,Australia,1999:512-521.
2何增有,徐晓飞,邓胜春.Squeezer：An Efficient Algorithm for Clustering Categorical Data[J].Journal of Computer Science & Technology,2002,17(5):611-624. 被引量：32
3Guha S,Meyerson A,Mishra N,et al.Clustering Data streams:Theory and Practice[J].IEEE Transactions on Knowledge and Data Engineering,2003,15(3):515-528.
4Portnoy L,Eskin L,Stolfo S.Intrusion Detection with Unlabeled Data Using Clustering[C].Proceedings of ACM CSS Workshop on Data Mining Applied to Security,Philadelphia,PA,2001.
5Huang Zhexue.A Fast Clustering Algorithm to Cluster Very Large Categorical Data Sets in Data Mining[C].Proc.of SIGMOD Workshop on Research Issues on Data Mining and Knowledge Discovery,1997.
6Merz C J,Merphy P.UCI Repository of Machine Learning Databases[EB/OL].http://www.ics.uci.edu/ mlearn/ MLRRepository.Html,1999.

二级参考文献17

1Sudipto Guha, Rajeev Rastogi, Kyuseok Shim. ROCK: A robust clustering algorithm for categorical attributes. In Proc. 1999 Int. Conf. Data Engineering, Sydney, Australia, Mar., 1999, pp.512-521.
2Alexandros Nanopoulos, Yannis Theodoridis, Yannis Manolopoulos. C2P: Clustering based on closest pairs. In Proc. 27th Int. Conf. Very Large Database, Rome, Italy, September, 2001, pp.331-340.
3Ester M, Kriegel H P, Sander J, Xu X. A density-based algorithm for discovering clusters in large spatial databases.In Proc. 1996 Int. Conf. Knowledge Discovery and Data Mining (KDD'96), Portland, Oregon, USA, Aug., 1996,pp.226-231.
4Zhang T, Ramakrishnan R, Livny M. BIRTH: An efficient data clustering method for very large databases. In Proc.the ACM-SIGMOD Int. Conf. Management of Data, Montreal, Quebec, Canada, June, 1996, pp.103-114.
5Sudipto Guha, Rajeev Rastogi, Kyuseok Shim. CURE: A clustering algorithm for large databases. In Proc. the ACM SIGMOD Int. Conf. Management of Data, Seattle, Washington, USA, June, 1998, pp.73-84.
6Karypis G, Han E-H, Kumar V. CHAMELEON: A hierarchical clustering algorithm using dynamic modeling. IEEE Computer, 1999, 32(8): 68-75.
7Sheikholeslami G, chatterjee S, Zhang A. WaveCluster: A multi-resolution clustering approach for very large spatial databases. In Proc. 1998 Int. Conf. Very Large Databases, New York, August, 1998, pp.428-439.
8Agrawal R, Gehrke J, Gunopulos D, Raghavan P. Automatic subspace clustering of high dimensional data for data mining applications. In Proc. the 1998 ACM SIGMOD Int. Conf. Management of Data, Seattle, Washington,USA, June, 1998, pp.94-105.
9Jiang M FI Tseng S S, Su C M. Two-phase clustering process for outliers detection. Pattern Recognition Letters,2001, 22(6/7): 691-700.
10Venkatesh Ganti, Johannes Gehrke, Raghu Ramakrishnan. CACTUS-clustering categorical data using summaries.In Proc. 1999 Int. Conf. Knowledge Discovery and Data Mining, August, 1999, pp.73-83.

共引文献31

1卓琳,赵厚宇,詹思延.异常检测方法及其应用综述[J].计算机应用研究,2020,37(S01):9-15. 被引量：25
2蒋盛益,李庆华.一种基于引力的聚类方法[J].计算机应用,2005,25(2):286-288. 被引量：9
3蒋盛益,李庆华.聚类分析中的差异性度量方法研究[J].计算机工程与应用,2005,41(11):146-149. 被引量：4
4蒋盛益,李庆华,李新.数据流挖掘算法研究综述[J].计算机工程与设计,2005,26(5):1130-1132. 被引量：21
5蒋盛益,李庆华,王卉,孟中楼.一种基于聚类的有指导的入侵检测方法[J].小型微型计算机系统,2005,26(6):1042-1045. 被引量：6
6蒋盛益,李庆华,赵延喜.一种两阶段异常检测方法[J].小型微型计算机系统,2005,26(7):1237-1240. 被引量：7
7蒋盛益,李庆华.基于引力的入侵检测方法[J].系统仿真学报,2005,17(9):2202-2206. 被引量：6
8郝凯,朱敏.有源雷达组网目标定位中去除虚假目标的改进方法[J].四川大学学报（自然科学版）,2006,43(2):315-319. 被引量：4
9蒋盛益.基于投票机制的融合聚类算法[J].小型微型计算机系统,2007,28(2):306-309. 被引量：7
10李岩,王惠文,叶明.数据流分析与技术研究[J].计算机工程与应用,2008,44(15):8-11. 被引量：6

1孙晓霞,刘晓霞,谢倩茹.模糊C-均值(FCM)聚类算法的实现[J].计算机应用与软件,2008,25(3):48-50. 被引量：34
2王静.基于网络日志的用户查询推荐[J].河南科技,2016,35(7):50-51. 被引量：1
3蒋盛益,李庆华.一种基于引力的聚类方法[J].计算机应用,2005,25(2):286-288. 被引量：9
4李金广,刘家磊.基于最近邻思想的K-均值算法[J].中国科技信息,2011(17):49-50.
5柳炳祥,贾建华,汤可宗,徐星.基于重采样策略的选择性谱聚类集成学习算法[J].科学技术与工程,2013,21(19):5536-5542.
6张丽娜,周润景,那日苏.基于黄金分割法的ISODATA算法的大样本特征数据提取方法[J].内蒙古大学学报（自然科学版）,2013,44(1):93-96. 被引量：2
7王照平,郭士勇.基于消息循环的单片机编程方法[J].电子技术（上海）,2001,28(11):63-64. 被引量：2
8崔晓斐.Web2.0在高校图书馆信息服务中的应用[J].电子商务,2014,15(10):60-62.
9谢煜,陆鑫达.可编程软硬件系统的综合设计方法[J].计算机工程与应用,1998,34(3):51-54. 被引量：1
10姚姗姗.云计算≠“烧钱”+“圈地”[J].软件和信息服务,2012(2):22-23.

计算机工程

2006年第12期

浏览历史

内容加载中请稍等...

面向混合属性的高效聚类算法研究

参考文献6

二级参考文献17

共引文献31

相关作者

相关机构

相关主题

浏览历史