BIRCH混合属性数据聚类方法被引量：3

Heterogeneous data clustering algorithm of BIRCH

下载PDF

导出

摘要数据聚类是数据挖掘中的重要研究内容。现实世界中的数据往往同时具有连续属性和离散属性,但现有大多数算法局限于仅处理其中一种属性,而对另一种采取简单舍弃的办法丢失聚类信息和降低聚类质量。一些能处理混合属性的算法又往往处理的属性过多,导致计算量的大增。提出了一种基于BIRCH算法的混合属性数据的聚类算法;在UCI数据集上的实验表明,文中提出的算法具有较好的性能。 Data clustering is an important issue in data mining.Many real-world data have both continuous attributes and categorical attributes,which are usually called heterogeneous attributes.However,most of the existing mining algorithms can manipulate only continuous attributes or categorical attributes.Simply omitting categorical or continuous attributes may lose important information about the data and decrease the mining quality.Some other algorithms which can manipulate continuous attributes and cate- gorical attributes have low efficiency,because of a lot of attributes.This paper proposes a novel approach for clustering data with heterogeneous features based on BIRCH.Experimental results on public data sets show that the proposed algorithm is robust.

作者李贤罗可

机构地区长沙理工大学计算机与通信学院

出处《计算机工程与应用》 CSCD 北大核心 2009年第30期123-125,共3页 Computer Engineering and Applications

基金国家自然科学基金No.10826099 No.10871031 湖南省科技计划项目基金No.2008FJ3015 湖南省教育厅科研项目基金No.07A001~~

关键词数据挖掘聚类 BIRCH算法混合属性 data mining clustering BIRCH algorithm heterogeneous attribute

分类号 TP31 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1Muthukrisbnan S.Data streams:Algorithms and apppication[M]. Hanover, MA, USA : Now Publishers Inc, 2005.
2Gaber M M,Zaslavsky A B,Krishnaswamy S.Mining data Streams: A review[J].SIGMOD Record, 2005,34(2 ) : 18-26.
3Kaufan L,Rousseeuw P J.Finding groups in data:An introduction to cluster analysis[M].New York:John Wiley&Sons, 1990.
4Han J W.Kambr M.Data mining concepts and techniques[M].Beijing:Higher Education Press,2001 : 145-176.
5Guha S,Rastogi R,Shim K.CURE:An efficient clustering alogorithm for large database[C]//Haas L M,Tiwary A.Proceedings of the ACM SIGMOD International Conference on Management of Data. Seattle : ACM Press, 1998 : 73-84.
6忻凌,倪志伟,黄玲.基于数据流的BIRCH改进聚类算法[J].计算机工程与应用,2007,43(5):166-168. 被引量：6
7蒋盛益,李霞.一种改进的BIRCH聚类算法[J].计算机应用,2009,29(1):293-296. 被引量：25
8杨春宇,周杰.一种混合属性数据流聚类算法[J].计算机学报,2007,30(8):1364-1371. 被引量：22
9Aggarwal C C,Han Jia-wei,Wang Jian-yong,et al.A framework for projected clustering of high dimensional data streams[C]//Proceedings of the 30th Inernational Conference on Very Large Data Bases, Toronto, Canada, 2004 : 852-863.

二级参考文献33

1蒋盛益,李庆华.聚类分析中的差异性度量方法研究[J].计算机工程与应用,2005,41(11):146-149. 被引量：4
2朱蔚恒,印鉴,谢益煌.基于数据流的任意形状聚类算法[J].软件学报,2006,17(3):379-387. 被引量：51
3HANJ,KAMBERM.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2006.
4ZHANG TIAN, RAMAKRISHNAN R, LIVNY M. BIRCH: An efficient data clustering method for very large databases[ J]. ACM SIGMOD Record, 1996, 25(2) : 103 - 114.
5HUANG ZHEXUE. Extensions to the k-means algorithm for clustering large data sets with categorical values[ J], Data Mining and Knowledge Discovery, 1998, 2(3) : 283 - 304.
6MACQUEEN J. Some methods for classification and analysis of multivariate observations[ C]// Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability. Berkeley: University of California Press, 1967, 1 : 281 - 297.
7HUANG ZHEXUE. A fast clustering algorithm to cluster very large categorical data sets in data mining[ C]// Proceedings of SIGMOD Workshop on Research Issues on Data Mining and Knowledge Discovery. [S. l ] : ACM Press, 1997:1 -8.
8MERZ C J, MERPHY P. UCI repository of machine learning databases[ EB/OL]. [ 2008 - 09 - 01 ]. http://www, ics. uci. edu/-mlearn/MLRRepository, html.
9Guha S,Mishra N,Motwani R,et al.Clustering data streams[C]//Proceedings of FOCS 2000,2000:359-366.
10Ordonez C.Clustering binary data streams with K-means[C]//Proceedings of DMKD'03,June 13,2003:12-19.

共引文献49

1万仁霞,王立新,刘振文.基于相异度矩阵的混合属性数据流聚类算法[J].计算机工程与应用,2008,44(25):149-151. 被引量：8
2张晓龙,曾伟.实时数据流聚类的研究新进展[J].计算机工程与设计,2009,30(9):2177-2181. 被引量：5
3李乐,陈鸿昶,李鹏.一种改进的基于密度的聚类算法[J].电子技术应用,2009,35(9):101-104. 被引量：2
4印桂生,于翔,宁慧.基于粗约简的数据流增量聚类算法[J].西南交通大学学报,2009,44(5):637-642. 被引量：2
5高强,宋双,刘翼光,黄昭婷,徐宏.商业智能在数字电影流动放映系统中的应用[J].现代电影技术,2010(3):24-28. 被引量：1
6黄德才,吴天虹.基于密度的混合属性数据流聚类算法[J].控制与决策,2010,25(3):416-421. 被引量：11
7付淇,黎虹,李广振.流数据聚类研究综述[J].科技广场,2010(1):237-240.
8苏晓珂,兰洋,秦玉明,程耀东.基于衰减模型的混合属性数据流离群检测[J].计算机科学,2010,37(5):157-161. 被引量：1
9毛健,倪云霞,陈佳.基于BIRCH的入侵检测算法[J].通信技术,2010,43(5):92-94. 被引量：1
10王利峰.动态索引树文本聚类方法中节点阀值的优化[J].电脑开发与应用,2010,23(9):62-65.

同被引文献22

1何登发,李德生.沉积盆地动力学研究的新进展[J].地学前缘,1995,2(3):53-58. 被引量：33
2朱映辉,江玉珍.BIRCH聚类算法优化及并行化研究[J].计算机工程与设计,2007,28(18):4345-4346. 被引量：9
3赵玉艳,郭景峰,郑丽珍,李晶.一种改进的BIRCH分层聚类算法[J].计算机科学,2008,35(3):180-182. 被引量：15
4万仁霞,王立新,刘振文.基于相异度矩阵的混合属性数据流聚类算法[J].计算机工程与应用,2008,44(25):149-151. 被引量：8
5蒋盛益,李霞.一种改进的BIRCH聚类算法[J].计算机应用,2009,29(1):293-296. 被引量：25
6刘金岭.k中心点聚类算法在层次数据的应用[J].计算机工程与设计,2008,29(24):6418-6419. 被引量：8
7苏锦旗,薛惠锋,詹海亮.基于划分的K-均值初始聚类中心优化算法[J].微电子学与计算机,2009,26(1):8-11. 被引量：33
8周迎春,骆嘉伟.一种改进的BIRCH聚类分析算法及其应用研究[J].湛江师范学院学报,2009,30(3):83-87. 被引量：6
9黄德才,吴天虹.基于密度的混合属性数据流聚类算法[J].控制与决策,2010,25(3):416-421. 被引量：11
10苏晓珂,兰洋,程耀东,万仁霞.可处理混合属性的任意形状聚类[J].计算机工程与应用,2010,46(34):136-139. 被引量：2

引证文献3

1曹丹阳,杨炳儒,李广原,刘英华.一种基于CF树的k-medoids聚类算法[J].计算机应用研究,2011,28(9):3260-3263. 被引量：3
2范海雄,刘付显,夏璐.基于改进GRC和集成技术的混合数据聚类算法[J].计算机工程与应用,2012,48(13):11-15.
3杨茜,吕杨,周俊山,张芮.BIRCH数据聚类算法优化研究及仿真分析[J].舰船电子工程,2024,44(4):115-118.

二级引证文献3

1王立国,马赫男,赵亮,石瑶.基于改进K_Medoids算法的高光谱图像聚类[J].哈尔滨工程大学学报,2018,39(9):1574-1581. 被引量：2
2邓滨玥.K均值优化算法综述[J].软件,2020,41(2):188-192. 被引量：12
3李汉巨.基于非监督学习的恶意欠费用电客户识别[J].信息技术,2019,43(3):33-36. 被引量：2

1徐峰.基于数据挖掘的网络交易系统的实现[J].科协论坛（下半月）,2008(5):68-68.
2张虎,陈建斌,魏欢.一种改进的BRICH算法及其应用[J].软件导刊,2015,14(10):45-47. 被引量：4
3吴天虹,黄德才,翁挺,马晨明.基于维度距离的混合属性密度聚类算法研究[J].浙江工业大学学报,2009,37(4):445-448. 被引量：4
4刘海涛,魏汝祥,袁昊劼.基于互信息的混合属性数据特征选择方法[J].海军工程大学学报,2016,28(4):78-84. 被引量：5
5苏晓珂,兰洋,秦玉明,万仁霞,程耀东.混合属性数据流的两阶段入侵检测算法[J].计算机工程,2010,36(18):19-20. 被引量：2
6网站好内容不能就错过[J].电脑爱好者（普及版）,2011(A01):216-216.
7刘泉凤,陆蓓.数据挖掘中聚类算法的比较研究[J].浙江水利水电专科学校学报,2005,17(2):55-58. 被引量：9
8王伟,高亮,吴涛.一种基于模糊聚类的离散化方法[J].计算机技术与发展,2008,18(3):53-55. 被引量：7
9曹操.顶级“游戏机” GT760M才算开始[J].电脑爱好者,2013(17):96-97.
10河马.没有杀毒软件如何让系统百毒不侵[J].网络与信息,2009(8):10-11.

计算机工程与应用

2009年第30期

浏览历史

内容加载中请稍等...

BIRCH混合属性数据聚类方法被引量：3

参考文献9

二级参考文献33

共引文献49

同被引文献22

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

BIRCH混合属性数据聚类方法 被引量：3

参考文献9

二级参考文献33

共引文献49

同被引文献22

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

BIRCH混合属性数据聚类方法被引量：3