层次聚类算法的改进及分析被引量：7

ON IMPROVEMENT AND ANALYSIS OF HIERARCHICAL CLUSTERING ALGORITHM

下载PDF

导出

摘要层次凝聚算法是一个非常有用的聚类算法,它在迭代地凝聚每次接近对直到所有的数据都属于同一个簇。但层次聚类也存在着几个缺点,如聚类时的时空复杂性高;聚类的簇效率低、误差较大等。经验研究表明,大部分HAC算法都有这样一个趋势:除了在谱系图的顶层,所有低层聚类的簇都是比较小的并且很接近于其他的簇,提出了一种改进算法能够减小时空复杂性并能验证其正确性,分析与实验都证明这种方法是非常有效的。 A prominent and useful class of algorithm is hierarchical agglomerative clustering （HAC） which iteratively agglomerates the closest pare until all data points belong to one cluster. However, HAC methods have several drawbacks, such as high time and memory complexities when clustering, insufficient and inaccurate cluster validation, etc. Empirical study shows that most HAC algorithms follow a trend where, except for a number of top levels of the dendrogram, all lower level agglomerate clusters are very small in size and close in proximity to other clusters. Methods are proposed to reduce the time and memory complexities significantly and to make validation very efficient and accurate. Analysis and experiments all prove the effectiveness of the proposed method.

作者郭晓娟刘晓霞李晓玲

机构地区西北大学中国地质大学

出处《计算机应用与软件》 CSCD 北大核心 2008年第6期243-244,268,共3页 Computer Applications and Software

关键词聚类层次聚类谱系图簇 POP Clustering HAC Dendrogram Cluster POP

分类号 TP312 [自动化与计算机技术—计算机软件与理论] TH122 [机械工程—机械设计及理论]

引文网络
相关文献

参考文献9

1范明,孟小峰,等.数据挖掘概念与技术.机械工业出版社,2001:223-260.
2郭崇慧,田凤占,靳晓明,等.数据挖掘教程.清华大学出版社,2005:107-138.
3Zhang T,Ramakrishnan R,Livny M. BIRCH: An efficient data clustering method for very large databases. In : Proceedings of ACM SIGMOD Conference on Management of Data, Montreal, Canada, June 1996 : 103 - 114.
4Guha S, Rastogi R, Shim K. CURE: An efficient clustering algorithm for large databases. In : Proceedings of the ACM SIGMOD International Conference on Management of Data, 1998:73 -84.
5Day W H E, Edelsbrunner H. Efficient algorithms for agglomerative hierarchical clustering methods. Journal of Classification, 1984 ( 1 ) : 7 - 24.
6Anderberg M R. Cluster Analysis for Applications. Academic Press, New York,1973.
7Karypis G,Han E H,Kurnar V. CHAMELEON: a hierarchical clustering algorithm using dynamic modeling. IEEE Computer, 1999,32:68- 75.
8Duda R O,Hart P E. Pattern Classification and Scene Analysis, chapter: Unsupervised Learning and Clustering. John Wiley & Sons, 1973.
9Dash M, Huan L, Scheuermann P,Tan K L. Fast hierarchical clustering and its validation. Data & Knowledge Engineering, 2003,44 : 109 - 138.

共引文献2

1孙红,王颖慧.企业级客户信息挖掘分析与研究[J].微计算机信息,2011,27(6):126-128.
2王继生,高宝成,时良平.支持向量机在交通量预测中的应用[J].信息技术,2004,28(4):8-10. 被引量：13

同被引文献46

1楼佳,王小华.一种分裂式的k-means聚类算法[J].杭州电子科技大学学报（自然科学版）,2009,29(4):54-57. 被引量：1
2张振亚,程红梅,王进,王煦法.面向凝聚式层次聚类算法实现的矩阵存储数据结构研究[J].计算机科学,2006,33(1):14-17. 被引量：5
3岳佳,王士同.高斯混合模型聚类中EM算法及初始化的研究[J].微计算机信息,2006,22(11X):244-246. 被引量：51
4承文,韩立岩.航天企业基于知识流的知识管理体系框架[J].系统工程与电子技术,2006,28(11):1675-1678. 被引量：9
5Han Jia-wei,Kamber M.Data mining:Concepts and techniques[M].范明,孟小峰,译.北京:机械工业出版社,2008:251-301.
6Xu Rui,Wunsch D.Survey of clustering algorithms[J].IEEE Trans on Neural Network,2005,16(3):645-678.
7Jain A K,Murty M N,Flyun P J.Data clustering:A review[J].ACM Computing Surveys,1999,31(3):264-323.
8康卫鲜,叶德谦.基于CURE的聚类算法研究[C] //计算机技术与应用进展·2007--全国第18届计算机技术与应用(CACIS)学术会议论文集(上册).合肥:中国科学技术大学出版社,2007:132-135.
9Guha S,Rastorgi R,Shims K.Cure:An efficient clustering algorithm for large database[J].Information Systems,2001,26(1):35-58.
10Dash M,Petrutiu S,Schenermann P.pPOP:Fast yet accurate parallel hierarchical clustering using partitioning[J].Data & Knowledge Engineering,2007,61:563-578.

引证文献7

1贾瑞玉,耿锦威,宁再早,何成刚.基于代表点的快速聚类算法[J].计算机工程与应用,2010,46(33):121-123. 被引量：7
2王娴,杨绪兵,周宇,周溜溜.一种基于类中心矫正的层次聚类算法[J].微电子学与计算机,2011,28(10):217-220. 被引量：1
3高学东,陈学昌,郝媛.基于对象-属性空间分割技术的企业员工技能与知识体系构建方法[J].数学的实践与认识,2012,24(7):45-55.
4薛洁,刘希玉.基于DNA计算的层次图聚类算法[J].计算机工程,2012,38(12):188-190. 被引量：4
5赵国生,牛贞贞,刘永光,孙超亮.基于自适应模糊C均值聚类算法的电力负荷特性分类[J].郑州大学学报（工学版）,2015,36(6):56-60. 被引量：14
6张雪霁,张廷利,张志鸿.一种期货市场关联交易行为检测的聚类方法[J].计算机应用与软件,2016,33(12):275-278. 被引量：3
7许光宇,丁健.基于特征聚类的大视差图像拼接算法[J].计算机工程与科学,2022,44(2):283-290. 被引量：1

二级引证文献30

1马艳红,郑泽志,金春华.大宗商品电子交易市场经营主体自律行为演化博弈研究——基于政府监管治理政策工具下的奖惩机制设计[J].价格理论与实践,2023(6):192-196.
2孟凡荣,李晓翠,周勇.一种基于代表点的增量聚类算法[J].计算机应用研究,2012,29(8):2865-2867. 被引量：2
3李晓翠,孟凡荣,周勇.一种基于代表点的快速聚类算法[J].南京大学学报（自然科学版）,2012,48(4):504-512. 被引量：4
4高群,张中湖,陆峰.基于拉曼光谱法的降糖类药物的判别方法比较[J].光谱学与光谱分析,2012,32(12):3258-3261. 被引量：5
5吴志媛,钱雪忠.基于PLSI的标签聚类研究[J].计算机应用研究,2013,30(5):1316-1319. 被引量：4
6束建华,殷志祥.DNA计算在数据挖掘中的应用研究[J].赤峰学院学报（自然科学版）,2013,29(9):37-39.
7刘紫燕,祁佳.层次聚类算法的实时图像边缘检测及FPGA实现[J].红外技术,2014,36(1):53-57. 被引量：5
8钱雪忠,吴志媛.基于网页概率潜在语义信息的用户兴趣聚类[J].计算机工程与科学,2014,36(4):765-771. 被引量：2
9李燕,钟磊.基于分子生物技术的DNA计算系统[J].淮海工学院学报（自然科学版）,2014,23(4):9-13. 被引量：2
10张晓民,张枫,刘黎明.一种基于代表点质量的万有引力聚类算法[J].南开大学学报（自然科学版）,2016,49(4):8-15.

1李雪梅,张素琴.数据挖掘中聚类分析技术的应用[J].武汉大学学报（工学版）,2009,42(3):396-399. 被引量：9
2李家.聚类分析谱系图二叉树的建立及应用[J].辽宁师范大学学报（自然科学版）,1994,17(2):157-162. 被引量：4
3董吉文,周劲,杨秀丽.综合值贴近和形贴近的新的统计量的研究[J].微电子学与计算机,2005,22(5):192-194. 被引量：3
4周劲,董吉文,潘玉奇.基于距离系数的改进统计量研究[J].计算机工程与设计,2006,27(8):1321-1323. 被引量：1
5马军红.文本聚类算法初探[J].电子世界,2012(6):71-72. 被引量：2
6鲍文,杨坤,胡清华,于达仁.应用信息谱系图法检测火电厂的异常数据[J].动力工程,2005,25(6):865-869. 被引量：3
7郑咸义,段雄林.产生式系统的一种新匹配算法[J].华南理工大学学报（自然科学版）,1995,23(5):71-74.
8杨新梅,李家.模糊聚类谱系图多叉树的建立及应用[J].海洋通报,1998,17(2):78-83.
9秦如新,陈静,冯一宁.一种新的关联规则抽样算法[J].中国农业大学学报,2007,12(3):85-88. 被引量：6
10陈明.利用单向链表结构绘制聚类谱系图的算法[J].物探化探计算技术,1995,17(2):80-85. 被引量：3

计算机应用与软件

2008年第6期

浏览历史

内容加载中请稍等...

层次聚类算法的改进及分析被引量：7

参考文献9

共引文献2

同被引文献46

引证文献7

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

层次聚类算法的改进及分析 被引量：7

参考文献9

共引文献2

同被引文献46

引证文献7

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

层次聚类算法的改进及分析被引量：7