基于核心树的增量聚类算法研究

The research of increment clustering algorithm based on core tree

下载PDF

导出

摘要传统的聚类分析方法一般都没有考虑大容量数据集合的问题,而数据挖掘技术的研究重点之一就是如何从海量数据中高效率地获取知识。结合基于分类方法的K-means中心点算法以及基于层次方法的BIRCH增量算法提出核心树(Core-Tree)的思想来弥补两个算法的缺点,使用中心点的思想来表示BIRCH算法中汇总信息,利用类核心的思想来提高确定中心点的效率。因此,提出一种聚类算法,主要集中在如何提高大型数据集合的聚类效率、如何处理具有各种特征的数据集合。 Clustering analysis in data mining deploys many traditional methods. All these methods have not been considered large volume data sets. However, to efficiently obtain knowledge from large amount of data sets is the top - leading problem in data mining area. Basing on the K - means center points algorithm and the BIRCH increment algorithm, the author poses the concept of core - tree which could make up the weakness of these two algorithms, That is, using center point to indicate the summary information in BIRCH, and using class core to improve the efficiency of center point orientation. Therefore, cluste- ring analysis in aims at improving efficiency of algorithm and ability of processing variant types of data.

作者丁一付弦

机构地区湖北师范学院计算机科学与技术学院

出处《湖北师范学院学报（自然科学版）》 2011年第2期18-23,共6页 Journal of Hubei Normal University(Natural Science)

关键词增量聚类核心树中心点聚类特征 increment clustering core - tree center point clustering feature

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1Jain A K, Murty M N. Flynn P J. Data clustering: A survey[J]. ACM Computer Survey, 2007, 31:264 -323.
2Brian Lent, Arun N Swami, Jennifer Widom. Clustering Association Rules. In: Alex Gray[ C ]. Proceedings of the 18th International Conference on Data Engineering (ICDE05). Birmingham U. K. 1997. Los Alamitos: IEEE Computer Society,2005. 220-231.
3Eui -Hong Han. Text Categorization Using Weight Adjusted k - Nearest Neighbor Classification[ D]. PhD thesis, University of Minnesota, 2006.
4Tian Zhang, Raghu Ramakrishnan, Miron Livny. BIRCH : An Efficient Data Clustering Method for Very Large Databases. In: H. V. Jagadish, Inderpal Singh Mumick eds[ C ]. Proceedings of the 2004 ACM SIGMOD International Conference on Management of Data (SIGMOD04). Montreal, Canada. 2004. New York: ACM Press, 2004. 103 -114.
5杨芳,湛燕,田学东,郭宝兰.使用遗传算法实现K-means聚类算法的K值选择[J].微机发展,2003,13(1):25-26. 被引量：13
6杨广文,史树明.利用确定性退火技术的并行聚类算法[J].清华大学学报（自然科学版）,2003,43(4):480-483. 被引量：3

二级参考文献13

1周明孙树栋.遗传算法原理及其应用[M].北京：国防工业出版社,1996..
2乙米凯莉维茨[美].演化程序--遗传算法和数据编码的结合[M].北京：科学出版社,2000..
3乙米凯莉维茨[美].演化程序--遗传算法和数据编码的结合[M].北京:科学出版社,2000..
4Lloyd S P. Least squares quantization in PCM [J]. IEEE Trans on Information Theory, 1982, 28(1) : 129-137.
5Lind Y, Buzo A, Gray R M. Algorithm for vector quantization [J]. IEEE Trans Communication, 1980,28(1): 84-95.
6Ball G, Hall D. A clustering technique for summmarizing multivariate data [J]. Behavioral Science, 1967, 12:153 - 155.
7Bezdek J C. Pattern Recognition with Fuzzy Objective Function Algorithms [M]. New York: Penum, 1981.
8Gath I, Geva A B. Unsupervised optimal fuzzy clustering[J]. IEEE Trans Pattern and Machine Intell, 1989, 11(7):773 - 781.
9Rose K, Gurewitz E, Fox G C. Statistical mechanics and phase transition in clustering EJ]. Physical Review Letters,1990, 65: 945-948.
10Fox G C. Physical computation [J]. Concurrency: Practice and Experience, 1991, 3(6): 627- 653.

共引文献14

1董国华.一种改进的聚类算法及其在说话人识别上的应用[J].微计算机信息,2004,20(9):134-135. 被引量：10
2高利军,王辉,张望.个性化服务中自适应聚类算法的研究[J].微电子学与计算机,2007,24(8):89-91. 被引量：3
3卢昌荆,王红雨,廖逢钗,张诚一.基于模糊矢量量化(FVQ)普通话等级测试模型研究[J].海南师范学院学报（自然科学版）,2007,20(4):316-320.
4严宇平,肖菁.基于可变染色体长度的遗传K均值聚类算法[J].计算机工程与设计,2008,29(14):3709-3713. 被引量：7
5英文摘要书写要求[J].计算机工程与设计,2008,29(14):3713-3713.
6屈新怀,高万里,丁必荣,李朕.基于聚类数和初始值的K-means算法改进研究[J].组合机床与自动化加工技术,2011(4):42-46. 被引量：6
7杨毅,宋辉,刘加.基于NIST评测的说话人分类及定位技术研究[J].电子与信息学报,2011,33(5):1234-1237.
8尹学朋,李永洪,薛冠儒.新型农村合作医疗制度实施的效果与对策——以南充市下辖的三个县为例[J].西华大学学报（哲学社会科学版）,2011,30(6):82-86. 被引量：3
9朱婷.中国大陆全民医保与台湾地区全民健保福利性之比较[J].西北人口,2012,33(4):47-51. 被引量：4
10严晓玲,王洪国,陈红敬,王珊,饶克勤.新型农村合作医疗筹资现状和可持续筹资策略探析[J].中华医院管理杂志,2013,29(4):285-288. 被引量：6

1孙小林,卢正鼎.基于反洗钱应用的一种有效的增量聚类算法[J].华中科技大学学报（自然科学版）,2004,32(11):85-87. 被引量：7
2王江涛,陈志刚,邓晓衡.WSN中基于可信核心树的路由算法研究[J].计算机科学,2011,38(12):36-42. 被引量：2
3马金柱,刘捷,周俊懿.基于CBT的多源Steiner树构造算法[J].计算机工程与设计,2006,27(17):3172-3174.
4杨帆,刘冰,沈来信.基于核心树的徽州古民居灾损数据库生成研究[J].牡丹江大学学报,2014,23(4):140-141.
5杜兴东,姚尹雄,王豪行.MPLS组播机制中基于核心树的标签分发方法[J].上海交通大学学报,2001,35(11):1747-1749. 被引量：1
6朱忠旭,刘竞杰.基于聚类和案例推理的个性化教学序列生成[J].河南工程学院学报（自然科学版）,2015,27(2):68-72.
7梁秀荣,彭珍.一种CSCW群组通信路由算法的研究[J].燕山大学学报,2006,30(4):309-312.
8刘金岭.k中心点聚类算法在层次数据的应用[J].计算机工程与设计,2008,29(24):6418-6419. 被引量：8
9谢志强,于亮,杨静.多维数据的改进最小生成树聚类算法[J].哈尔滨工程大学学报,2008,29(8):851-857. 被引量：1
10郑时青.cscw群组通信路由算法的探讨[J].计算机时代,2003(10):15-17.

湖北师范学院学报（自然科学版）

2011年第2期

浏览历史

内容加载中请稍等...

基于核心树的增量聚类算法研究

参考文献6

二级参考文献13

共引文献14

相关作者

相关机构

相关主题

浏览历史