期刊文献+

基于信息增益的模糊K-prototypes聚类算法

A fuzzy K-prototypes clustering algorithm based on information gain
下载PDF
导出
摘要 K-prototypes聚类算法结合了K-means算法和K-modes算法,可用于分析混合属性的数据对象。传统的K-prototypes聚类算法在计算数据对象的相异度时,未考虑各个属性对于最终聚类结果的影响程度,而现实世界中,各属性的重要程度是不同的。使用了信息论中信息增益的计算方法,来获得各个属性的权值。在计算各属性的差异度时,乘以这些权值,从而可以获得更为准确的聚类结果。为了增加算法处理模糊问题的能力,本算法引用了模糊理论,从而使其具有较好的抗干扰能力和处理不确定性问题的能力。通过对四个UCI数据集的聚类分析实验,表明了本算法的有效性。 K-prototypes clustering algorithms combine K-means and K-modes to analyze mixed data objects. Classic K-prototypes clustering algorithms don't consider the effect degree of each attribute to the last clustering results when calculating the dissimilarity of data object. But in the real world,the im- portance of each attribute varies. In this paper we use information gain of the information theory to get the weight of each attribute. These weights are used to get a better clustering result when we calculate the dissimilarity. In order to improve the fuzzy ability, the proposed algorithm exploits the fuzzy theory to get a better capability for dealing with anti-noise and uncertain problems. Clustering experiments on four UCI data sets validate the effectiveness of our algorithm.
出处 《计算机工程与科学》 CSCD 北大核心 2015年第5期1009-1014,共6页 Computer Engineering & Science
基金 国家自然科学基金资助项目(61462008 61364006) 广西自然科学基金资助项目(2013GXNSFAA019336) 广西高校科学技术研究项目(LX2014190 YB2014210 LX2014190) 广西科技大学科学基金资助项目(校科自1261128)
关键词 聚类 信息增益 模糊K-prototypes算法 混合型数据 clustering information gain fuzzy K-prototypes mixed data
  • 相关文献

参考文献5

二级参考文献47

  • 1赵宇,李兵,李秀,刘文煌,任守榘.混合属性数据聚类融合算法[J].清华大学学报(自然科学版),2006,46(10):1673-1676. 被引量:9
  • 2杨春宇,周杰.一种混合属性数据流聚类算法[J].计算机学报,2007,30(8):1364-1371. 被引量:22
  • 3Theodoridis S, Koutroumbas K.Pattem recognition[M].[S.l.]: Academic Press,2006.
  • 4Xu R.Survey of clustering algorithms[J].IEEE Transactions on Neural Networks 12005,16 (3) : 645-678.
  • 5Xu R, Wunsch D.Clustering[M].New York:IEEE Press,2009: 18-23.
  • 6Ng A Y, Jordan M I, Weiss Y..On spectral clustering: analysis and an algorithm[C]//Advances in Neural International Processing Systems, 2001 : 849-856.
  • 7Zhang T, Ramakrishnan R, Eivny M.BIRCH: an efficient data clustering method for very large databases[C]//Proc of ACM SIGMOD International Conference on Management of Data.Canada:ACM Press, 1996: 103-114.
  • 8Guha S,Rastogi R, Shim K.CURE:an efficient clustering algorithm of large databases[C]//Proc of ACM SIGMOD International Conference on Management of Data.Seattle: ACM Press, 1998: 73-84.
  • 9Karypis G, Han E,Kumar V.CHAMELEON:a hierarchical clustering algorithm using dynamic modeling[J].IEEE Computer, 1999,27(3) :329-341.
  • 10Topchy A, Law M H, Jain A K, et al.Analysis of consensus partition in cluster ensemble[C]//Proc of the 5th IEEE International Conference on Data Mining,2004:225-232.

共引文献54

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部