基于信息增益的模糊K-prototypes聚类算法

A fuzzy K-prototypes clustering algorithm based on information gain

下载PDF

导出

摘要 K-prototypes聚类算法结合了K-means算法和K-modes算法,可用于分析混合属性的数据对象。传统的K-prototypes聚类算法在计算数据对象的相异度时,未考虑各个属性对于最终聚类结果的影响程度,而现实世界中,各属性的重要程度是不同的。使用了信息论中信息增益的计算方法,来获得各个属性的权值。在计算各属性的差异度时,乘以这些权值,从而可以获得更为准确的聚类结果。为了增加算法处理模糊问题的能力,本算法引用了模糊理论,从而使其具有较好的抗干扰能力和处理不确定性问题的能力。通过对四个UCI数据集的聚类分析实验,表明了本算法的有效性。 K-prototypes clustering algorithms combine K-means and K-modes to analyze mixed data objects. Classic K-prototypes clustering algorithms don＇t consider the effect degree of each attribute to the last clustering results when calculating the dissimilarity of data object. But in the real world,the im- portance of each attribute varies. In this paper we use information gain of the information theory to get the weight of each attribute. These weights are used to get a better clustering result when we calculate the dissimilarity. In order to improve the fuzzy ability, the proposed algorithm exploits the fuzzy theory to get a better capability for dealing with anti-noise and uncertain problems. Clustering experiments on four UCI data sets validate the effectiveness of our algorithm.

作者欧阳浩王智文戴喜生刘智琦

机构地区广西科技大学计算机学院广西科技大学电气与信息工程学院

出处《计算机工程与科学》 CSCD 北大核心 2015年第5期1009-1014,共6页 Computer Engineering & Science

基金国家自然科学基金资助项目(61462008 61364006) 广西自然科学基金资助项目(2013GXNSFAA019336) 广西高校科学技术研究项目(LX2014190 YB2014210 LX2014190) 广西科技大学科学基金资助项目(校科自1261128)

关键词聚类信息增益模糊K-prototypes算法混合型数据 clustering information gain fuzzy K-prototypes mixed data

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1刘敬伟,徐美芝.Bezdek型模糊属性C均值聚类算法[J].北京航空航天大学学报,2007,33(9):1121-1126. 被引量：4
2于海涛,李梓,姚念民.K-means聚类算法优化方法的研究[J].小型微型计算机系统,2012,33(10):2273-2277. 被引量：22
3刘强,邓磊,贾振红,覃锡忠.一种改进的加权K-prototypes算法[J].激光杂志,2014,35(1):18-20. 被引量：4
4刘一鸣,张化祥.引入信息增益的层次聚类算法[J].计算机工程与应用,2012,48(1):142-144. 被引量：6
5于海涛,贾美娟,王慧强,邵国强.基于人工鱼群的优化K-means聚类算法[J].计算机科学,2012,39(12):60-64. 被引量：23

二级参考文献47

1赵宇,李兵,李秀,刘文煌,任守榘.混合属性数据聚类融合算法[J].清华大学学报（自然科学版）,2006,46(10):1673-1676. 被引量：9
2杨春宇,周杰.一种混合属性数据流聚类算法[J].计算机学报,2007,30(8):1364-1371. 被引量：22
3Theodoridis S, Koutroumbas K.Pattem recognition[M].[S.l.]: Academic Press,2006.
4Xu R.Survey of clustering algorithms[J].IEEE Transactions on Neural Networks 12005,16 (3) : 645-678.
5Xu R, Wunsch D.Clustering[M].New York:IEEE Press,2009: 18-23.
6Ng A Y, Jordan M I, Weiss Y..On spectral clustering: analysis and an algorithm[C]//Advances in Neural International Processing Systems, 2001 : 849-856.
7Zhang T, Ramakrishnan R, Eivny M.BIRCH: an efficient data clustering method for very large databases[C]//Proc of ACM SIGMOD International Conference on Management of Data.Canada:ACM Press, 1996: 103-114.
8Guha S,Rastogi R, Shim K.CURE:an efficient clustering algorithm of large databases[C]//Proc of ACM SIGMOD International Conference on Management of Data.Seattle: ACM Press, 1998: 73-84.
9Karypis G, Han E,Kumar V.CHAMELEON:a hierarchical clustering algorithm using dynamic modeling[J].IEEE Computer, 1999,27(3) :329-341.
10Topchy A, Law M H, Jain A K, et al.Analysis of consensus partition in cluster ensemble[C]//Proc of the 5th IEEE International Conference on Data Mining,2004:225-232.

共引文献54

1毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
2陈平生.K-means和ISODATA聚类算法的比较研究[J].江西理工大学学报,2012,33(1):78-82. 被引量：22
3周涛,陆惠玲.数据挖掘中聚类算法研究进展[J].计算机工程与应用,2012,48(12):100-111. 被引量：145
4吴志媛,钱雪忠.基于PLSI的标签聚类研究[J].计算机应用研究,2013,30(5):1316-1319. 被引量：4
5吕文超,吕飞鹏,张新峰.模糊聚类法在继电保护状态检修中的应用[J].电力系统及其自动化学报,2013,25(2):93-97. 被引量：11
6于海涛,李梓,王振福,方晶.入侵检测相关技术的研究[J].智能计算机与应用,2013,3(2):62-64. 被引量：2
7孙冬璞,郝晓红,郝忠孝.频繁更新移动对象的索引方法[J].计算机工程,2013,39(11):52-56. 被引量：2
8李红波,赵宽,吴渝.基于地图非均匀划分的Android游戏智能体寻径算法[J].计算机科学,2013,40(11):316-318.
9黄静,张琦,江文斌.基于改进K-Means算法的蚕茧自动计数方法的研究[J].丝绸,2014,51(1):37-40. 被引量：10
10林有城,符强,谢文斌,史马杰,童楠.基于多类合并的PSO-means聚类算法[J].计算机系统应用,2014,23(2):160-165. 被引量：2

1汪加才,文巨峰,陈奇,俞瑞钊.结构化模糊K-prototypes聚类算法[J].计算机科学,2005,32(5):155-158. 被引量：2
2王宇,杨莉.模糊k-prototypes聚类算法的一种改进算法[J].大连理工大学学报,2003,43(6):849-852. 被引量：11
3林培俊,王宇.对类属性和混合属性数据聚类的一种有效的算法[J].计算机工程与应用,2004,40(1):190-191. 被引量：3
4陈宁,陈安,周龙骧.数值型和分类型混合数据的模糊K-Prototypes聚类算法(英文)[J].软件学报,2001,12(8):1107-1119. 被引量：45
5杨阳,张为群,刘枫,黄仁杰.基于MapReduce自适应参数的粗糙K-modes算法研究[J].计算机科学,2012,39(11):149-152.
6白亮,梁吉业,曹付元.基于粗糙集的改进K-Modes聚类算法[J].计算机科学,2009,36(1):162-164. 被引量：15
7汪加才,朱艺华.模糊K-Prototypes算法中的加权指数研究[J].计算机应用,2005,25(2):348-351. 被引量：4
8黄苑华,郝志峰,蔡瑞初,谢峰.基于相互依存冗余度量的k-modes算法[J].小型微型计算机系统,2016,37(8):1790-1793. 被引量：5
9郭涛,丁祥武.基于MapReduce的并行k-modes算法[J].智能计算机与应用,2015,5(1):43-45.
10罗冬梅.改进的k-prototypes算法及应用[J].武夷学院学报,2009,28(2):74-77. 被引量：1

计算机工程与科学

2015年第5期

浏览历史

内容加载中请稍等...

基于信息增益的模糊K-prototypes聚类算法

参考文献5

二级参考文献47

共引文献54

相关作者

相关机构

相关主题

浏览历史