混合属性数据聚类初始点选择的改进被引量：3

Improved Clustering Algorithm for Mixed Numeric and Categorical Values

下载PDF

导出

摘要 k-prototypes和模糊k-prototypes是处理数值属性和分类属性混合数据主要的聚类算法。但这两种聚类算法不足之处是对初值有明显的依赖。对初值选取方法进行了分析和研究,提出一种新的改进方法,可在一定程度上减少随机性。实际数据集仿真结果表明改进算法有更高的稳定性和较强的伸缩性。 The k-prototypes algorithm and Fuzzy k-prototypes algorithm have become popular technique in solving categorical data clustering problems in different application domains. However, they also reuires random selection of initial points for the clusters. So it is obvious that outputs are especially sensitive to initial. Different initial points often lead to considerable distinct clustering results. This paper analyses the method of random selection and proposes a method of searching initial starting points through grouping data sets. Experiments show that the new initialization method leads to higher stability and flexibility.

作者赵立江黄永青

机构地区徐州师范大学计算机学院

出处《广西师范大学学报（自然科学版）》 CAS 北大核心 2007年第4期220-223,共4页 Journal of Guangxi Normal University:Natural Science Edition

基金国家自然科学基金资助项目(70171033) 江苏省高校自然科学基础研究基金资助项目(07KJ520216)

关键词聚类 k—modes k—prototypes 分类型数据相异度 clustering k-prototypes categorical data dissimilarity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1HAN Jia-wei,MICHELIE K.数据挖掘:概念与技术[M].2版.北京:机械工业出版社,2001.
2HUANG Zhe-xue. Extensions to the k-means algorithm for clustering large data sets with categorical values[J]. Data Mining and Knowledge Discovery, 1998,2 (3) : 283-304.
3BARBARA D,CHEN Ping. Using self-similarity to cluster large data sets[J]. Data Mining and Knowledge Discovery, 2003,7 (2):123-152.
4MODHA D S ,SPANGLER W S. Feature weighting in k-means clusteringJ]. Machine Learning, 2003,52(3) :217-237.
5赵立江.基于数值型和分类型混合属性数据集的聚类算法研究[D].杭州:浙江大学计算机科学与工程学院,2005.
6SUN Ying, ZHU Qiu-ming, CHEN Zheng-xin. An iterative initial-points refinement algorithm for categorical data clustering[J]. Pattern Recognition Letters, 2002,23 (7) : 875-884.
7GAN Guo-jun, YANG Zi-jiang, WU Jian-hong. A genetic k-modes algorithm for clustering categorical data[C]//Proceedings of First International Conference on Advanced Data Mining and Applications. Berlin:Springer, 2005:195-202.
8彭玲.一种新的动态进化聚类算法(英文)[J].广西师范大学学报（自然科学版）,2006,24(4):103-106. 被引量：1

二级参考文献6

1张铁军,吕剑虹,于开江.热工过程模糊决策预测控制的应用研究[J].中国电机工程学报,2004,24(6):179-184. 被引量：3
2GOMEZ-SKARMETA A F,DELGADO M,VILA M A.About the use of fuzzy clustering techniques for fuzzy model identification[J].Fuzzy Sets and Systems,1999,106(2):179-188.
3MAULIK U,BANDYOPADHYAY S.Performance evaluation of some clustering algorithms and validity indices[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2002,24(12):1650-1654.
4刘向杰,彭一民,周孝信,柴天佑.火电厂锅炉主汽压系统的模糊辨识与模糊控制[J].中国电机工程学报,1999,19(8):1-6. 被引量：23
5刘志远,吕剑虹,陈来九.新型RBF神经网络及在热工过程建模中的应用[J].中国电机工程学报,2002,22(9):118-122. 被引量：51
6侯逸文,沈炯,李益国.基于小波神经网络的火电单元机组负荷系统建模仿真研究[J].中国电机工程学报,2003,23(10):220-224. 被引量：10

同被引文献17

1张静,王建民,何华灿.基于属性相关性的属性约简新方法[J].计算机工程与应用,2005,41(28):55-57. 被引量：18
2范洁,常晓航,杨岳湘.基于属性相关性的决策树规则生成算法[J].计算机仿真,2006,23(12):90-92. 被引量：9
3KAMBER M ,WINSTONE L ,GONG W,et al. Generalization and decision tree induction :efficient classification in data mining[C]//Proceeding of the 1997 International Workshop on Research Issues on Data Engineering(RDE'97). New York : IEEE Press, 1997 : 111-120.
4TANG Wen-yin,MAO K Z. Feature selection algorithm for mixed data with both nominal and continuous features [J]. Pattern Recognition Letters, 2007,28 : 563- 571.
5张新丽.高维数据的特征选择及基于特征选择的集成学习研究[D].北京:清华大学计算机科学与技术系,2004.
6LEI Yu,LIU Huan. Efficient feature selection via analysis of relevance and redundancy[J]. Journal of Machine Learning Research,2004,5 : 1205-1224.
7Han Jiawei, KAMBER M. Data mining concepts and techniques[M]. 北京:机械工业出版社, 2001.
8CHRISTOPHER J, BURGES C. A tutorial on support vector machines for pattern recognition[J]. Data Mining and knowledge Discovery, 1998, 2(2) : 121-167.
9VAPNIK V N. An overview of statistical learning theory [J]. IEEE Trans on Neural Network, 1999; 10(5): 988-999.
10王峻.一种基于属性相关性度量的朴素贝叶斯分类模型[J].安庆师范学院学报（自然科学版）,2007,13(2):14-16. 被引量：5

引证文献3

1赵立江.基于遗传算法的混合属性聚类初始点选择研究[J].广西师范大学学报（自然科学版）,2008,26(3):194-197. 被引量：2
2罗荣海,蒋盛益.混合属性相关度计算方法研究[J].广西师范大学学报（自然科学版）,2009,27(1):113-116. 被引量：2
3张艳丽,郑诚.一种混合属性数据的聚类算法[J].微型机与应用,2011,30(3):64-66.

二级引证文献4

1张巍,滕少华.粒计算在决策支持中的应用[J].江西师范大学学报（自然科学版）,2010,34(5):495-501. 被引量：1
2谢刚,刘静.粒计算研究现状及展望[J].软件,2011,32(3):5-10. 被引量：4
3曹永春,邵亚斌,田双亮,蔡正琦.一种基于免疫遗传算法的聚类方法[J].广西师范大学学报（自然科学版）,2013,31(3):59-64. 被引量：3
4刘伟铭,李荣荣,王超,黄玲.高速公路通行卡调拨问题的遗传算法[J].广西师范大学学报（自然科学版）,2016,34(1):1-8. 被引量：3

1罗可,洪亮亮,童小娇.一种有效的分类型数据聚类方法[J].控制与决策,2011,26(10):1542-1544. 被引量：3
2朱映辉,杨圣云,袁德辉.基于山方法的分类型数据核聚类[J].计算机工程与设计,2008,29(11):2915-2917.
3楚晓丽.K-Means聚类算法和人工鱼群算法应用于图像分割技术[J].计算机系统应用,2013,22(4):92-94. 被引量：6
4赵立江.基于遗传算法的混合属性聚类初始点选择研究[J].广西师范大学学报（自然科学版）,2008,26(3):194-197. 被引量：2
5孙浩军,李惊涛,张磊,张崇锐,肖婷.一种高维分类型数据的子空间聚类算法[J].汕头大学学报（自然科学版）,2014,29(3):51-59.
6段文影,段隆振,邱桃荣.一种基于粗糙微聚集算法及属性重要度的匿名模型的数据质量评估[J].南昌大学学报（理科版）,2015,39(3):238-242.
7孙浩军,杜育林,姜大志.基于信息熵的高维分类型数据子空间聚类算法[J].山东大学学报（工学版）,2011,41(5):37-45. 被引量：2
8孙浩军,闪光辉,高玉龙,袁婷.一种高维混合属性数据聚类算法[J].计算机工程与应用,2015,51(8):128-133. 被引量：6
9孙浩军,游俊斌,吴廷发.基于粗糙集的高维分类型数据子空间聚类算法[J].汕头大学学报（自然科学版）,2012,27(4):46-53.
10石隽锋,白妙青.一种改进的K-Modes聚类算法[J].现代电子技术,2015,38(4):39-41. 被引量：1

广西师范大学学报（自然科学版）

2007年第4期

浏览历史

内容加载中请稍等...

混合属性数据聚类初始点选择的改进被引量：3

参考文献8

二级参考文献6

同被引文献17

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

混合属性数据聚类初始点选择的改进 被引量：3

参考文献8

二级参考文献6

同被引文献17

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

混合属性数据聚类初始点选择的改进被引量：3