混合型数据聚类方法的比较被引量：2

Comparison of Clustering Methods for Mixed Data

下载PDF

导出

摘要为了科学使用真实世界数据,探索适用于日益常见的混合型数据的聚类方法,文章分析和比较了两种典型的混合型数据聚类方法K-prototypes与ClustMD,改进了聚类方法关键参数选择方法,并提出聚类稳定性指标。结果表明,两种聚类方法均具有很高的有效性和稳定性,各有优缺点。当数据相关性强、数据缺失严重或非连续变量较多时,建议使用K-prototypes。 In order to scientifically use real world data,this paper explores the clustering methods applicable to the increasingly common mixed medical data. The paper analyzes and compares the two typical clustering methods:K-prototypes and ClustMD,improves the key parameter selection method,and also proposes the clustering stability index. Cases analysis results indicate that the two methods are highly effective and stable,each with advantages and disadvantages. When data correlation is strong,data missing is serious or there are relatively more non-continuous variables,K-prototypes is recommended for hybrid data.

作者刘超姚清华乐然 Liu Chao;Yao Qinghua;Le Ran(Mathematics and Systems Science Institute,Beijing University of Aeronautics and Astronautics,Beijing 100083,China;LMIB of the Ministry of Education,Beijing University of Aeronautics and Astronautics,Beijing 100083,China;Academy for Advanced Interdisciplinary Studies,Peking University,Beijing 100871,China)

机构地区北京航空航天大学数学与系统科学学院北京航空航天大学“数学、信息与行为”教育部重点实验室北京大学前沿交叉学科研究院

出处《统计与决策》 CSSCI 北大核心 2019年第11期64-67,共4页 Statistics & Decision

关键词混合型数据聚类有效性聚类稳定性 mixed data clustering validity clustering stability

分类号 O212.4 [理学—概率论与数理统计]

引文网络
相关文献

参考文献4

1刘强,邓磊,贾振红,覃锡忠.一种改进的加权K-prototypes算法[J].激光杂志,2014,35(1):18-20. 被引量：4
2刘燕驰,高学东,国宏伟,武森.聚类有效性的组合评价方法[J].计算机工程与应用,2011,47(19):15-17. 被引量：16
3陈韡,王雷,蒋子云.基于K-prototypes的混合属性数据聚类算法[J].计算机应用,2010,30(8):2003-2005. 被引量：14
4刘新涛,刘晓光,申琪,张书杰,杨党伟,任应党.合并与不合并:两个相似性聚类分析方法比较[J].生态学报,2013,33(11):3480-3487. 被引量：16

二级参考文献35

1林作铨,牟克典,韩庆.基于未知扰动的冲突证据合成方法[J].软件学报,2004,15(8):1150-1156. 被引量：27
2王宇,杨莉.基于凝聚函数的混合属性数据聚类算法[J].大连理工大学学报,2006,46(3):446-448. 被引量：2
3赵宇,李兵,李秀,刘文煌,任守榘.混合属性数据聚类融合算法[J].清华大学学报（自然科学版）,2006,46(10):1673-1676. 被引量：9
4杨春宇,周杰.一种混合属性数据流聚类算法[J].计算机学报,2007,30(8):1364-1371. 被引量：22
5GAN G,YANG Z,WU J.A genetic fuzzy K-modes algorithm for clustering categorical data[J].Expert Systems with Applications:An International Journal,2009,32(2):1615-1620.
6HUANG Z.Extensions to the K-means algorithm for clustering large data sets with categorical values[J].Data Mining and Knowledge Discovery II,1998(2):283-304.
7HUANG Z,MA N G.Fuzzy K-modes algorithm for clustering categorical data[J].IEEE Transacitons on Fuzzy Systems,1999,7(4):446 -452.
8Dunn J.Well separated clusters and optimal fuzzy partitions[J].J Cybern, 1974,4( 1 ) :95-104.
9Calinski T,Harabasz J.A dendrite method for cluster analysis[J]. Comm in Statistics, 1974,3 ( 1 ) : 1-27.
10Maulik U, Bandyopadhyay S.Performance evaluation of some clustering algorithms and validity indices[J].IEEE PAMI, 2002, 24:1650-1654.

共引文献45

1施蓓琦,刘春,孙伟伟,陈能.应用稀疏非负矩阵分解聚类实现高光谱影像波段的优化选择[J].测绘学报,2013,42(3):351-358. 被引量：16
2黄树成,李甜,沙爱晖.一种基于图划分的混合属性数据聚类算法[J].计算机应用与软件,2013,30(7):11-13. 被引量：2
3申效诚,刘新涛,任应党,申琪,刘晓光,张书杰.中国昆虫区系的多元相似性聚类分析和地理区划[J].昆虫学报,2013,56(8):896-906. 被引量：22
4孙浩军,高玉龙,闪光辉,袁婷.基于熵权法的混合属性聚类算法[J].汕头大学学报（自然科学版）,2013,28(4):58-65. 被引量：5
5刘强,邓磊,贾振红,覃锡忠.一种改进的加权K-prototypes算法[J].激光杂志,2014,35(1):18-20. 被引量：4
6欧阳浩,戴喜生,王智文,王萌.基于信息熵的粗糙K-prototypes聚类算法[J].计算机工程与设计,2015,36(5):1239-1243. 被引量：4
7欧阳浩,王智文,戴喜生,刘智琦.基于信息增益的模糊K-prototypes聚类算法[J].计算机工程与科学,2015,37(5):1009-1014.
8ZHOU Lu,SHI Lei.Amphibian and reptilian distribution patterns in the transitional zone between the Euro-Siberian and Central Asia Subrealms[J].Journal of Arid Land,2015,7(4):555-565.
9张小川,严杰,朱常鹏.聚类算法在市政绩效评估中的应用[J].软件导刊,2015,14(11):48-51. 被引量：2
10陆可,李鸣,邹启鸣,徐浩.改进的K-prototypes算法在农民工养老参保中的应用研究[J].管理观察,2015(28):189-192.

同被引文献14

1廖欣婷,谢磊.基于Probit与Logistics模型对比的信用卡逾期风险评估实证研究[J].市场论坛,2020(6):73-77. 被引量：2
2贾晓妮,程积民,万惠娥.DCA、CCA和DCCA三种排序方法在中国草地植被群落中的应用现状[J].中国农学通报,2007,23(12):391-395. 被引量：35
3李镇清.分离生态变化中的物种相互作用组分[J].生物数学学报,2001,16(3):320-333. 被引量：9
4方匡南,赵梦峦.基于多源数据融合的个人信用评分研究[J].统计研究,2018,35(12):92-101. 被引量：17
5何育朋.混合的大规模数据库中数值型数据聚类算法研究[J].微电子学与计算机,2017,34(2):119-122. 被引量：4
6王晓慧,李云飞.判别分析和神经网络法的个人信用等级划分模型[J].内江师范学院学报,2018,33(2):64-68. 被引量：3
7曹小林.基于贝叶斯网络模型的个人信用评价[J].统计与决策,2020(10):153-155. 被引量：7
8王泽洲,陈云翔,项华春.一种改进型专家模糊核聚类赋权方法研究[J].中国管理科学,2021,29(2):177-183. 被引量：5
9胡晓东,高嘉伟.基于分组模型的引力搜索智能大数据聚类方法[J].计算机工程与设计,2021,42(6):1660-1667. 被引量：8
10邱泽国(翻译),贺百艳.机器学习算法下信用风险评估体系构建研究——基于中国银联数据的个人信用风险评价分析[J].价格理论与实践,2021(10):89-92. 被引量：6

引证文献2

1赵雪艳,徐新华.混合型数据判别的二阶段法及其在个人信用评级中的应用[J].南昌大学学报（人文社会科学版）,2022,53(6):73-83. 被引量：1
2牛奔,郭晨,唐恒.基于多目标多元学习细菌觅食优化算法的混合数据聚类[J].中国管理科学,2022,30(12):131-140. 被引量：2

二级引证文献3

1杨阳.地理信息系统空间数据库中混合数据的近邻查询研究[J].资源导刊,2023(22):32-34.
2朱镇远,金真,吴齐阳.信息生态视域下交通信用信息平台构建分析——以河南省高速“绿通”车辆为例[J].征信,2024,42(3):18-25.
3祝鹏.异构并行计算下高维混合型数据聚类算法研究[J].现代电子技术,2024,47(9):139-142.

1李晔,陈奕延,张淑芬.基于密度峰值的混合型数据聚类算法设计[J].计算机应用,2018,38(2):483-490. 被引量：6
2王华勇,韩松,肖孝天,杨超.改进的电力负荷曲线集成K-medoids聚类算法[J].电力科学与工程,2019,35(2):38-43. 被引量：3
3王丽菲.当前农村家庭教育对学校教育的影响[J].中学生作文指导,2019,0(3):198-199.
4吴承超.对农村留守老人居家养老问题的探析[J].中国集体经济,2019(17):165-166. 被引量：1
5丁静.新时代基层初中教师的职业幸福感研究[J].考试周刊,2019,0(40):9-9.
6祖志文,李秦.基于粒子群优化的马氏距离模糊聚类算法[J].重庆邮电大学学报（自然科学版）,2019,31(2):279-284. 被引量：14
7甘井中,黄恒杰.高校软件工程专业学生培养的探索与研究[J].计算机产品与流通,2019,8(5):199-199.
8傅立伟,武森.基于属性值集中度的分类数据聚类有效性内部评价指标[J].工程科学学报,2019,41(5):682-693. 被引量：14
9黄晓敏.大学生传统文化缺失的对策探讨[J].决策探索,2019,0(10):49-50.
10陈郁,陆莹.30种口服中成药关于儿童用药信息的调查与分析[J].中国医药指南,2019,17(16):168-169. 被引量：5

统计与决策

2019年第11期

浏览历史

内容加载中请稍等...

混合型数据聚类方法的比较被引量：2

参考文献4

二级参考文献35

共引文献45

同被引文献14

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

混合型数据聚类方法的比较 被引量：2

参考文献4

二级参考文献35

共引文献45

同被引文献14

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

混合型数据聚类方法的比较被引量：2