一种适用于混合型分类数据的聚类算法被引量：5

Clustering Algorithm for Mixed Categorical Data

下载PDF

导出

摘要传统的K-modes算法采用简单的属性匹配方式计算同一属性下不同属性值的距离,并且计算样本距离时令所有属性权重相等。在此基础上,综合考虑有序型分类数据中属性值的顺序关系、无序型分类数据中不同属性值之间的相似性以及各属性之间的关系等,提出一种更加适用于混合型分类数据的改进聚类算法,该算法对无序型分类数据和有序型分类数据采用不同的距离度量,并且用平均熵赋予相应的权重。实验结果表明,改进算法在人工数据集和真实数据集上均有比K-modes算法及其改进算法更好的聚类效果。 The K-modes algorithm is a traditional clustering technique, which uses a simple matching method to calculate the distance of different attribute values within one, while the weights of all attributes are the same. Taking this into account, the paper gives a new improved clustering algorithm. The new algorithm is more suitable for mixed categorical data by considering the sequential relation of attribute values in orderly categorical data, and the similarity between different attribute values in disordered categorical data and the relationship between attributes. The new algorithm deals with orderly categorical data and disordered categorical data by using different distance measurements. Moreover, the weights of attributes are given by average entropy. The experimental results show that the algorithm presented has better performance than the K-modes algorithm and its improved algorithm in both the artificial data set and the real data set.

作者林强唐加山 LIN Qiang;TANG Jiashan(College of Science,Nanjing University of Posts and Telecommunications,Nanjing 210023,China)

机构地区南京邮电大学理学院

出处《计算机工程与应用》 CSCD 北大核心 2019年第1期168-173,共6页 Computer Engineering and Applications

关键词聚类算法混合型分类数据距离度量 K-modes算法 clustering algorithm mixed categorical data distance metric K-modes algorithm

分类号 O212 [理学—概率论与数理统计] TP39 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1赵亮,刘建辉,张昭昭.基于贝叶斯距离的K-modes聚类算法[J].计算机工程与科学,2017,39(1):188-193. 被引量：5
2黄苑华,谢峰,郝志峰,蔡瑞初.基于结构相似性的k-modes算法[J].计算机工程与应用,2017,53(23):102-107. 被引量：2
3梁吉业,白亮,曹付元.基于新的距离度量的K-Modes聚类算法[J].计算机研究与发展,2010,47(10):1749-1755. 被引量：45
4白亮,梁吉业,曹付元.基于粗糙集的改进K-Modes聚类算法[J].计算机科学,2009,36(1):162-164. 被引量：15
5许元斌,李国辉,郭昆,郭松荣,林炜.基于改进的并行K-Means算法的电力负荷聚类研究[J].计算机工程与应用,2017,53(17):260-265. 被引量：16
6江峰,杜军威,刘国柱,眭跃飞.基于加权的K-modes聚类初始中心选择算法[J].山东大学学报（工学版）,2016,46(2):29-34. 被引量：1
7熊拥军,刘卫国,欧鹏杰.模糊C-均值聚类算法的优化[J].计算机工程与应用,2015,51(11):124-128. 被引量：16

二级参考文献71

1张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
2诸克军,苏顺华,黎金玲.模糊C-均值中的最优聚类与最佳聚类数[J].系统工程理论与实践,2005,25(3):52-61. 被引量：69
3王娟,慈林林,姚康泽.特征选择方法综述[J].计算机工程与科学,2005,27(12):68-71. 被引量：64
4陈宗海,文锋,聂建斌,吴晓曙.基于节点生长k-均值聚类算法的强化学习方法[J].计算机研究与发展,2006,43(4):661-666. 被引量：13
5纪良浩,王国胤,杨勇.基于协作过滤的Web日志数据预处理研究[J].重庆邮电学院学报（自然科学版）,2006,18(5):646-649. 被引量：9
6Han Jiawei,Kamber M. Data Mining:Concepts and Techniques. San Francisco, US: Morgan Kaufmann, 2001
7MacQueen J B. Some methods for classification and analysis of multivariate observation//Proceeding 5^th Berkley Symposium, on Mathematical Statistics and Probability. 1967, I:281-297. University of California Press, 1967, Xvii, 666
8Huang Zhexue. Clustering Large Data Sets with Mixed Numeric and Categorical Values//PAKDD'97. Singapore, World Scientific, 1997:21-35
9Huang Zhexue. Extensions to the k Means algorithm for clustering large data sets with categorical values. Data Mining and Knowledge Discovery, 1998,2 : 283-304
10Michael K, Ng M, Li Junjie, et al. On the impact of dissimilarity measure in K-Modes clustering algorithm. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2007,29 (3) : 503-507

共引文献89

1陈小全,张继红.基于改进粒子群算法的聚类算法[J].计算机研究与发展,2012,49(S1):287-291. 被引量：31
2赵兴旺,梁吉业,曹付元.符号数据最佳聚类个数的确定方法[J].广西师范大学学报（自然科学版）,2009,27(3):130-133.
3李仁侃,叶东毅.粗糙K-Modes聚类算法[J].计算机应用,2011,31(1):97-100. 被引量：5
4贾俊芳,李德玉.一种有效的高维分类数据聚类方法研究[J].微电子学与计算机,2011,28(6):88-91. 被引量：2
5徐丽,丁世飞.粒度聚类算法研究[J].计算机科学,2011,38(8):25-28. 被引量：11
6武森,叶俞飞,俞晓莉.拓展集合差异度高维数据聚类[J].计算机应用研究,2011,28(9):3253-3255.
7孙晓博,廖桂平.基于新的相似性度量的加权粗糙聚类算法[J].计算机工程与科学,2011,33(12):110-115. 被引量：1
8吴润秀.基于互信息量的改进K-Modes聚类方法[J].统计与决策,2012,28(6):89-91. 被引量：3
9武森,张文丽,黄慧敏,叶俞飞.FD-CABOSFV区间变量高维数据聚类[J].信息系统学报,2012,6(1):77-87.
10周石泉,蒙祖强.基于数据相容填补的极大相容块构造算法[J].计算机科学,2012,39(9):192-197. 被引量：1

同被引文献21

1梁吉业,白亮,曹付元.基于新的距离度量的K-Modes聚类算法[J].计算机研究与发展,2010,47(10):1749-1755. 被引量：45
2陈黎飞,郭躬德.属性加权的类属型数据非模聚类[J].软件学报,2013,24(11):2628-2641. 被引量：7
3张江林,张亚超,洪居华,高红均,刘俊勇.基于离散小波变换和模糊K-modes的负荷聚类算法[J].电力自动化设备,2019,39(2):100-106. 被引量：21
4ZHOU KaiLe,FU Chao,YANG ShanLin.Fuzziness parameter selection in fuzzy c-means: The perspective of cluster validation[J].Science China(Information Sciences),2014,57(11):247-254. 被引量：10
5赵兴旺,梁吉业.一种基于信息熵的混合数据属性加权聚类算法[J].计算机研究与发展,2016,53(5):1018-1028. 被引量：42
6周治平,朱书伟,张道文.分类数据的多目标模糊中心点聚类算法[J].计算机研究与发展,2016,53(11):2594-2606. 被引量：10
7赵俊杰,王平.一种面向于混合属性数据的聚类改进算法及其在客户细分中的应用[J].南昌大学学报（工科版）,2017,39(3):284-288. 被引量：2
8邹臣嵩,杨宇.基于最大距离积与最小距离和协同K聚类算法[J].计算机应用与软件,2018,35(5):297-301. 被引量：15
9吴信东,嵇圣硙.MapReduce与Spark用于大数据分析之比较[J].软件学报,2018,29(6):1770-1791. 被引量：74
10于晓飞,葛洪伟.自动确定聚类中心的势能聚类算法[J].计算机科学与探索,2018,12(6):1004-1012. 被引量：9

引证文献5

1袁方,杨有龙.针对混合型分类数据改进的K-modes算法距离公式[J].计算机工程与应用,2020,56(6):186-193. 被引量：3
2安宁,江思源,唐晨,杨矫云.融合单纯形映射与熵加权的聚类方法[J].计算机工程与应用,2020,56(9):148-155. 被引量：4
3郑忠斌,孙繁荣.基于Spark与改进K- modes的增量聚类研究[J].信息技术,2020,44(6):50-55. 被引量：1
4李顺勇,余曼,王改变.Fuzzy BC-k-modes:一种分类矩阵对象数据的聚类算法[J].计算机应用与软件,2023,40(1):287-297.
5郑丽苹,邓秀勤,张逸群.基于图结构的分类数据距离度量[J].广东工业大学学报,2023,40(4):109-116.

二级引证文献8

1郑国华,李果,吕品磊,廖建军.衡阳盆地乡村聚落景观格局演变规律探究及相似性分析[J].南华大学学报（自然科学版）,2019,33(5):90-96. 被引量：1
2郑忠斌,孙繁荣.基于Spark与改进K- modes的增量聚类研究[J].信息技术,2020,44(6):50-55. 被引量：1
3张露,尚艳玲.基于数据分区的云计算高维数据均衡分流[J].济南大学学报（自然科学版）,2022,36(1):74-79. 被引量：5
4何云斌,刘婉旭,万静.障碍空间中Voronoi图优化的反向近邻数聚类算法[J].计算机科学与探索,2022,16(9):2041-2049.
5周慧鑫,姜合,王艳梅.非独立同分布下的K-Modes算法[J].计算机工程与设计,2023,44(1):182-187.
6王蓓,韩俊飞,李勇,王鹏,刘妍蕾.基于智能监控平台的电网安全预警技术研究[J].电网与清洁能源,2023,39(6):33-38.
7于春艳,张育梅.基于有序聚类方程的数据相似性识别数学建模[J].计算机仿真,2023,40(7):514-518.
8薛俊杰.智慧教育英语线上课程资源聚类系统设计[J].信息技术,2024,48(2):138-142.

1肖文杰.一种基于k-modes的冷启动问题解决算法[J].福建电脑,2018,34(8):28-29. 被引量：1
2黄苑华,谢峰,郝志峰,蔡瑞初.基于结构相似性的k-modes算法[J].计算机工程与应用,2017,53(23):102-107. 被引量：2
3全海金,何映思.基于大数据的改进模糊K-means算法[J].重庆理工大学学报（自然科学）,2018,32(12):145-148. 被引量：8
4赵丰明,樊艳芳,钱福如,陈伟伟.关于新能源并网供电无功性能优化设计研究[J].计算机仿真,2018,35(11):118-122. 被引量：5
5黄丽辉.局部二值平均熵模式与深度残差网络的人群密度估计[J].科学技术与工程,2018,18(27):162-169. 被引量：2
6齐林,邹雅迪,李飞,黎晓奇,张健.园区循环经济系统有序度研究:基于复杂网络结构熵视角[J].科技管理研究,2017,37(22):242-247. 被引量：2
7王全民,杨晶,张帅帅.一种基于改进果蝇优化的K-mediods聚类算法[J].计算机技术与发展,2018,28(12):17-22. 被引量：6
8戴天辰,顾正弘.基于传递距离的谱聚类算法[J].计算机与现代化,2018(12):61-66. 被引量：1
9朱庆峰,葛洪伟.K近邻相似度优化的密度峰聚类[J].计算机工程与应用,2019,55(2):148-153. 被引量：8
10于晓飞,葛洪伟.噪声环境下复杂流形数据的势能层次聚类算法[J].重庆邮电大学学报（自然科学版）,2018,30(6):848-854. 被引量：3

计算机工程与应用

2019年第1期

浏览历史

内容加载中请稍等...

一种适用于混合型分类数据的聚类算法被引量：5

参考文献7

二级参考文献71

共引文献89

同被引文献21

引证文献5

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

一种适用于混合型分类数据的聚类算法 被引量：5

参考文献7

二级参考文献71

共引文献89

同被引文献21

引证文献5

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

一种适用于混合型分类数据的聚类算法被引量：5