一种基于属性值权重的k-modes聚类分析算法被引量：1

A K-modes Clustering Algorithm Based on Attribute Value Weight

下载PDF

导出

摘要针对k-modes方法未考虑各属性值在属性空间的分布特征而导致分类变量间差异性度量不准确的问题,提出了一种基于属性值权重的k-modes聚类分析算法。该算法利用属性值之间的差异和属性值的权重,重新定义了相异度度量公式;采用属性值频率和各属性值的权重,给出一种聚类中心更新迭代公式,有效地体现了属性值在属性空间中的分布特征和属性之间的重要性差异;采用UCI数据集,验证了算法的有效性。 Aiming at the problem that the k-modes method does not consider the distribution characteristics of each attribute value in the attribute space,which leads to the inaccurate measurement of the difference between categorical variables,a k-modes clustering analysis algorithm based on attribute value weights is proposed.The algorithm uses the difference between attribute values and the weight of the attribute value to redefine the dissimilarity measurement formula,adopts the frequency of the attribute value and the weight of each attribute value to give an iterative formula for updating cluster centers,which effectively reflects the distribution characteristics of attribute values in the attribute space and the importance difference between attributes.UCI data set is used to verify the effectiveness of the algorithm.

作者郝荣丽胡立华 HAO Rongli;HU Lihua(School of Computer Science and Technology,Taiyuan University of Science and Technology,Taiyuan 030024)

机构地区太原科技大学计算机科学与技术学院

出处《计算机与数字工程》 2023年第5期1001-1004,1119,共5页 Computer & Digital Engineering

关键词聚类分析 k-modes 属性值权重属性值频率相异度度量 clustering analysis k-modes attribute value weight attribute value frequency dissimilarity measure

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1贾瑞玉,宋飞豹,汤深伟.双精英遗传策略的基因聚类算法[J].小型微型计算机系统,2020,41(7):1375-1380. 被引量：7
2王峥,温光洒,邱秀连.基于粗糙集和动态模糊神经网络的股市预测研究[J].计算机与数字工程,2020,48(3):517-522. 被引量：1
3蔡江辉,杨雨晴,杨海峰,罗阿理,孔啸,张继福.基于轨迹聚类的天光光谱特征分析[J].光谱学与光谱分析,2019,39(4):1301-1306. 被引量：4
4孟磊,张素兰,胡立华,张继福.基于低秩稀疏分解优化的图像标签完备[J].计算机辅助设计与图形学学报,2020,32(1):36-44. 被引量：3
5赵文冲,蔡江辉,赵旭俊,张继福.一种影响空间下的快速K-means聚类算法[J].小型微型计算机系统,2016,37(9):2060-2064. 被引量：7
6刘亚梅,闫仁武.一种基于密度聚类的分布式离群点检测算法[J].计算机与数字工程,2019,47(6):1320-1325. 被引量：11
7聂瑶瑶,胡立华,张继福,张素兰.基于网格多密度的古建筑图像特征匹配方法[J].计算机辅助设计与图形学学报,2020,32(3):437-444. 被引量：9
8周爱武,于亚飞.K-Means聚类算法的研究[J].计算机技术与发展,2011,21(2):62-65. 被引量：134
9贾彬,梁毅,苏航.一种改进的K-Modes聚类算法[J].软件导刊,2019,18(6):60-64. 被引量：7
10白亮,梁吉业,曹付元.基于粗糙集的改进K-Modes聚类算法[J].计算机科学,2009,36(1):162-164. 被引量：15

二级参考文献90

1张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
2陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75. 被引量：44
3黄添强,秦小麟,叶飞跃.基于方形邻域的离群点查找新方法[J].控制与决策,2006,21(5):541-545. 被引量：16
4孟伟,韩学东,洪炳镕.蜜蜂进化型遗传算法[J].电子学报,2006,34(7):1294-1300. 被引量：78
5李业丽,秦臻.一种改进的k-means算法[J].北京印刷学院学报,2007,15(2):63-65. 被引量：9
6Han Jiawei,Kamber M. Data Mining:Concepts and Techniques. San Francisco, US: Morgan Kaufmann, 2001
7MacQueen J B. Some methods for classification and analysis of multivariate observation//Proceeding 5^th Berkley Symposium, on Mathematical Statistics and Probability. 1967, I:281-297. University of California Press, 1967, Xvii, 666
8Huang Zhexue. Clustering Large Data Sets with Mixed Numeric and Categorical Values//PAKDD'97. Singapore, World Scientific, 1997:21-35
9Huang Zhexue. Extensions to the k Means algorithm for clustering large data sets with categorical values. Data Mining and Knowledge Discovery, 1998,2 : 283-304
10Michael K, Ng M, Li Junjie, et al. On the impact of dissimilarity measure in K-Modes clustering algorithm. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2007,29 (3) : 503-507

共引文献209

1赵翠翠,尹春华.K-means和SOM在商品评论中的情感词聚类对比[J].北京信息科技大学学报（自然科学版）,2020,35(1):23-26. 被引量：6
2赵兴旺,梁吉业,曹付元.符号数据最佳聚类个数的确定方法[J].广西师范大学学报（自然科学版）,2009,27(3):130-133.
3李仁侃,叶东毅.粗糙K-Modes聚类算法[J].计算机应用,2011,31(1):97-100. 被引量：5
4贾俊芳,李德玉.一种有效的高维分类数据聚类方法研究[J].微电子学与计算机,2011,28(6):88-91. 被引量：2
5徐丽,丁世飞.粒度聚类算法研究[J].计算机科学,2011,38(8):25-28. 被引量：11
6武森,叶俞飞,俞晓莉.拓展集合差异度高维数据聚类[J].计算机应用研究,2011,28(9):3253-3255.
7申彦,宋顺林,朱玉全.一种基于半监督的大规模数据集聚类算法[J].南京大学学报（自然科学版）,2011,47(4):372-382. 被引量：1
8孙晓博,廖桂平.基于新的相似性度量的加权粗糙聚类算法[J].计算机工程与科学,2011,33(12):110-115. 被引量：1
9吴润秀.基于互信息量的改进K-Modes聚类方法[J].统计与决策,2012,28(6):89-91. 被引量：3
10武森,张文丽,黄慧敏,叶俞飞.FD-CABOSFV区间变量高维数据聚类[J].信息系统学报,2012,6(1):77-87.

同被引文献4

1章永来,周耀鉴.聚类算法综述[J].计算机应用,2019,39(7):1869-1882. 被引量：204
2赵鑫,汪丽娟,行艳妮,赵燚,赵京霞,钱育蓉.改进的CK-means优化及并行策略[J].计算机应用研究,2020,37(11):3287-3291. 被引量：7
3季玉琦,严亚帮,和萍,刘小梅,李从善,赵琛,范嘉乐.基于K-Medoids聚类与栅格法提取负荷曲线特征的CNN-LSTM短期负荷预测[J].电力系统保护与控制,2023,51(18):81-93. 被引量：9
4李静波,顾园园.基于模糊K-Means的MBD随机样本分类仿真[J].计算机仿真,2023,40(8):473-477. 被引量：1

引证文献1

1叶帅辰.基于Canopy-Kmeans++算法的网络威胁流量检测[J].信息技术与信息化,2024(7):155-158.

1赵健.基于k多数值代表的混合矩阵对象数据聚类[J].吉林大学学报（理学版）,2022,60(4):929-942. 被引量：1
2周慧鑫,姜合,王艳梅.非独立同分布下的K-Modes算法[J].计算机工程与设计,2023,44(1):182-187.
3张革,鲍丽光,陈娟,岳梓媛.基于数据挖掘技术和聚类分析算法的台区线损分析模型研究[J].电工技术,2023(13):27-31. 被引量：5
4张清霞.共同富裕背景下相对贫困测度指标体系及其标准构建的思考——基于杭州现实和共同富裕展望[J].江苏商论,2023(8):133-135.
5陈鸿杰,何玉林,黄哲学,尹剑飞.基于候选中心融合的多观测点I-nice聚类算法[J].模式识别与人工智能,2022,35(4):348-362.
6杨益江,郭晓伟,肖志祥.IDDES-SPOM方法高精度预测空天飞行器激波边界层干扰非定常局部分离流动[J].空天技术,2023(2):35-47.
7季雨瑄,叶军,杨震宇,敖家欣.一种人工蜂群算法优化的邻域粗糙集特征选择方法[J].郑州大学学报（理学版）,2023,55(6):55-62. 被引量：1

计算机与数字工程

2023年第5期

浏览历史

内容加载中请稍等...

一种基于属性值权重的k-modes聚类分析算法被引量：1

参考文献13

二级参考文献90

共引文献209

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于属性值权重的k-modes聚类分析算法 被引量：1

参考文献13

二级参考文献90

共引文献209

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于属性值权重的k-modes聚类分析算法被引量：1