一种可重叠子空间K-Means聚类算法被引量：5

An Overlapping Subspace K-Means Clustering Algorithm

下载PDF

导出

摘要现有聚类算法面向高维稀疏数据时多数未考虑类簇可重叠和离群点的存在,导致聚类效果不理想。为此,提出一种可重叠子空间K-Means聚类算法。设计类簇子空间计算策略,在聚类过程中动态更新每个类簇的属性子空间,并定义合理的约束函数指导聚类过程,从而实现类簇的可重叠性与离群点的控制。在此基础上定义合理的目标函数对传统K-Means算法进行修正,利用熵权约束分别计算每个类簇中各维度的权重,使用权重值标识不同类簇中维度的相对重要性,并加入控制重叠程度和离群值数量的参数。在人工数据集和真实数据集上的实验结果表明,该算法在NMI、F1指标上均优于EWKM、NEO-K-Means、OKM等子空间聚类算法,具有更好的聚类结果。 Most of existing clustering algorithms for high-dimensional sparse data do not consider overlapping class clusters and outliers,resulting in unsatisfactory clustering results.Therefore,this paper proposes an overlapping subspace K-Means clustering algorithm.The computing strategy for class cluster subspace is given.The attribute subspace of each class cluster is dynamically updated in the clustering process,and a reasonable constraint function is defined to guide the clustering process,so as to realize the overlap of clusters and the control of outliers.On this basis,a reasonable objective function is defined to modify the traditional K-Means algorithm,and the weight of each dimension in each class cluster is calculated by using the entropy weight constraint.The value of weight is used to identify the relative importance of the dimensions in different class clusters.And some parameters are added to control the degree of overlap and the number of outliers.Experimental results on artificial data set and real data set show that the proposed algorithm outperforms EWKM,NEO-K-Means,OKM and other subspace clustering algorithms in terms of NMI and F1 indicators with better clustering results.

作者刘宇航马慧芳刘海姣余丽 LIU Yuhang;MA Huifang;LIU Haijiao;YU Li(College of Computer Science and Engineering,Northwest Normal University,Lanzhou 730070,China;Guangxi Key Laboratory of Trusted Software,Guilin University of Electronic Technology,Guilin,Guangxi 541004,China)

机构地区西北师范大学计算机科学与工程学院桂林电子科技大学广西可信软件重点实验室

出处《计算机工程》 CAS CSCD 北大核心 2020年第8期58-63,71,共7页 Computer Engineering

基金国家自然科学基金(61762078,61363058) 广西可信软件重点实验室研究课题(kx202003) 广西多源信息挖掘与安全重点实验室开放基金(MIMS18-08) 西北师范大学2019年度青年教师科研能力提升计划重大项目(NWNU-LKQN2019-2)。

关键词目标函数子空间聚类离群点熵权约束 K-MEANS聚类算法 objective function subspace clustering outlier entropy weight constraint K-Means clustering algorithm

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1王千,王成,冯振元,叶金凤.K-means聚类算法研究综述[J].电子设计工程,2012,20(7):21-24. 被引量：306
2夏佳志,张亚伟,张健,蒋广,李瑞,陈为.一种基于子空间聚类的局部相关性可视分析方法[J].计算机辅助设计与图形学学报,2016,28(11):1855-1862. 被引量：8

二级参考文献13

1Anil K J. Data clustering:50 years beyond K-Means[J].Pattern Recognition Letters,2010,(08):651-666.
2Likas A,Vlassis M,Verbeek J. The global K-means clustering algorithm[J].Pattern Recognition,2003,(02):451-461.doi:10.1016/S0031-3203(02)00060-2.
3Selim S Z,Al-Sultan K S. Analysis of global K-means,an incremental heuristic for minimum sum-of-squares clustering[J].Journal of Classification,2005,(22):287-310.
4Bellman R,Dreyfus S. Applied dynamic programming[M].Princeton,New Jersey:Princeton University Press,1962.
5Aloise D,Deshpande A,Hansen P. NP-hardness of euclidean sum-of-squares clustering[J].Machine Learning,2009,(02):245-248.
6Mahajan M,Nimbor P,Varadarajan K. The planar K-means problem is NP-hard[J].Lecture Notes in Computer Science,2009,(5431):274-285.
7Ball G,Hall D. ISODATA,a novel method of data analysis and pattern classification[Technical rept. NTIS AD 699616. ][M].California:Stanford Research Institute,1965.
8WANG Cheng,LI Jiao-jiao,BAI Jun-qing. Max-Min K- means Clustering Algorithm and Application in Post-processing of Scientific Computing[A].Napoli,2011.7-9.
9Pena J M,Lozano J A,Larranaga P. An empirical comparison of four initialization methods for the K-means algorithm[J].Pattern Recognition Letters,1999,(20):1027-1040.doi:10.1016/S0167-8655(99)00069-0.
10Lai J Z C,Tsung-Jen H. Fast global K-means clustering using cluster membership and inequality[J].Pattern Recogni- tion,2010,(43):1954-1963.

共引文献312

1马燕,余海军,钟发生,刘丰林.基于残差编解码网络的CT图像金属伪影校正[J].仪器仪表学报,2020,41(8):160-169. 被引量：17
2谢皓,孙小东,何海熙.基于K-means聚类的高炉操作炉型研究[J].冶金自动化,2023,47(S01):88-91.
3高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
4赵源,王越,胡华.基于POI-K-means地铁车站聚类方法研究[J].智能计算机与应用,2022,12(5):114-118. 被引量：4
5Kui Luo,Wenhui Shi,Weisheng Wang.Extreme scenario extraction of a grid with large scale wind power integration by combined entropy-weighted clustering method[J].Global Energy Interconnection,2020,3(2):140-148. 被引量：8
6郑攀,庹武.基于K-means聚类算法的女裤弹性面料分类研究[J].国际纺织导报,2014,42(5):71-72. 被引量：1
7单冬红,李玮瑶.基于约束性过滤的改进K均值挖掘算法研究[J].科技通报,2013,29(4):171-173. 被引量：4
8刘寒梅,张鹏.基于模拟退火算法对K-means聚类算法的优化[J].中国西部科技,2013,12(6):23-24. 被引量：2
9李欢,廖利.基于模糊能量自学习的汽车发动机传感器节点故障诊断方法研究[J].科技通报,2013,29(6):86-88. 被引量：1
10余文礼.基于聚类分析和贪心算法的文件碎片拼接复原[J].电子世界,2014(11):183-183.

同被引文献64

1杜佳颖,段隆振,段文影,卜秋瑾.基于Spark的改进K-means算法的并行实现[J].计算机应用研究,2020,37(2):434-436. 被引量：12
2王永贵,谢南,曲海成.基于存储改进的分区并行关联规则挖掘算法[J].计算机应用研究,2020,37(1):167-171. 被引量：6
3陈万志,赵宇璇.智慧校园隐式用户行为的数据挖掘方法[J].辽宁工程技术大学学报（自然科学版）,2020(5):434-439. 被引量：13
4孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1072
5陈娟,王国胤,胡军.优势关系下不协调信息系统的正域约简[J].计算机科学,2008,35(3):216-218. 被引量：24
6李梦刚,万长根,白彬珍.随钻压力测量技术现状及应用前景[J].断块油气田,2008,15(6):123-126. 被引量：24
7陈源,曾德胜,谢冲.基于聚类的属性约简方法[J].计算机系统应用,2009,18(5):173-176. 被引量：5
8倪超武,许明标,陈斌.钻井液水力学软件的编制与应用[J].长江大学学报（自科版）（上旬）,2009,6(4):186-188. 被引量：3
9毕春光,陈桂芬.基于数据挖掘的贝叶斯算法应用研究[J].农业网络信息,2010(3):19-22. 被引量：5
10包富鹏,高瑞香,李三国.随钻地层压力监测系统及其应用[J].内蒙古石油化工,2010,36(15):27-29. 被引量：5

引证文献5

1李青青,马慧芳,吴玉泽,刘海姣.面向属性网络的可重叠多向谱社区检测算法[J].计算机工程与科学,2020,42(6):984-992. 被引量：6
2张禾,全锐.K-means聚类优化井底压力修正模型研究[J].西南石油大学学报（自然科学版）,2021,43(3):155-164. 被引量：1
3李艳,范斌,郭劼,林梓源,赵曌.基于k-原型聚类和粗糙集的属性约简方法[J].计算机科学,2021,48(S01):342-348. 被引量：8
4陈娇花.基于改进K-means模糊聚类的区域健康大数据智能分析方法研究[J].电子设计工程,2022,30(19):30-34. 被引量：4
5周燕,肖莉.基于虚拟最近邻矩阵的用户偏好数据挖掘仿真[J].计算机仿真,2023,40(11):516-520.

二级引证文献19

1李永红,汪盈,李腊全,赵志强.一种改进的特征选择算法在邮件过滤中的应用[J].计算机科学,2022,49(S02):740-744. 被引量：4
2张玲,吴发辉.基于多模态融合的加权网络重叠社区划分算法[J].黑龙江工业学院学报（综合版）,2021,21(8):98-103. 被引量：3
3杨凡亿,马慧芳,闫彩瑞,宿云.融合双层注意力机制的属性网络节点嵌入[J].计算机工程与科学,2022,44(3):454-462.
4朱俊奇,郑皓天,杨力.基于RS-PSO-ELM的深部煤与瓦斯突出安全评价研究[J].煤炭技术,2022,41(3):169-172. 被引量：7
5关素洁,段卓镭,赖观祥,黎敏,邓少波.一种快速的属性与属性值合一数据约简算法[J].南昌工程学院学报,2022,41(4):44-51.
6张怡,谢晓金.基于K-means聚类与粗糙集的个人信用集成分类模型[J].软件导刊,2023,22(2):142-147.
7李晓丽,苏钦,吴博,李赢洲,李庆谦.基于K-means聚类算法的百货商场用户价值分析[J].山西师范大学学报（自然科学版）,2023,37(1):7-13. 被引量：2
8赵琰,金柳,马慧芳,苏变萍,高玮蔚.面向二分网络的谱近似社区搜索方法[J].计算机工程与科学,2023,45(4):743-750.
9刘伟,唐纯静,付加胜,宋先知,徐宝昌,计杨杨.复杂油气溢漏早期识别与安全控制研究进展[J].石油机械,2023,51(5):9-16. 被引量：4
10闫彩瑞,马慧芳,李青青.基于谱图小波的多尺度社区搜索方法[J].计算机工程与科学,2023,45(6):1106-1115.

1汪倩,袁永生.基于熵权DEA(E-DEA)模型的江苏省农业生产效率评价[J].湖北农业科学,2019,58(22):229-233. 被引量：1
2王统伟.基于运行效率的区域道路规划方案评价研究[J].江苏交通科技,2018,0(6):2-5.
3黄佳雯,王丽娟,王利伟.稀疏子空间聚类算法研究[J].现代计算机,2020,26(16):65-70. 被引量：2
4王丽娟,丁世飞,丁玲.基于迁移学习的软子空间聚类算法[J].南京大学学报（自然科学版）,2020,56(4):515-523. 被引量：4
5范虹,史肖敏,姚若侠.头脑风暴算法优化的乳腺MR图像软子空间聚类算法[J].计算机科学与探索,2020,14(8):1348-1357. 被引量：1
6徐骏飞.以物质的量为中心的计算策略分析[J].高中数理化,2020(12):53-53.
7肖木峰,李波,祁航.BIM云技术在建筑施工安全管理中的应用[J].住宅科技,2020,40(7):68-71. 被引量：2
8龚旭,付强,王磊,杨彪,张全建,张远彬.四川鞍子河保护地水鹿和羚牛栖息地适宜性评价与重叠性分析[J].生态学报,2020,40(14):4842-4851. 被引量：14
9王永昌.80t电炉生产线冶炼系统信息化平台的设计[J].山西冶金,2020,43(3):126-129.
10林虎,顾栋,康琳.基于梯度提升决策树的低压台区线损率预测[J].信息技术,2020,44(8):108-113. 被引量：11

计算机工程

2020年第8期

浏览历史

内容加载中请稍等...

一种可重叠子空间K-Means聚类算法被引量：5

参考文献2

二级参考文献13

共引文献312

同被引文献64

引证文献5

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

一种可重叠子空间K-Means聚类算法 被引量：5

参考文献2

二级参考文献13

共引文献312

同被引文献64

引证文献5

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

一种可重叠子空间K-Means聚类算法被引量：5