基于局部和全局信息的改进聚类算法被引量：3

Improved Clustering Algorithm Based on Local and Global Information

下载PDF

导出

摘要传统K-means算法在随机选取初始聚类中心时,容易导致结果不稳定,谱聚类算法直接在相似矩阵上进行分割,对结果的准确性影响较大,而局部和全局正则化聚类算法未考虑数据空间分布对结果的影响。为此,引入离散度矩阵对局部和全局正则化聚类算法进行改进。改进算法考虑数据的分布信息,通过在局部信息目标函数中引入离散度矩阵,结合全局信息的目标函数,将目标函数最小化问题转换为分解稀疏矩阵特征的问题。在UCI机器学习数据集和公共数据挖掘数据集上的实验结果表明,与K-means及标准谱聚类算法相比,该算法的预测精度更高。 Traditional K-means clustering algorithm is sensitive to the initialization. Spectral clustering operates on the similar matrix,and severely affects the cluster result. Clustering with local and global regularization does not take the distribution of data set into consideration. To solve this problem,this paper introduces the dispersion matrix to improve the clustering on the base of local and global regularization. The proposed algorithm takes the distribution of data set into consideration which combines the local information and dispersion matrix. The global optimal information is considered, and then it gets the final optimization problem which can be solved by the eigenvalue decomposition of a spare symmetric matrix. Several mentioned algorithms are tested on UCI machine learning data sets and public data mining data sets. Experimental results and comparison results show the greater performance of the proposed algorithm.

作者许小龙王士同梅向东

机构地区江南大学数字媒体学院赞奇科技发展有限公司

出处《计算机工程》 CAS CSCD 北大核心 2015年第6期165-171,共7页 Computer Engineering

基金江苏省自然科学基金资助项目(BK2011417)

关键词 K-MEANS算法谱聚类离散度矩阵特征分解 UCI数据集 K-means algorithm spectral clustering dispersion matrix characteristic decomposition UCI data set

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献22

1孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1077
2Han Jiawei,Kamber M.Data Mining:Concepts and Techniques[M].San Francisco,USA:Morgan Kaufmann Publishers,2001.
3Duda R O,Hart P E,Stork D G.Pattern Classication[M].New York,USA:John Wiley&Sons Inc.,2001.
4He Ji,Lan Man,Tan Chew-Lim,et al.Initialization of Cluster Refinement Algorithms:A Review and Comparative Study[C]//Proceedings of International Joint Conference on Neural Networks.Washington D.C.,USA:IEEE Computer Society,2004:297-302.
5Zha Hongyuan,He Xiaofeng,Chris D,et al.Spectral Relaxation for K-means Clustering[C]//Proceedings of Advances in Neural Information Processing Systems.Cambridge,USA:MIT Press,2002:1057-1064.
6Shi Jianbo,Malik J.Normalized Cuts and Image Segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2000,22(8):888-905.
7Wang Fei,Zhang Changshui,Li Tao.Clustering with Local and Global Regularization[J].IEEE Transactions on Knowledge and Data Engineering,2009,21(12):1665-1678.
8Belkin M,Niyogi P.Laplacian Eigenmaps for Dimensionality Reduction and Data Representation[J].Neural Computation,2003,15(6):1373-1396.
9Zhou Dengyong,Bousquet O,Lal T N,et al.Learning with Local and Global Consistency[C]//Proceedings of Advances in Neural Information Processing Systems.Cambridge,USA:MIT Press,2003:321-328.
10Roweis S,Saul L.Nonlinear Dimensionality Reduction by Locally Linear Embedding[J].Science,2000,290(5500):2323-2326.

二级参考文献1

1李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114

共引文献1076

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
3林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
4高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
5毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
6张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：4
7李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
8尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
9段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
10何睿,余娜,李淼,张峻巍,王浩杰,赵玉茗.基于单细胞RNA测序数据的细胞类型聚类算法[J].智能计算机与应用,2020,10(7):104-108. 被引量：2

同被引文献10

1王玲,薄列峰,焦李成.密度敏感的半监督谱聚类[J].软件学报,2007,18(10):2412-2422. 被引量：95
2郑超,苗夺谦,王睿智.基于密度加权的粗糙K-均值聚类改进算法[J].计算机科学,2009,36(3):220-222. 被引量：25
3王国胤,姚一豫,于洪.粗糙集理论与应用研究综述[J].计算机学报,2009,32(7):1229-1246. 被引量：370
4陶新民,宋少宇,曹盼东,付丹丹.一种基于流形距离核的谱聚类算法[J].信息与控制,2012,41(3):307-313. 被引量：27
5卢志茂,李纯,张琦.近邻传播的文本聚类集成谱算法[J].哈尔滨工程大学学报,2012,33(7):899-905. 被引量：9
6张腾飞,陈龙,李云.基于簇内不平衡度量的粗糙K-means聚类算法[J].控制与决策,2013,28(10):1479-1484. 被引量：12
7葛洪伟,李志伟,杨金龙.基于局部密度估计和近邻关系传播的谱聚类[J].模式识别与人工智能,2014,27(9):856-864. 被引量：6
8许洪玮,曹江中,何家峰,戴青云.基于密度与路径的稳健谱聚类[J].计算机工程与应用,2015,51(2):165-170. 被引量：1
9李晓红,谢蒙,马慧芳,何廷年.一种基于谱分割的短文本聚类算法[J].计算机工程,2016,42(8):178-182. 被引量：1
10马福民,逯瑞强,张腾飞.基于边界区域局部模糊增强的πRKM聚类算法[J].控制与决策,2017,32(11):1949-1956. 被引量：4

引证文献3

1张嘉琪,张红云.拐点估计的改进谱聚类算法[J].小型微型计算机系统,2017,38(5):1049-1053. 被引量：4
2孙静勇,马福民.基于邻域归属信息混合度量的粗糙K-Means算法[J].计算机工程,2021,47(3):109-116. 被引量：7
3陶洋,鲍灵浪,胡昊.结构约束的对称低秩表示子空间聚类算法[J].计算机工程,2021,47(4):56-61. 被引量：5

二级引证文献16

1李琪,张欣,张平康,张航.基于密度峰值优化的Canopy-Kmeans并行算法[J].通信技术,2018,51(2):312-317. 被引量：7
2申锐,吴睿.抽样改进加权核大数据谱聚类算法[J].机械设计与制造,2021(1):171-174. 被引量：3
3孙登第,凌媛,丁转莲,罗斌.基于稀疏子空间聚类的多层网络社团检测[J].计算机工程,2021,47(10):52-60. 被引量：2
4田浩.自动调优技术在智慧校园数据库的应用与优化[J].湖南邮电职业技术学院学报,2021,20(4):26-29. 被引量：2
5黄为.一种基于大数据的网络安全主动防御系统研究与设计[J].网络安全技术与应用,2022(9):59-61. 被引量：2
6王睿.基于K-means算法的网络主动安全防御系统研究与设计[J].网络安全技术与应用,2022(11):31-33. 被引量：2
7黄奕轩,杜世强,余瑶,肖庆江,宋金梅.基于特征选择与鲁棒图学习的多视图聚类[J].计算机工程,2022,48(12):95-103. 被引量：3
8赵晓杰,牛雪莹,张继福.基于联合熵的多视图集成聚类分析[J].计算机工程,2023,49(10):112-119.
9苏丰睿,穆伟伟,赵宣茗,裘智峰.一种划分聚类k值与中心初始化的改进方法[J].计算机工程,2023,49(11):85-93.
10王丽娟,邢津萍,尹明,郝志峰,蔡瑞初,温雯.基于一致性图的权重自适应多视角谱聚类算法[J].计算机工程,2024,50(2):122-131.

1郭亚琴,王正群.基于类内类间离散度的分类器设计方法[J].信息技术,2010,34(5):35-37. 被引量：5
2钟智彦,文志强,叶德刚.基于改进协方差矩阵的半色调图像分类研究[J].微型机与应用,2015,34(19):54-57.
3王鹏飞,舒红平,郑皎凌,文立玉.演化聚类在离散制造业质量管理中的应用[J].四川理工学院学报（自然科学版）,2013,26(3):71-75.
4忻凌,倪志伟,黄玲.基于数据流的BIRCH改进聚类算法[J].计算机工程与应用,2007,43(5):166-168. 被引量：6
5徐野,季雨.一种MapReduce框架下的客户分群算法研究[J].电子世界,2017,0(7):60-60.
6赵云,顾健,张笑笑.一种改进聚类算法在入侵检测中的应用[J].信息安全与技术,2012,3(12):15-19. 被引量：1
7许小龙,王士同.基于局部和全局信息的正则化迭代聚类[J].南京师大学报（自然科学版）,2014,37(3):21-28.
8邱占芝,张庆灵,刘明.不确定时延输出反馈网络化系统保性能控制[J].控制理论与应用,2007,24(2):274-278. 被引量：21
9王耀明,王仲国,沈毅俊.图像集的离散度矩阵及其在人脸图像识别中的应用[J].计算机应用与软件,2001,18(5):11-14. 被引量：3
10沈海燕,李星毅.一种新的基于标签传播的重叠社区发现算法[J].软件导刊,2015,14(4):59-62. 被引量：4

计算机工程

2015年第6期

浏览历史

内容加载中请稍等...

基于局部和全局信息的改进聚类算法被引量：3

参考文献22

二级参考文献1

共引文献1076

同被引文献10

引证文献3

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于局部和全局信息的改进聚类算法 被引量：3

参考文献22

二级参考文献1

共引文献1076

同被引文献10

引证文献3

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于局部和全局信息的改进聚类算法被引量：3