基于三阶张量的大规模数据谱聚类集成算法

Spectral clustering ensemble algorithm based on three-order tensor for large-scale data

下载PDF

导出

摘要为了降低大规模数据谱聚类计算负担,进一步提高聚类的准确性和鲁棒性,提出了一种基于三阶张量的大规模数据谱聚类集成算法。首先,提出一种混合代表最近邻近似方法构造数据间的稀疏亲和子矩阵;然后将稀疏亲和子矩阵表示为二部图,通过图分割的方法得到初步聚类结果;最后,提出三阶张量集成方法,将多个聚类结果进行融合,得到最终的聚类结果。在大规模的真实数据集和合成数据集上验证,相较经典的谱聚类算法、聚类集成算法以及近年来对其改进的算法,该算法表现出更优异的性能。 In order to reduce the computational burden of large-scale data spectral clustering and further improve the clustering accuracy and robustness,the spectral clustering ensemble algorithm based on the three-order tensor for large-scale data was proposed.The sparse affinity sub-matrix was first constructed by the mixed representative nearest neighbor approximation method.The sparse affinity sub-matrix was then represented as a bipartite graph.The preliminary clustering results were obtained by Graph Segmentation.Finally,an unified clustering result was obtained by fusing multiple clustering results through the three-order tensor ensemble method.On the real datasets and the synthetic datasets,the proposed algorithm showed a better performance compared to the classical spectral clustering algorithm,the clustering ensemble algorithm,and the improved algorithms in recent years.

作者仵匀政杜韬周劲陈迪王心耕 WU Yunzheng;DU Tao;ZHOU Jin;CHEN Di;WANG Xingeng(College of Information Science and Engineering,University of Jinan,Jinan 250024,China;Shandong Provincial Key Laboratory of Network Based Intelligent Computing,Jinan 250024,China)

机构地区济南大学信息科学与工程学院山东省网络环境智能计算技术重点实验室

出处《大数据》 2024年第3期133-148,共16页 Big Data Research

基金国家自然科学基金项目(No.62273164,No.61873324) 山东省自然科学基金项目(No.ZR2019MF040)。

关键词数据聚类大规模数据谱聚类三阶张量聚类集成 data clustering large-scale data spectral clustering three-order tensor clustering ensemble

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献8

1孙林,秦小营,徐久成,薛占熬.基于K近邻和优化分配策略的密度峰值聚类算法[J].软件学报,2022,33(4):1390-1411. 被引量：21
2胡春安,王家欣,毛伊敏.基于分组和IGSA的并行密度聚类算法[J].计算机应用研究,2021,38(11):3293-3299. 被引量：4
3江婧婷,郑朝晖.面向大规模节点划分的网格密度峰值聚类[J].小型微型计算机系统,2022,43(3):498-505. 被引量：6
4徐晓,丁世飞,孙统风,廖红梅.基于网格筛选的大规模密度峰值聚类算法[J].计算机研究与发展,2018,55(11):2419-2429. 被引量：25
5唐益明,丰刚永,任福继,胡相慧,张有成.面向结构复杂数据集的模糊聚类有效性指标[J].电子测量与仪器学报,2018,32(4):119-127. 被引量：11
6李凯,张可心.结构α-熵的加权高斯混合模型的子空间聚类[J].电子学报,2022,50(3):718-725. 被引量：8
7张熠玲,杨燕,周威,欧阳小草,胡节.CMvSC:知识迁移下的深度一致性多视图谱聚类网络[J].软件学报,2022,33(4):1373-1389. 被引量：5
8罗晓慧,李凡长,张莉,高家俊.基于选择聚类集成的相似流形学习算法[J].软件学报,2020,31(4):991-1001. 被引量：6

二级参考文献28

1LI Yulin,LIU Li,LONG Teng,DONG Weili.Metamodel-based Global Optimization Using Fuzzy Clustering for Design Space Reduction[J].Chinese Journal of Mechanical Engineering,2013,26(5):928-939. 被引量：13
2唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
3唐益明,刘晓平.二值命题逻辑的无损求解[J].计算机学报,2013,36(5):1097-1114. 被引量：4
4唐益明,岳峰,吴玺,龙梦启.面向RR算子的异蕴涵模糊控制器[J].电子测量与仪器学报,2013,27(8):735-743. 被引量：7
5CHEN Na,XU Ze-shui,XIA Mei-mei.Hierarchical hesitant fuzzy K-means clustering algorithm[J].Applied Mathematics(A Journal of Chinese Universities),2014,29(1):1-17. 被引量：21
6吴成茂,范九伦.基于数据划分最大信息的聚类有效性函数[J].西安电子科技大学学报,2001,28(6):781-784. 被引量：10
7周开乐,杨善林,丁帅,罗贺.聚类有效性研究综述[J].系统工程理论与实践,2014,34(9):2417-2431. 被引量：110
8贾洪杰,丁世飞,史忠植.求解大规模谱聚类的近似加权核k-means算法[J].软件学报,2015,26(11):2836-2846. 被引量：31
9Yan Yang,Hao Wang.Multi-view Clustering: A Survey[J].Big Data Mining and Analytics,2018,1(2):83-107. 被引量：42
10谢娟英,高红超,谢维信.K近邻优化的密度峰值快速搜索聚类算法[J].中国科学：信息科学,2016,46(2):258-280. 被引量：104

共引文献67

1李智冈,吕莉,谭德坤,康平,樊棠怀.基于加权核密度估计与微簇合并的密度峰值聚类算法[J].信息与控制,2024,53(3):302-314.
2陈金山.基于密度峰值的电子商务用户行为数据聚类方法[J].哈尔滨师范大学自然科学学报,2023,39(4):65-69.
3徐静,杨鹏,孙昊,王硕朋,张晓萌.基于模糊数据库构建的听觉定位方法[J].仪器仪表学报,2018,39(9):65-72. 被引量：3
4邹臣嵩,段桂芹.基于改进K-medoids的聚类质量评价指标研究[J].计算机系统应用,2019,28(6):235-242. 被引量：9
5何云斌,董恒,万静,李松.基于密度峰值和近邻优化的聚类算法[J].计算机科学与探索,2020,14(4):554-565. 被引量：7
6严加展,陈华,李阳.改进的模糊C-均值聚类有效性指标[J].计算机工程与应用,2020,56(9):156-161. 被引量：12
7杨雪洁,曹风云,陈洁,赵姝,张燕平.基于子模优化的边界域处理社团发现算法[J].电子测量与仪器学报,2020,32(4):111-117. 被引量：2
8姚红娟,王海.基于优化的克隆选择算法的灾害判别[J].国外电子测量技术,2020,39(5):28-33.
9任昌鸿,安军.改进PSO结合DSA技术的无线传感器网络均衡密度聚类方法[J].计算机应用与软件,2020,37(8):122-129. 被引量：4
10熊鑫.风险社会背景下算法的构建及司法运用研究[J].四川行政学院学报,2020(4):72-85. 被引量：1

1张博君.基于近邻传播聚类的电商商品信息个性化推送研究[J].中国信息界,2024(2):246-248.
2杨金瑞,刘继.基于网格的半监督密度峰值聚类算法[J].软件工程,2024,27(5):1-6.
3潘国炀.基于改进KNN算法的档案信息文本自动分类方法研究[J].信息与电脑,2024,36(4):71-73.
4杨小平,倪萍,诸葛天秋,罗跃新,郭春雨,庞月兰,吴雨婷.基于机器学习的茶树DNA聚类算法[J].广西大学学报（自然科学版）,2024,49(2):386-399.
5郑宇佳,董增寿,张晓红,石慧.基于概率权重灰色马尔可夫模型的腐蚀预测[J].计算机仿真,2024,41(4):108-113. 被引量：1
6熊晓蓓,白雨杰,毋述斐.完全网络图的出边-平衡指数集[J].青海师范大学学报（自然科学版）,2023,39(4):58-62.
7董璐铭.多维可视化分析假冒伪劣卷烟送检情况[J].经济与社会发展研究,2024(14):79-83.
8陈万志,张国满,王天元.基于特征耦合泛化的流量异常检测方法[J].电子测量与仪器学报,2024,38(2):120-130. 被引量：1
9韦宜政,孙超,朱启轩.浅海矢量声场极化特性的深度分布规律[J].物理学报,2024,73(9):153-167.
10陈啸轩,邹阳,翁祖辰,林锦茄,林昕亮,张云霄.基于IKNN和LOF的变压器回复电压数据清洗方法研究[J].电子测量与仪器学报,2024,38(2):92-100. 被引量：1

大数据

2024年第3期

浏览历史

内容加载中请稍等...

基于三阶张量的大规模数据谱聚类集成算法

参考文献8

二级参考文献28

共引文献67

相关作者

相关机构

相关主题

浏览历史