图松弛优化聚类的快速近似提升方法被引量：1

Fast Approximate Approaches for Graph-Based Relaxed Optimization Clustering

下载PDF

导出

摘要基于图松弛优化为非近似迭代方法提供了有效的分析解决方案,且实现简单。然而,由于矩阵的逆在计算时需要多项式时间,则在运行速度方面不是很理想,当面对较大规模数据时此方法将变得不可行。提出了对基于图松弛优化聚类进行快速近似提升的两种方法:一个是基于k均值聚类,另一个是基于随机投影树。广泛实验表明,这些算法在运算速度方面表现较优,聚类精度变化非常小。具体来讲,该算法在运算大规模数据时精度优于k均值算法,并且在保证精度的情况下运行速度远快于基于图松弛优化聚类算法。值得注意的是,该算法可以使得单个机器在数分钟内对具有数百万样本的数据集进行聚类。 Due to its easy implementation,the graph-based relaxed optimization indeed provides an effective analytical solution for non-approximation iterative methods.However,due to the inverse of the matrix,such an optimization will run slowly and even become impractical for large-scale data.This paper develops two general approaches for fast graph-based relaxed optimization clustering.One is based on k-means clustering,and the other is based on random projection tree.Extensive experiments show that these two proposed approaches can achieve significant acceleration without degrading the clustering accuracy a lot.In particular,the approaches have better clustering performance than the classical k-mean algorithm on large-scale data,and run faster than the graph-based relaxed optimization clustering algorithms,with comparable accuracy.It is worth noting that the proposed approaches in this paper allow a single machine to cluster millions of data samples within minutes.

作者谢磊王士同 XIE Lei;WANG Shitong(School of Digital Media,Jiangnan University,Wuxi,Jiangsu 214122,China)

机构地区江南大学数字媒体学院

出处《计算机科学与探索》 CSCD 北大核心 2018年第4期642-652,共11页 Journal of Frontiers of Computer Science and Technology

基金国家自然科学基金 No.61170122~~

关键词无监督学习基于图松弛优化聚类数据量化高维数据快速近似 unsupervised learning graph-based clustering data quantization high dimensional data fast approximate

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1董琪,王士同.隐子空间聚类算法的改进及其增量式算法[J].计算机科学与探索,2017,11(5):802-813. 被引量：4
2李滔,王士同.适合大规模数据集的增量式模糊聚类算法[J].智能系统学报,2016,11(2):188-199. 被引量：17
3程旸,王士同.基于局部保留投影的多可选聚类发掘算法[J].智能系统学报,2016,11(5):600-607. 被引量：6

二级参考文献22

1BEZDEK J C, EHRLICH R, FULL W. FCM: the fuzzy c-means clustering algorithm[J]. Computers & Geosciences, 1984, 10(2): 191-203.
2CAN F, DROCHAK N D II. Incremental clustering for dynamic document databases[C]//Proceedings of the 1990 Symposium on Applied Computing. Fayetteville, AR, USA, 1990: 61-67.
3KAUFMAN L, ROUSSEEUW P J. Finding groups in data: an introduction to cluster analysis[M]. New York: John Wiley & Sons, 2009: 830-832.
4GUHA S, RASTOGI R, SHIM K. Cure: an efficient clustering algorithm for large databases[J]. Information systems, 2001, 26(1): 35-58.
5CAN F. Incremental clustering for dynamic information processing[J]. ACM transactions on information systems, 1993, 11(2): 143-164.
6CAN F, FOX E A, SNAVELY C D, et al. Incremental clustering for very large document databases: Initial MARIAN experience[J]. Information sciences, 1995, 84(1/2): 101-114.
7ZHANG Tian, RAMAKIRSHNAN R, LIVNY M. BIRCH: An efficient data clustering method for very large databases[C]//Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data. New York, USA, 1996: 103-114.
8NG R T, HAN Jiawei. CLARANS: A method for clustering objects for spatial data mining[J]. IEEE transactions on knowledge and data engineering, 2002, 14(5): 1003-1016.
9SHANKER B U, PAL N R. FFCM: An effective approach for large data sets[C]//Proceedings of the 3rd International Conference on Fuzzy Logic, Neural Nets and Soft Computing. Iizuka, Japan, 1994: 331-332.
10CHENG Taiwai, GOLDGOF D B, HALL L O. Fast clustering with application to fuzzy rule generation[C]//Proceedings of 1995 IEEE International Fuzzy Systems, 1995. International Joint Conference of the Fourth IEEE International Conference on Fuzzy Systems and The Second International Fuzzy Engineering Symposium. Yokohama, Japan, 1995: 2289-2295.

共引文献23

1李滔,王士同.适合大规模数据集且基于LLM的0阶TSK模糊分类器[J].控制与决策,2017,32(1):21-30. 被引量：2
2邵东恒,杨文元,赵红.应用k-means算法实现标记分布学习[J].智能系统学报,2017,12(3):325-332. 被引量：8
3卞则康,王士同.基于混合距离学习的鲁棒的模糊C均值聚类算法[J].智能系统学报,2017,12(4):450-458. 被引量：6
4徐莹莹,邹丽,黄志鑫,潘畅.基于TOPSIS的语言真值直觉模糊多属性决策[J].智能系统学报,2017,12(4):504-510. 被引量：1
5李滔,王士同.增量式0阶TSK模糊分类器及鲁棒改进[J].浙江大学学报（工学版）,2017,51(10):1901-1911.
6蒋亦樟,朱丽,刘丽,王士同.多视角模糊双加权可能性聚类算法[J].智能系统学报,2017,12(6):806-815. 被引量：3
7尹倩.基于簇特征的球员跑动大规模数据聚类研究[J].常州工学院学报,2017,30(6):35-39.
8刘晋胜,周靖.混合属性对象的类别关系修正的模糊聚类方法[J].计算机应用研究,2018,35(2):367-371.
9张佩瑞,杨燕,邢焕来,喻琇瑛.基于核K-means的增量多视图聚类算法[J].山东大学学报（工学版）,2018,48(3):48-53. 被引量：1
10金保林.基于模糊聚类改进的光纤大数据分类算法研究[J].激光杂志,2018,39(7):152-156. 被引量：2

同被引文献11

1孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1069
2何光普,李敏,武斌,武小红.基于非欧氏距离的广义噪声聚类(英文)[J].北京交通大学学报,2008,32(6):98-101. 被引量：3
3李桃迎,陈燕,秦胜君,李楠.增量聚类算法综述[J].科学技术与工程,2010,10(35):8752-8759. 被引量：7
4张辰,夏士雄,刘兵.一种改进的可能模糊聚类算法[J].计算机应用研究,2011,28(8):2848-2851. 被引量：3
5王骏,王士同,邓赵红.聚类分析研究中的若干问题[J].控制与决策,2012,27(3):321-328. 被引量：194
6武斌,武小红,贾红雯.一种快速的广义噪声聚类算法[J].计算机工程与应用,2013,49(13):145-148. 被引量：3
7陈加顺,皮德常.一种非噪声敏感性的模糊C均值聚类算法[J].小型微型计算机系统,2014,35(6):1427-1431. 被引量：2
8石文峰,商琳.一种基于决策粗糙集的模糊C均值聚类数的确定方法[J].计算机科学,2017,44(9):45-48. 被引量：8
9刘沧生,许青林.基于密度峰值优化的模糊C均值聚类算法[J].计算机工程与应用,2018,54(14):153-157. 被引量：15
10董琪,王士同.隐子空间聚类算法的改进及其增量式算法[J].计算机科学与探索,2017,11(5):802-813. 被引量：4

引证文献1

1邵俊健,王士同.具有抗噪性能适用高维数据的增量式聚类算法[J].计算机科学与探索,2019,13(9):1553-1566. 被引量：10

二级引证文献10

1周燕茹.基于模糊数学的高维稀疏数据聚类统计方法设计[J].吉林化工学院学报,2021,38(9):107-111.
2姚晓红,黄恒君.非负半监督函数型聚类方法[J].计算机科学与探索,2021,15(12):2438-2448. 被引量：2
3周燕茹.基于模糊数学的高维稀疏数据聚类统计方法设计[J].德州学院学报,2021,37(6):60-65.
4杨凤丽,李娜,刘仁芬.基于多级索引的高维数据近似最近邻搜索[J].计算机仿真,2022,39(11):398-401. 被引量：3
5刘仁芬,杨凤丽,王霞.基于改进Spark技术的高维数据增量式聚类算法[J].计算机仿真,2022,39(12):383-386. 被引量：2
6徐苏,鄢容,刘玉明,穆磊,盛鹏,郑薇,王晨雪,陈俊凌.基于卷积神经网络的第一镜表面杂质沉积状态识别研究[J].西北师范大学学报（自然科学版）,2023,59(2):61-66.
7杜奇伟,张超,韩洪夫.基于间隔分图的智能变电站运维关键技术研究[J].电网与清洁能源,2023,39(7):67-72. 被引量：6
8魏箐河.高校移动终端体育信息云数据挖掘方法[J].自动化技术与应用,2023,42(8):88-91.
9蒙友波,廖艳梅,覃锋,王晓红.遥感影像融合下自然资源地类特征提取仿真[J].计算机仿真,2023,40(9):162-166.
10陈素根,刘玉菲.改进的Ramp孪生支持向量机聚类[J].计算机科学与探索,2023,17(11):2767-2776.

1唐佳林,郑杰锋,李熙莹,苏秉华.航拍视频中运动目标检测算法研究[J].计算机科学,2017,44(B11):175-177. 被引量：5
2张营营.生成对抗网络模型综述[J].电子设计工程,2018,26(5):34-37. 被引量：29
3牛雷,孙忠林.PCA-AKM算法及其在入侵检测中的应用[J].计算机科学,2018,45(2):226-230. 被引量：4
4程星,李章勇,姜小明,夏爽.基于改进型K均值算法的尿沉渣图像分割研究[J].电子世界,2018,0(5):180-181.
5郑芬,Ryad Chellali,代满意.基于改进型3DSIFT正态分布变换算法的点云配准[J].计算机应用,2017,37(10):2875-2878. 被引量：2
6杜翠,张千里,刘杰.基于HCA与KAZE的铁路路基GPR图像配准算法[J].计算机工程,2018,44(3):264-269. 被引量：4
7Yan-peng ZHENG,Sugoog SHON,Zun-wei FU.A Gohberg-Semencul Type Formula for the Inverse of Conjugate-Toeplitz Matrix and Applications[J].Acta Mathematicae Applicatae Sinica,2018,34(2):293-303.
8朱龙翔.一种基于聚类和相关性分析的NBA球员评价方法[J].数学学习与研究,2018,0(1):145-146.
9万成宏,杨春玲,和志杰.图像压缩感知中自适应二维投影梯度重构算法[J].数据采集与处理,2017,32(4):754-761.
10李泽魁,李雪婷,赵妍妍.中文微博热点事件情感分布的原因分析[J].中文信息学报,2018,32(1):131-138. 被引量：3

计算机科学与探索

2018年第4期

浏览历史

内容加载中请稍等...

图松弛优化聚类的快速近似提升方法被引量：1

参考文献3

二级参考文献22

共引文献23

同被引文献11

引证文献1

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

图松弛优化聚类的快速近似提升方法 被引量：1

参考文献3

二级参考文献22

共引文献23

同被引文献11

引证文献1

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

图松弛优化聚类的快速近似提升方法被引量：1