一种基于极大熵的快速无监督线性降维方法被引量：2

Fast Unsupervised Dimension Reduction Method Based on Maximum Entropy

下载PDF

导出

摘要现实世界中高维数据无处不在,然而在高维数据中往往存在大量的冗余和噪声信息,这导致很多传统聚类算法在对高维数据聚类时不能获得很好的性能.实践中发现高维数据的类簇结构往往嵌入在较低维的子空间中.因而,降维成为挖掘高维数据类簇结构的关键技术.在众多降维方法中,基于图的降维方法是研究的热点.然而,大部分基于图的降维算法存在以下两个问题:(1)需要计算或者学习邻接图,计算复杂度高;(2)降维的过程中没有考虑降维后的用途.针对这两个问题,提出一种基于极大熵的快速无监督降维算法MEDR. MEDR算法融合线性投影和极大熵聚类模型,通过一种有效的迭代优化算法寻找高维数据嵌入在低维子空间的潜在最优类簇结构. MEDR算法不需事先输入邻接图,具有样本个数的线性时间复杂度.在真实数据集上的实验结果表明,与传统的降维方法相比, MEDR算法能够找到更好地将高维数据投影到低维子空间的投影矩阵,使投影后的数据有利于聚类. High-dimensional data is widely adopted in the real world.However,there is usually plenty of redundant and noisy information existing in high-dimensional data,which accounts for the poor performance of many traditional clustering algorithms when clustering high-dimensional data.In practice,it is found that the cluster structure of high-dimensional data is often embedded in the lower dimensional subspace.Therefore,dimension reduction becomes the key technology of mining high-dimensional data.Among many dimension reduction methods,graph-based method becomes a research hotspot.However,most graph-based dimension reduction algorithms suffer from the following two problems:(1)most of the graph-based dimension reduction algorithms need to calculate or learn adjacency graphs,which have high computational complexity;(2)the purpose of dimension reduction is not considered in the process of dimension reduction.To address the problem,a fast unsupervised dimension reduction algorithm is proposed based on the maximum entropy-MEDR,which combines linear projection and the maximum entropy clustering model to find the potential optimal cluster structure of high-dimensional data embedded in low-dimensional subspace through an effective iterative optimization algorithm.The MEDR algorithm does not need the adjacency graph as an input in advance,and has linear time complexity of input data scale.A large number of experimental results on real datasets show that the MEDR algorithm can find a better projection matrix to project high-dimensional data into low-dimensional subspace compared with the traditional dimensionality reduction method,so that the projected data is conducive to clustering analysis.

作者王继奎杨正国刘学文易纪海李冰聂飞平 WANG Ji-Kui;YANG Zheng-Guo;LIU Xue-Wen;YI Ji-Hai;LI Bing;NIE Fei-Ping(College of Information Engineering,Lanzhou University of Finance and Economics,Lanzhou 730020,China;Center for Optical Imagery Analysis and Learning(OPTIMAL),Northwestern Polytechnical University,Xi’an 710072,China)

机构地区兰州财经大学信息工程学院西北工业大学光学影像分析与学习中心

出处《软件学报》 EI CSCD 北大核心 2023年第4期1779-1795,共17页 Journal of Software

基金国家自然科学基金(61772427,11801345) 甘肃省高等学校创新能力提升项目(2019B-97) 兰州财经大学校级重点项目(Lzufe2020B-0010,Lzufe2020B-011)。

关键词无监督学习线性降维邻接图聚类极大熵 unsupervised learning dimension reduction adjacency graph clustering maximum entropy

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1任世军,王亚东.极大熵聚类算法的收敛性定理证明[J].中国科学：信息科学,2010,40(4):583-590. 被引量：4
2张志华,郑南宁,史罡.极大熵聚类算法及其全局收敛性分析[J].中国科学（E辑）,2001,31(1):59-70. 被引量：27
3胡世哲,娄铮铮,王若彬,闫小强,叶阳东.一种双重加权的多视角聚类方法[J].计算机学报,2020,43(9):1708-1720. 被引量：10
4丁世飞,徐晓,王艳茹.基于不相似性度量优化的密度峰值聚类算法[J].软件学报,2020,31(11):3321-3333. 被引量：29
5郑忠龙,黄小巧,贾泂,杨杰.稀疏局部保持投影[J].计算机学报,2014,37(9):2038-2046. 被引量：4

二级参考文献62

1张志华,郑南宁,史罡.Maximum-entropy clustering algorithm and its global convergence analysis[J].Science China(Technological Sciences),2001,44(1):89-101. 被引量：3
2李兴斯.一类不可微优化问题的有效解法[J].中国科学（A辑）,1994,24(4):371-377. 被引量：137
3吕庆文,陈武凡.基于互信息量的图像分割[J].计算机学报,2006,29(2):296-301. 被引量：40
4Rose K,Gurewtiz E,Fox G.A deterministic annealing approach to clustering. Pattern Recognition . 1990
5Karayiannis N B.An axiomatic approach to soft learn ingvector quantization and clustering. IEEE ACM Transactions on Networking . 1999
6Karayiannis N,B Meca.Maximum entropy clustering algorithm. Proc IEEE Conf Fuzzy Syst . 1994
7Li R P,Mukaidon M.A maximum entropy approach to fuzzy clustering. Proceedings of the 4th IEEE International Conference onFuzzy System . 1995
8Karayiannis N B.Fuzzy partition entropies and entropy constrained fuzzy clustering algorithms. J Intell Fuzzy Syst . 1997
9Miyamoto S,Mukaidono M.Fuzzy c-means as aregularization and maximum entropy approach. Proceedings of the 7th International Fuzzy SystemsAssociation World Congress (IFSA’97), Prague: Chech . 1997
10Miyamoto S,,Umayahara K.Two methods of fuzzy c-meansand classification functions. Proceedings of the 6thConference of the International Federation of ClassificationSocieties . 1998

共引文献68

1邓赵红,王士同,吴锡生,胡德文.鲁棒的极大熵聚类算法RMEC及其例外点标识[J].中国工程科学,2004,6(9):38-45. 被引量：12
2潘和平,樊政军,马勇.基于信息熵识别油气层和水层的聚类方法[J].石油大学学报（自然科学版）,2004,28(6):31-34. 被引量：5
3姜园,张朝阳,仇佩亮,周东方.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662. 被引量：68
4郭崇慧,孙建涛,陆玉昌.广义支持向量机优化问题的极大熵方法[J].系统工程理论与实践,2005,25(6):27-32. 被引量：11
5程剑锋,徐俊艳.学习矢量量化的推广及其典型形式的比较[J].计算机工程与应用,2006,42(17):82-85. 被引量：5
6郭崇慧,孙建涛,陆玉昌,唐焕文.线性支持向量机优化问题的极大熵方法[J].小型微型计算机系统,2006,27(7):1383-1387. 被引量：2
7司马文霞,刘凡,孙才新,廖瑞金,杨庆.基于改进的径向基函数神经网络的铁磁谐振系统混沌控制[J].物理学报,2006,55(11):5714-5720. 被引量：8
8陈友,沈华伟,李洋,程学旗.一种高效的面向轻量级入侵检测系统的特征选择算法[J].计算机学报,2007,30(8):1398-1408. 被引量：46
9孙勇,李志民,张东升,于继来.基于改进算法的模糊神经网络电力系统稳定器[J].电力自动化设备,2009,29(6):58-61. 被引量：4
10江秀勤.半监督极大熵聚类的研究[J].微计算机信息,2009,25(15):174-175.

同被引文献16

1葛泉波,李文斌,孙若愚,徐姿.基于EKF的集中式融合估计研究[J].自动化学报,2013,39(6):816-825. 被引量：44
2徐小良,汤显峰,葛泉波,管冰蕾.基于量化新息的容积粒子滤波融合目标跟踪算法[J].自动化学报,2014,40(9):1867-1874. 被引量：14
3杨斌.正态性检验的几种方法比较[J].统计与决策,2015,31(14):72-74. 被引量：22
4江伟华,童峰,王彬,刘世刚.采用主分量分析的非合作水声通信信号调制识别[J].兵工学报,2016,37(9):1670-1676. 被引量：10
5高月,宿翀,李宏光.一类基于非线性PCA和深度置信网络的混合分类器及其在PM2.5浓度预测和影响因素诊断中的应用[J].自动化学报,2018,44(2):318-329. 被引量：12
6孙平安,王备战.机器学习中的PCA降维方法研究及其应用[J].湖南工业大学学报,2019,33(1):73-78. 被引量：20
7丁勇.多元正态分布的一个特殊积分和拟合优度检验[J].统计与决策,2020,36(4):18-21. 被引量：5
8张成,高宪文,李元.基于k近邻主元得分差分的故障检测策略[J].自动化学报,2020,46(10):2229-2238. 被引量：8
9梁少军,张世荣,孙澜琼.基于最优密度方向的等距映射降维算法[J].控制理论与应用,2021,38(4):467-478. 被引量：2
10左益宏,王远亮,何红丽,葛泉波.基于GA-BPNN的自适应抗野值无迹Kalman滤波方法[J].空军工程大学学报（自然科学版）,2021,22(5):30-36. 被引量：4

引证文献2

1曹传杰,王靖,赵伟豪,周科艺,杨晓君.基于子空间学习的快速自适应局部比值和判别分析[J].计算机应用研究,2024,41(1):108-115.
2葛泉波,程惠茹,张明川,郑瑞娟,朱军龙,吴庆涛.基于PCA和ICA模式融合的非高斯特征检测识别[J].自动化学报,2024,50(1):169-180. 被引量：1

二级引证文献1

1尹进田,何志龙,刘丽,邵武.基于改进DTW算法的永磁同步电机失磁故障模拟与诊断[J].邵阳学院学报（自然科学版）,2024,21(4):1-10.

1Musha Chen,Yue Yuan,Yiguo Zhou,Zhaomin Deng,Jin Zhao,Fengling Feng,Huachun Zou,Caijun Sun.Safety of SARS-CoV-2 vaccines:a systematic review and meta-analysis of randomized controlled trials[J].Infectious Diseases of Poverty,2021,10(4):92-92. 被引量：4
2沈晋明.作者更正[J].暖通空调,2022,52(1):7-7.
3唐逸凡,杨尚鹏,刘晓冉,李彪.线性降维结合支持向量机的签字笔墨迹鉴别研究[J].警察技术,2023(2):54-59. 被引量：1
4Hong Yang,Lu-lu Li,Guo-hui Li,Qian-ru Guan.A novel feature extraction method for ship-radiated noise[J].Defence Technology（防务技术）,2022,18(4):604-617. 被引量：4
5王海,吴楚,白鑫,陈宗哲,侯芊荷.面向仓库内货运车的低成本航迹修正定位算法[J].江苏大学学报（自然科学版）,2023,44(1):1-6. 被引量：1
6贺建英.改进的R-树的多维数据重复检测方法[J].电子设计工程,2023,31(3):74-80.
7华茹玥.智能交通系统中大型车辆盲区预警系统研究[J].智能城市,2023,9(3):126-128.
8顾文哲,郭军,董蔼萱,崔中健.基于Equation Chapter 1 Section 1自适应特征融合的遥感图像语义分割[J].中文科技期刊数据库（引文版）工程技术,2021(8):147-149.
9徐武,高寒,王欣达,张强.基于LBP特征匹配算法的红外人脸图像表情识别技术[J].激光杂志,2023,44(3):158-162. 被引量：1
10欧阳宵,陶红,范瑞东,矫媛媛,侯臣平.利用标签相关性先验的弱监督多标签学习方法[J].软件学报,2023,34(4):1732-1748. 被引量：5

软件学报

2023年第4期

浏览历史

内容加载中请稍等...

一种基于极大熵的快速无监督线性降维方法被引量：2

参考文献5

二级参考文献62

共引文献68

同被引文献16

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于极大熵的快速无监督线性降维方法 被引量：2

参考文献5

二级参考文献62

共引文献68

同被引文献16

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于极大熵的快速无监督线性降维方法被引量：2