基于正则互表示的无监督特征选择方法被引量：6

Unsupervised feature selection method based on regularized mutual representation

下载PDF

导出

摘要针对高维数据含有的冗余特征影响机器学习训练效率和泛化能力的问题,为提升模式识别准确率、降低计算复杂度,提出了一种基于正则互表示(RMR)性质的无监督特征选择方法。首先,利用特征之间的相关性,建立由Frobenius范数约束的无监督特征选择数学模型;然后,设计分治-岭回归优化算法对模型进行快速优化;最后,根据模型最优解综合评估每个特征的重要性,选出原始数据中具有代表性的特征子集。在聚类准确率指标上,RMR方法与Laplacian方法相比提升了7个百分点,与非负判别特征选择(NDFS)方法相比提升了7个百分点,与正则自表示(RSR)方法相比提升了6个百分点,与自表示特征选择(SR_FS)方法相比提升了3个百分点;在数据冗余率指标上,RMR方法与Laplacian方法相比降低了10个百分点,与NDFS方法相比降低了7个百分点,与RSR方法相比降低了3个百分点,与SR_FS方法相比降低了2个百分点。实验结果表明,RMR方法能够有效地选出重要特征,降低数据冗余率,提升样本聚类准确率。 The redundant features of high-dimensional data affect the training efficiency and generalization ability of machine learning.In order to improve the accuracy of pattern recognition and reduce the computational complexity,an unsupervised feature selection method based on Regularized Mutual Representation(RMR)property was proposed.Firstly,the correlations between features were utilized to establish a mathematical model for unsupervised feature selection constrained by Frobenius norm.Then,a divide-and-conquer ridge regression optimization algorithm was designed to quickly optimize the model.Finally,the importances of the features were jointly evaluated according to the optimal solution to the model,and a representative feature subset was selected from the original data.On the clustering accuracy,RMR method is improved by 7 percentage points compared with the Laplacian method,improved by 7 percentage points compared with the Nonnegative Discriminative Feature Selection(NDFS)method,improved by 6 percentage points compared with the Regularized Self-Representation(RSR)method,and improved by 3 percentage points compared with the SelfRepresentation Feature Selection(SR_FS)method.On the redundancy rate,RMR method is reduced by 10 percentage points compared with the Laplacian method,reduced by 7 percentage points compared with the NDFS method,reduced by 3 percentage points compared with the RSR method,and reduced by 2 percentage points compared with the SR_FS method.The experimental results show that RMR method can effectively select important features,reduce redundancy rate of data and improve clustering accuracy of samples.

作者汪志远降爱莲奥斯曼·穆罕默德 WANG Zhiyuan;JIANG Ailian;Osman MUHAMMAD(College of Information and Computer,Taiyuan University of Technology,Jinzhong Shanxi 030600,China)

机构地区太原理工大学信息与计算机学院

出处《计算机应用》 CSCD 北大核心 2020年第7期1896-1900,共5页 journal of Computer Applications

基金山西省回国留学人员科研资助项目(2017-051)。

关键词特征选择无监督学习分治算法岭回归正则化 feature selection unsupervised learning divide-and-conquer algorithm ridge regression regularization

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1潘锋,王建东,牛奔.基于谱分析的无监督特征选择算法[J].计算机应用,2011,31(8):2108-2110. 被引量：5
2刘艳芳,叶东毅.基于邻域保持学习的无监督特征选择算法[J].模式识别与人工智能,2018,31(12):1096-1102. 被引量：8
3黄铉.特征降维技术的研究与进展[J].计算机科学,2018,45(B06):16-21. 被引量：24

二级参考文献15

1DASH M. Dimensionality reduction of unsupervised data [ C]//Pro- ceedings of the Ninth IEEE International Conference on Tools with Artificial Intelligence. Washington, DC: IEEE Computer Society, 1997:532-539.
2DY J G, BRODLEY C E. Feature subset selection and order identi- fication for unsupervised learning [ C]// Proceedings of the Seven- teenth International Conference on Machine Learning. San Francis- co: Morgan Kaufmann Publishers, 2000:247 -254.
3RODRIGUEZ-LUJAN I, HUERTA R. Quadratic programming fea- ture selection [ J]. Journal of Machine Learning Research, 2010, 11:1491-1516.
4SHI J, MALIK J. Normalized cuts and image segmentation [ J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(8): 888 -905.
5BELABBAS M A, WOLFE P J. Spectral methods in machine learn- ing and new strategies for very large datasets [ J]. Proceedings of the National Academy of Sciences, 2009, 106(2):369 -374.
6yon LUXBURG U. A tutorial on spectral clustering [ J]. Statistics and Computing, 2007, 17(4): 395-416.
7FOWLKES C, BELONGIE S, CHUNG F, et al. Spectral grouping using the Nystrom method [ J]. IEEE Transactions on Pattern Analy-sis and Machine Intelligence, 2004, 26(2):214 -225.
8TSAI C Y, CHIU C C. An efficient feature selection approach for clustering: Using a Gaussian mixture model of data dissimilarity [ C]//2007 International Conference on Computational Science and its Applications. Berlin: Springer-Verlag, 2007:1107-1118.
9HE XIAO-FEI, CAI DENG, NIYOGI P. Laplacian score for feature selection [ C]// Advances in Neural Information Processing Systems 18. Cambridge, MA: MIT Press, 2006:507-514.
10MITRA P. Unsupervised feature selection using feature similarity [ J]. IEEE Transactions on Pattern Analysis and Machine Intelli- gence, 2002, 24(3) : 301 -312.

共引文献34

1王红霞,温绍洁.基于聚类和奇异值分解的协同过滤推荐算法[J].计算机应用研究,2020,37(S02):369-371. 被引量：3
2李泽安,陈建平,章雅娟,赵为华.高维数据挖掘中特征选择的稳健方法[J].计算机应用,2013,33(8):2194-2197. 被引量：3
3简彩仁,陈晓云.基于局部保持投影和稀疏表示的无监督特征选择方法[J].模式识别与人工智能,2015,28(3):247-252. 被引量：8
4甘文迓,黄渊凌,李汀.无监督特征选择算法在盲分选中的应用[J].电信技术研究,2016,0(1):55-59.
5黄东晋,肖帆,秦汉,蒋晨凤,丁友东.基于Isomap特征降维的人脸表情相似度评估方法[J].现代电影技术,2019,0(6):25-32.
6吴清寿,刘长勇,林丽惠.融合序列后向选择与支持向量机的混合式特征选择算法[J].计算机系统应用,2019,28(7):174-179. 被引量：5
7张辉,刘万军,吕欢欢.小波核局部Fisher判别分析的高光谱遥感影像特征提取[J].模式识别与人工智能,2019,32(7):624-632. 被引量：6
8赵嶷飞,杨明泽.基于运行状态识别的无人机航迹预测[J].科学技术与工程,2019,19(23):304-309. 被引量：3
9连超,李华,刘亚,韩家茂,阮宏玮.一种基于DBN-LR集成学习的异常检测模型[J].小型微型计算机系统,2019,40(12):2637-2643. 被引量：8
10李东博,黄铝文.重加权稀疏主成分分析算法及其在人脸识别中的应用[J].计算机应用,2020,40(3):717-722. 被引量：7

同被引文献71

1尹艳树,吴胜和,张昌民,李少华,尹太举.基于储层骨架的多点地质统计学方法[J].中国科学（D辑）,2008,38(S2):157-164. 被引量：33
2吴胜和,李文克.多点地质统计学——理论、应用与展望[J].古地理学报,2005,7(1):137-144. 被引量：126
3赵翰卿.高分辨率层序地层对比与我国的小层对比[J].大庆石油地质与开发,2005,24(1):5-9. 被引量：76
4何宇航,于开春.分流平原相复合砂体单一河道识别及效果分析[J].大庆石油地质与开发,2005,24(2):17-19. 被引量：48
5陈建阳,于兴河,张志杰,李胜利,毛志刚.储层地质建模在油藏描述中的应用[J].大庆石油地质与开发,2005,24(3):17-18. 被引量：66
6沈华,尹微,徐佑平.提高砂岩油藏储层预测精度的方法[J].大庆石油地质与开发,2005,24(3):24-27. 被引量：8
7郭莉,王延斌,张春雷,姜福聪.同位协同随机建模在储层预测中的应用[J].大庆石油地质与开发,2006,25(3):5-6. 被引量：7
8舒志华,张立有,刘刚.复合砂体中单一河道的识别方法[J].大庆石油地质与开发,2006,25(4):18-20. 被引量：16
9邓飞,王瑞,王美平,周熙襄.复杂三维地层建模及快速射线追踪的研究与实现[J].大庆石油地质与开发,2007,26(1):113-118. 被引量：10
10付志国,石成方,赵翰卿,张永庆.喇萨杏油田河道砂岩厚油层夹层分布特征[J].大庆石油地质与开发,2007,26(4):55-58. 被引量：22

引证文献6

1杨蕾,降爱莲,强彦.基于自编码器和流形正则的结构保持无监督特征选择[J].计算机科学,2021,48(8):53-59. 被引量：4
2白圣子,降爱莲.基于特征正则稀疏关联的无监督特征选择方法[J].计算机工程与设计,2022,43(4):969-976. 被引量：3
3史晨阳,杨自忠,陈响育,张宇航,钱正坤,王永良,王建明.基于迁移学习与数据增强的蜘蛛识别平台研建[J].大理大学学报,2022,7(6):26-36.
4荣菡,游杰舜,甘露菁,黄茜楠,林小凤.基于氢谱核磁共振的岭回归算法快速预测煎炸油氧化指标[J].中国调味品,2023,48(2):9-14. 被引量：1
5万青松,罗晓姣.基于无监督过滤式指标选择的冬小麦种植区域尺度管理分区算法[J].湖北农业科学,2023,62(4):185-189.
6胡勇,高小洋,何文祥,李顺利,朱建斌,司锦,陆雨诗.利用条件生成对抗网络建立曲流河地质模型[J].沉积学报,2024,42(1):201-218.

二级引证文献8

1李宗然,陈秀宏,陆赟,邵政毅.鲁棒联合稀疏不相关回归[J].计算机科学,2022,49(2):191-197.
2徐逸,李家源,曹雪虹,焦良葆,孟琳.基于适用性骨干粒子群优化算法的特征选择实现[J].计算机与数字工程,2022,50(11):2533-2537.
3赵瑞平,降爱莲.基于自编码器和局部嵌入的无监督特征选择[J].计算机工程与科学,2023,45(7):1282-1291.
4吴天月,张辉,张邹铨,唐珺琨.基于模糊遮蔽与动态推理的生成式工业异常定位模型[J].计算机科学,2023,50(S02):241-247.
5过伶俐,陈秀宏.潜在多步马尔可夫概率的鲁棒无监督特征选择[J].智能系统学报,2023,18(5):1017-1029.
6曹会兵.基于电商数据的皮革服装销量预测模型构建及仿真[J].中国皮革,2024,53(4):110-114.
7姚宗溥,张韶华,余伟,杨宁,汪毅.基于改进K-means聚类的电网抢修资源优化技术[J].电子设计工程,2024,32(11):131-135.
8洪洲,杨刚,杨劲松,沈昕.联合过滤式与嵌入式样本的标签库特征选择[J].电子设计工程,2024,32(22):146-150.

1史彩娟,谷志斌.基于自步学习的半监督特征选择算法研究[J].电脑知识与技术,2020,16(15):210-210. 被引量：1
2闫俊红,李忠虎,王志春.基于多尺度数学形态学的连铸坯缺陷边缘检测方法[J].光学技术,2018,44(1):41-44. 被引量：7
3李晶晶.小学科学教学中信息技术运用策略探究[J].科学咨询,2020(17):274-274.
4刘艳芳,李文斌,高阳.基于自适应邻域嵌入的无监督特征选择算法[J].计算机研究与发展,2020,57(8):1639-1649. 被引量：9
5梁本来.群体智能在入侵检测特征选择中的应用综述[J].电脑知识与技术,2020,16(19):30-32. 被引量：1
6周晨旭,黄福珍.基于BLMD和NSDFB算法的红外与可见光图像融合方法[J].红外技术,2019,41(2):176-182. 被引量：9
7王磊,李建国,张建波,马勇,焦阳.运用“一融合三提升”模式推动中心工作全面兑标促进党建“四级对标”落地[J].当代电力文化,2019(S01):203-203.
8杨帆.基于Python的集成式智能调度操作票自动开票系统[J].电工技术,2020(14):104-106. 被引量：5
9刘春鸾.国有地勘单位投融资模式创新探析[J].财会学习,2020(19):184-185. 被引量：1
10巫群珍.高职信息类专业“三全十美”职业素养提升与实践[J].职业教育,2020,19(5):37-39.

计算机应用

2020年第7期

浏览历史

内容加载中请稍等...

基于正则互表示的无监督特征选择方法被引量：6

参考文献3

二级参考文献15

共引文献34

同被引文献71

引证文献6

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于正则互表示的无监督特征选择方法 被引量：6

参考文献3

二级参考文献15

共引文献34

同被引文献71

引证文献6

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于正则互表示的无监督特征选择方法被引量：6