基于变量聚类的主成分Lasso降维算法与模拟被引量：8

VARCLUS-based Principal Component Lasso Dimensionality Reduction Algorithm and Simulation

下载PDF

导出

摘要在较高维度下的特征集合中如何筛选出重要子集是统计学中经常遇到的问题,而利用建立合适的稀疏模型使得模型复杂度降低的方法是近年来各领域学者研究的热点。文章基于在模型建立前考虑存在因高维自变量间的高度线性相关性而具有的组结构特性问题,提出了一种新的基于变量聚类的主成分Lasso(简记为VPLasso)降维算法。数值模拟结果表明,当模型中自变量同时具有组间稀疏和组内稀疏两种特性时,提出的降维算法不仅在回归参数的估计精确度上,而且在变量选择准确性上都优于经典的组结构特征选择算法。 How to screen out important subsets in the characteristic set under higher dimensions is an issue often encountered in statistics,and the method of establishing appropriate sparse model to reduce the model complexity has become a hot research topic among scholars in various fields in recent years.This paper proposes a new VARCLUS-based principal component Lasso(VP Lasso)dimensionality reduction algorithm based on the consideration of the group structure characteristics due to the high linear correlation between high-dimensional independent variables before the model is established.The numerical simulation results show that when independent variables in the model have both the characteristics of inter-group sparsity and intra-group sparsity,the proposed algorithm is superior to the classical group structure feature selection algorithm not only in the estimation accuracy of regression parameters,but also in the variable selection accuracy.

作者许赟娟罗幼喜 Xu Yunjuan;Luo Youxi(School of Science,Hubei University of Technology,Wuhan 430068,China)

机构地区湖北工业大学理学院

出处《统计与决策》 CSSCI 北大核心 2021年第4期31-36,共6页 Statistics & Decision

基金国家社会科学基金资助项目(17BJY210)

关键词稀疏模型组结构变量聚类主成分Lasso sparse model group structure VARCLUS principal component Lasso

分类号 O213 [理学—概率论与数理统计]

引文网络
相关文献

参考文献3

1刘建伟,崔立鹏,罗雄麟.结构稀疏模型[J].计算机学报,2017,40(6):1309-1337. 被引量：5
2李鹏翔,叶万洲.基于两种非凸惩罚函数的稀疏组变量选择[J].应用数学与计算数学学报,2018,32(3):437-446. 被引量：4
3宋瑞琪,朱永忠,王新军.高维数据中变量选择研究[J].统计与决策,2019,35(2):13-16. 被引量：13

二级参考文献3

1陶卿,高乾坤,姜纪远,储德军.稀疏学习优化问题的求解综述[J].软件学报,2013,24(11):2498-2507. 被引量：22
2张吐辉,张海.基于L_p正则化的自适应稀疏group lasso研究[J].纯粹数学与应用数学,2014,30(2):178-185. 被引量：2
3刘立祥.线性回归模型中自变量的选择与逐步回归方法[J].统计与决策,2015,31(21):80-82. 被引量：31

共引文献19

1王宁,闫娜,徐友真,杨剑锋.复杂多工序制造过程关键质量特性识别[J].统计与决策,2021(8):177-180. 被引量：5
2李俊山,杨亚威,张姣,李建军.退化图像复原方法研究进展[J].液晶与显示,2018,33(8):676-689. 被引量：9
3崔立鹏,于玲,范平平,吴宝杰,翟永君.基于Capped L1罚函数的组稀疏模型[J].现代计算机（中旬刊）,2018(11):22-26.
4王丽芳,史超宇,蔺素珍,秦品乐,高媛.基于联合图像块聚类自适应字典学习的多模态医学图像融合[J].计算机科学,2019,46(7):238-245. 被引量：6
5张露,刘家鹏,江敏祺.集成机器学习模型在不平衡样本财务预警中的应用[J].电子技术应用,2021,47(8):34-38. 被引量：2
6王倩,李风军.Logistic回归模型的变量选择[J].统计与决策,2021,37(16):48-51. 被引量：6
7王振宇,杨斯月,吕维,丁建宝,马建龙,杨晋.利用3种不同化学计量学方法分析枸杞子抗氧化部位的谱效关系[J].中国中药杂志,2021,46(13):3377-3387. 被引量：18
8薛晓倩,李瑶,梁家瑞,Ibegbu Nnamdi Julian,孙超,郭浩.基于组MCP和复合MCP的人脑功能超网络分析及抑郁症分类研究[J].小型微型计算机系统,2022,43(1):210-217. 被引量：1
9李瑶,周子淏,梁家瑞,Ibegbu Nnamdi Julian,郭浩,陈俊杰.基于组选择的近似无偏稀疏脑功能超网络模型构建与分类研究[J].计算机应用研究,2022,39(3):744-750.
10张晓琴,卫夏利,米子川,李顺勇.基于MCP的非对称最小二乘估计[J].系统科学与数学,2022,42(5):1344-1360. 被引量：2

同被引文献96

1李欣,俞卫琴.基于改进GS-XGBoost的个人信用评估[J].计算机系统应用,2020,29(11):145-150. 被引量：7
2王宁,闫娜,徐友真,杨剑锋.复杂多工序制造过程关键质量特性识别[J].统计与决策,2021(8):177-180. 被引量：5
3莫云,梁国富,路仲伟,李智,许川佩,张绍荣.基于LASSO和PCA降维的脑电特征选择方法[J].国外电子测量技术,2022,41(5):9-14. 被引量：3
4王征宇,张明园.中文版简易智能状态检查（MMSE）的应用[J].上海精神医学,1989,7(3):108-111. 被引量：156
5王惠文,孟洁.多元线性回归的预测建模方法[J].北京航空航天大学学报,2007,33(4):500-504. 被引量：240
6王炜,王鲁宁.“蒙特利尔认知评估量表”在轻度认知损伤患者筛查中的应用[J].中华内科杂志,2007,46(5):414-416. 被引量：242
7柳艳云,胡昌勤.近红外分析中光谱波长选择方法进展与应用[J].药物分析杂志,2010,30(5):968-975. 被引量：56
8饶毅萍,陈洁辉,张冰娜,陈树燕,方培宇.平菇菌丝体与子实体营养成分的分析比较[J].生物学杂志,2011,28(3):94-96. 被引量：29
9朱晓,蒋军成,潘勇,王睿.基于支持向量机方法的烷烃辛烷值预测[J].天然气化工—C1化学与化工,2011,36(3):54-57. 被引量：7
10石吉勇,邹小波,赵杰文,毛罕平.BiPLS结合模拟退火算法的近红外光谱特征波长选择研究[J].红外与毫米波学报,2011,30(5):458-462. 被引量：34

引证文献8

1郇钫策,江驹,余朝军,徐海燕.基于融合降维-集成学习的两阶段辛烷值预测算法设计研究[J].天然气化工—C1化学与化工,2022,47(2):95-102.
2聂茜,邓光明.基于Shapley值的分类预测模型变量筛选方法改进[J].统计与决策,2023(3):38-42.
3常三强,周垂日.基于特征优化和Boosting算法的个人信用预测[J].计算机系统应用,2023,32(3):224-231.
4苏玲,卜亚平,李媛媛,王琦.基于傅里叶变换红外光谱的平菇蛋白质、多糖含量预测方法研究[J].光谱学与光谱分析,2023,43(4):1262-1267. 被引量：3
5卓于迪,朱陵群,张立山,戴雁彦,杨晓明,程潞瑶,苑艺,甘叶娜,周询,邬倩颖,郭烨,李多多.套索回归模型在中医临床研究数据的统计应用与R语言实践[J].世界中医药,2023,18(7):1033-1038. 被引量：1
6张宁,陈雁,张红梅,孙玉娇,沈莉莉,丁苗,张洲.2型糖尿病患者轻度认知功能障碍发生风险的Logistic回归和决策树预测模型的构建[J].中国实用护理杂志,2023,39(32):2514-2520.
7郭拓,徐凤捷,马晋芳,肖环贤.基于Lasso-Huber的近红外光谱特征波长选择方法及应用[J].光谱学与光谱分析,2024,44(3):737-743.
8姜妍希,张炳江.辛烷值损失预测模型的构建与优化[J].应用数学进展,2021,10(10):3399-3406.

二级引证文献4

1傅正立.基于红外光谱特征和傅里叶变换的牛奶成分检测方法[J].山东农业工程学院学报,2024,41(2):24-29.
2弥春霞,何钰,黄晓铭,马传贵,黄训文,徐晓玲,赵爽.香菇糖蛋白对大鼠铅中毒的改善作用[J].食品工业科技,2024,45(10):8-16.
3杨晶.紫丁香蘑多糖的提取工艺优化及图谱分析[J].黑龙江医药,2024,37(2):302-305.
4申采玉,王帅,周锐盈,汪雨贺,高琴,陈兴智,杨枢.慢性心力衰竭合并肺部感染患者院内死亡风险预测:基于可解释性机器学习方法[J].南方医科大学学报,2024,44(6):1141-1148.

1王晴,李非凡,崔译丹,刘文婷,汤小曼.中国各省经济发展状况分析——基于聚类分析[J].中国产经,2020(12):69-70. 被引量：2

统计与决策

2021年第4期

浏览历史

内容加载中请稍等...

基于变量聚类的主成分Lasso降维算法与模拟被引量：8

参考文献3

二级参考文献3

共引文献19

同被引文献96

引证文献8

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于变量聚类的主成分Lasso降维算法与模拟 被引量：8

参考文献3

二级参考文献3

共引文献19

同被引文献96

引证文献8

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于变量聚类的主成分Lasso降维算法与模拟被引量：8