高维数据回归分析中基于LASSO的自变量选择被引量：24

下载PDF

导出

摘要生物信息学背景下普遍存在着高维数据，所谓的“高维”即待估计的未知参数的个数是样本量的一个或几个数量级，例如Van’t Veer（2002）心0等学者收集的乳腺癌数据集共包括259例乳腺癌患者，25000个微阵列基因数据，研究变量个数25000远远大于样本量259，存在“高维”现象。传统的方法进行参数估计和统计推断的一个必要前提是待估参数的个数小于样本量，这样统计推断的结果才是稳定、可靠的。

作者张秀秀王慧田双双乔楠闫丽娜王彤

机构地区山西医科大学卫生统计教研室河北医科大学卫生统计教研室

出处《中国卫生统计》 CSCD 北大核心 2013年第6期922-926,共5页 Chinese Journal of Health Statistics

基金国家自然科学基金(81072385) 全国统计科研计划重点项目(2009LZ033)

关键词维数变量选择回归分析乳腺癌患者统计推断生物信息学样本量基因数据

分类号 R195 [医药卫生—卫生统计学]

引文网络
相关文献

参考文献40

1Biihlmann P, Sara G. Statistics for High-dimensional Data Methods,Theory and Applications. Springer Heidelberg Dordrecht London NewYork : Springer ,2011 : 568.
2Goeman J. LI Penalized Estimation in the Cox Proportional HazardsModel. Biometrical Journal,2010,52( 1) :70~84.
3Fan JQ,Li RZ. Variable Selection via Penalized Likelihood. Journal ofAmerican Statistical Association,2001,96(4) : 1348-1360.
4Robert L, Richard F. Selecting Principle Components in Regression. Sta-tistics and Probability Letters, 1985 ,3(6) :299-301.
5Zou H. The Adaptive Lasso and Its Oracle Properties. Journal of the A-merican Statistical Association,2006,101 .476) :1418-1429.
6Tibshirani R. Regression Shrinkage and Selection via the Lasso. Journalof the Royal Statistical Society ,1996,58( 1) :267-288.
7Tibshirani R. Regression shrinkage and selection via the lasso : a retro-spective. Journal of the Royal Statistical Society, 2011, 73 ( 3 ) : 273-282.
8Efron B,Hastie T, Johnstone L, et al. Least angle regression. The An-nals of statistics,2004,32(2) :407499.
9Friedman J,Hastie T,Tibshirani R. Regularization paths for generalizedlinear models via coordinate descent. Journal of Statistical Software,2010,33(1) :l-22.
10Leo B. Better subset selection using the non-negative garotte. Techno-metrics, 1995 ,37(4) :373-384.

二级参考文献16

1FAN J, LI R. Variable selection via nonconcave penalized likelihood and its oracle pro-perties [ J ]. Amer Statist, 2001,96 : 1348-1360.
2FAN J, LI R. Variable selection for Cox's proportional hazards model and frailty model [ J ]. Ann Statist, 2002, 30: 74-99.
3ZHANG H H,LU W B. Adaptive lasso for Cox's propor- tional hazards model[ J ]. Biometrika, 2007,94 ( 3 ) : 691- 703.
4FAN J, HENG P. Nonconcave penalty likelihood with a diverging number of parameters [ J]. Ann Statist, 2004, 32(2) :928-961.
5ZOU H, LI R. One-step sparse estimates in nonconcave penalized likelihood models [ J]. Ann Statist, 2008, 36: 1509-1566.
6TIBSHIRANI R. Regression shrinkage and selection via the lasso [ J]. Roy Statist Soc Ser, 1996, B58:267-288.
7FAN J. Comments on " Wavelets in statistics: A re- view", by A. Antoniadis [J]. Italian Statist Soc, 1997, 6:131-138.
8ZOU H. The adaptive LASSO and its oracle properties [ J]. Amer Statist Assoc,2006,101 : 1418-1429.
9Tibshirani RJ.Regression shrinkage and selection via the lasso.Journal of the Royal Statistical Society,1996,58:267-288.
10Tibshirani RJ.The Lasso method for variable selection in the Cox model.Statistics in Medicine,1997:385-395.

共引文献20

1李泽安.高维数据挖掘中基于正则化估计的特征提取算法[J].合肥工业大学学报（自然科学版）,2012,35(12):1655-1658. 被引量：1
2方丽英,李爽,王普,陈培煜.变系数模型在医学纵向数据研究中的应用[J].山东大学学报（工学版）,2013,43(6):21-26.
3赵捷.大数据时代组织机构代码应用探究[J].测绘科学,2014,39(5):32-35. 被引量：3
4华晓芳,杨绪兵.隐目标回归算法设计研究[J].计算机工程与设计,2014,35(9):3113-3118. 被引量：1
5田双双,张海霞,赵俊琴,乔楠,王彤.稀疏主成分简介[J].中国卫生统计,2014,31(5):905-907. 被引量：2
6李春红,黄登香,覃朝勇.一种改进的Lasso方法及其在对数线性模型中的应用[J].广西大学学报（自然科学版）,2015,40(3):758-765. 被引量：2
7李春红,韦新星.Elastic Net方法在Cox模型变量选择中的研究[J].西南大学学报（自然科学版）,2015,37(7):95-101. 被引量：3
8孙红卫,杨文越,王慧,罗文海,胡乃宝,王彤.惩罚logistic回归用于高维变量选择的模拟评价[J].中国卫生统计,2016,33(4):607-611. 被引量：8
9麦继芳,崔霞.面向大数据的淘宝卖家信用度的影响因素分析[J].广州大学学报（自然科学版）,2016,15(5):35-41.
10胡晓辉,刘艳飞,蒋蕾.基于Post-LASSO方法的就医需求多控制变量选择[J].系统工程理论与实践,2018,38(10):2659-2667. 被引量：1

同被引文献163

1陶涛,丛聪.老年人养老方式选择的影响因素分析--以北京市西城区为例[J].人口与经济,2014(3):15-22. 被引量：97
2中华医学会糖尿病学分会代谢综合征研究协作组.中华医学会糖尿病学分会关于代谢综合征的建议[J].中国糖尿病杂志,2004,12(3):156-161. 被引量：3042
3徐婷,曹林,佘光辉.基于Landsat 8 OLI的特征变量优化提取及森林生物量反演[J].遥感技术与应用,2015,30(2):226-234. 被引量：28
4高俊,姚成,章俊.人工神经网络用于近红外光谱预测汽油辛烷值[J].分析科学学报,2006,22(1):71-73. 被引量：16
5谢志萍,严蔚春.肝炎性脂肪肝病因及临床特点分析[J].世界感染杂志,2005,5(6):525-526. 被引量：3
6陈海涛.汽车结构因素对燃油经济性的影响[J].公路与汽运,2006(2):1-4. 被引量：7
7胡新博.草地光谱与牧草产量的相关分析[J].草食家畜,1996(4):43-47. 被引量：19
8王伟,李泽飞,黄燕.基于油品性质的汽油调和辛烷值模型的选取[J].石油学报（石油加工）,2006,22(6):39-44. 被引量：17
9李素英,李晓兵,莺歌,符娜.基于植被指数的典型草原区生物量模型——以内蒙古锡林浩特市为例[J].植物生态学报,2007,31(1):23-31. 被引量：65
10孙一忞,郭起浩,袁晶,洪震,吕传真.4种流畅性测验上海社区中老年人的常模分和划界分[J].中国行为医学科学,2007,16(8):714-717. 被引量：10

引证文献24

1朱悦晨,李江涛.基于支持向量机模型的汽油炼制过程中辛烷值和硫含量的预测研究[J].中国水运（下半月）,2021,21(4):45-46. 被引量：2
2李春红,黄登香,覃朝勇.一种改进的Lasso方法及其在对数线性模型中的应用[J].广西大学学报（自然科学版）,2015,40(3):758-765. 被引量：2
3陈江鹏,彭斌,文雯,唐小静,文小焱,胡珊.微阵列数据中的先验信息对基于LASSO变量选择方法影响的模拟研究[J].中国卫生统计,2015,32(3):407-409. 被引量：2
4张俊国,刘丽,李丽霞,张敏,郜艳晖.惩罚广义线性模型在遗传关联研究中的应用及R软件实现[J].中国卫生统计,2016,33(4):582-586. 被引量：5
5孙红卫,杨文越,王慧,罗文海,胡乃宝,王彤.惩罚logistic回归用于高维变量选择的模拟评价[J].中国卫生统计,2016,33(4):607-611. 被引量：8
6韩耀风,覃文峰,陈炜,李博涵,滕伯刚,方亚.adaptive LASSO logistic回归模型应用于老年人养老意愿影响因素研究的探讨[J].中国卫生统计,2017,34(1):18-22. 被引量：23
7赵俊琴,王慧,王彤.基于LASSO的高维数据线性回归模型统计推断方法比较[J].中国卫生统计,2017,34(2):250-252. 被引量：5
8张俊国,林志丰,刘丽,李丽霞,杨翌,郜艳晖.SKAT与惩罚回归模型两阶段策略在基因组关联研究中的应用[J].中国卫生统计,2017,34(3):382-385.
9洪刘根,郑霖,杨超.基于最小绝对收缩与选择算子模型稀疏恢复的多目标检测[J].计算机应用,2017,37(8):2184-2188. 被引量：1
10闫慈,田翔华,阿拉依.阿汗,张伟文,曹明芹.基于Lasso特征选择的代谢综合征数据分类[J].公共卫生与预防医学,2017,28(6):31-33. 被引量：1

二级引证文献79

1刘琪,黄忻,史祖民,余灿清.膳食模式评价方法的研究进展[J].营养学报,2021,43(6):615-618. 被引量：7
2谢小莲,杜涛,乔静.LASSO-logistic回归模型在高尿酸血症影响因素分析中的应用[J].武警医学,2023,34(3):185-189. 被引量：1
3李翠平,李信响,董江宁,郑明雪,王裴培,李乃玉,王鸿飞.IVIM-DWI参数及纹理特征术前鉴别宫颈癌亚型的价值[J].临床放射学杂志,2020,39(6):1127-1132. 被引量：8
4韩耀风,覃文峰,陈炜,李博涵,滕伯刚,方亚.adaptive LASSO logistic回归模型应用于老年人养老意愿影响因素研究的探讨[J].中国卫生统计,2017,34(1):18-22. 被引量：23
5张俊国,林志丰,刘丽,李丽霞,杨翌,郜艳晖.SKAT与惩罚回归模型两阶段策略在基因组关联研究中的应用[J].中国卫生统计,2017,34(3):382-385.
6许敏锐,强德仁,周义红,石素逸,秦晶,陶源.应用R软件进行logistic回归模型的交互作用分析[J].中国卫生统计,2017,34(4):670-672. 被引量：10
7张良文,曾雁冰,方亚,翁陈子恒.基于Andersen行为模型的厦门市老年人养老意愿及其影响因素研究[J].中国卫生统计,2017,34(5):721-725. 被引量：25
8辛世超,赵玉虹.基于SEER数据库的结直肠癌预后因素探讨及预后模型构建[J].中华医学图书情报杂志,2017,26(11):7-13. 被引量：3
9从祥丰,贾贤杰,梁楠楠,郭小磊,吴涛,罗棵濒.蚌埠市农村老人子女数和健康状况对养老意愿的影响分析[J].中华全科医学,2018,16(5):809-812. 被引量：1
10钱香玲,朱蓓,张冰蟾,胡斌.城市老年人社区居家养老模式知晓度及影响因素研究——以徐州市为例[J].现代预防医学,2018,45(9):1598-1602. 被引量：13

1科学家研究发现多数疾病与遗传有关[J].中成药,2005,27(6):642-642.
2于颖彦.生物信息学(6):生物信息学与医学研究[J].外科理论与实践,2007,12(2). 被引量：1
3陈峰.线性混合效应模型的惩罚变量选择[J].中国卫生信息管理杂志,2014,11(3):278-284. 被引量：1
4胡圣杰.变异老鼠挑战人类疾病[J].世界发明,1998,21(3):9-9.
5赵俊琴,王彤,王慧,赵春妮,梁洁,刘晓萌.Lasso-惩罚计分检验在小样本回归模型自变量筛选与统计推断中的应用[J].中华疾病控制杂志,2015,19(5):507-509. 被引量：6
6张文斌,韩雷亚.统计推断中的检验效能分析[J].数理医药学杂志,1998,11(2):141-141. 被引量：3
7谢宏宇,侯艳,李康.基于正则化回归的组学数据变量筛选方法[J].中国卫生统计,2016,33(4):733-736. 被引量：4
8王斌会,王霄.生物信息学数据库的新进展[J].医学信息（医学与计算机应用）,2001,14(2):63-64. 被引量：7
9周利锋,高尔生.统计学讲座第五讲计数资料的统计描述和总体率估计[J].上海实验动物科学,2000,20(2):126-128.
10吴功煌,史新元,吴志生,乔延江.后向变量选择偏最小二乘法用于近红外光谱定量校正模型的建立[J].数理医药学杂志,2010,23(3):257-260. 被引量：4

中国卫生统计

2013年第6期

浏览历史

内容加载中请稍等...

高维数据回归分析中基于LASSO的自变量选择被引量：24

参考文献40

二级参考文献16

共引文献20

同被引文献163

引证文献24

二级引证文献79

相关作者

相关机构

相关主题

浏览历史

高维数据回归分析中基于LASSO的自变量选择 被引量：24

参考文献40

二级参考文献16

共引文献20

同被引文献163

引证文献24

二级引证文献79

相关作者

相关机构

相关主题

浏览历史

高维数据回归分析中基于LASSO的自变量选择被引量：24