高维数据下群组变量选择的惩罚方法综述被引量：8

A Review of Penalized Group Variable Selection Methods in High Dimensional Data

导出

摘要变量选择是统计建模的重要环节,选择合适的变量可以建立结构简单、含义明确、预测精准的稳健模型。在实际应用中,有些变量具有群组结构,本文概括了三类群组变量选择惩罚方法,包括处理高度相关变量、仅选择组变量、即选择组又选择单个变量的方法,着重比较了它们的统计性质和优缺点,总结了相关算法和调整参数选择的方法。最后文章归纳了相关应用情况,并讨论了最新发展方向和所面临的挑战。 Variable selection is of great importance in statistical modeling. Suitable variables can make the model simple, meaningful and have favorite performance of prediction. Actually, there exist group structures among the predictors. This paper gives a review of three types of penalized group variable selection methods, including strongly correlated variable selection, group level selection and bi-level selection. We highlight their statistical properties, advantages and disadvantages. We also summarize the algorithms and tuning parameter selection. We discuss their applications, the further studies and the challenges in the end.

作者王小燕谢邦昌马双鸽方匡南

机构地区湖南大学金融与统计学院厦门大学经济学院厦门大学数据挖掘研究中心台北医学大学管理学院

出处《数理统计与管理》 CSSCI 北大核心 2015年第6期978-988,共11页 Journal of Applied Statistics and Management

基金国家社会科学基金(13&ZD148 13CTJ001) 国家自然科学基金(71471152) 国家统计局项目(2013LZ53 2012LD001)

关键词群组变量变量选择高维数据惩罚函数 grouping variable, variable selection, high dimensional data, penalty function

分类号 O212 [理学—概率论与数理统计]

引文网络
相关文献

参考文献50

1Fan J,Lv J.A selective review of variable selection in high dimensional feature space[J].Statistica Sinica,2010,20:101-148.
2Blum A,Langley P.Selection of relevant features and examples in machine learning[J].Artificial Intelligence,1997,(1-2):245-271.
3Kohavi R,John G.Wrappers for feature selection[J].Artificial Intelligence,1997,(1-2):273-324.
4Fan J,Li R.Variable selection via nonconcave penalized likelihood and its oracle properties[J].J.Amer.Statist.Assoc,2001,96:1348-1360.
5Breiman L.Heuristics of instability and stabilization in model selection[J].Annals of Statistics,1996,24:2350-2383.
6Breiman L.Better subset regression using the nonnegative garrote[J].Technometrics,1995,37:373-384.
7Tibshirani R.Regression shrinkage and selection via the Lasso[J].Journal of Royal Statistical Society(Series B),1996,58:267-288.
8Frank I E,Friedman J H.A statistical view of some chemometrics regression tools(with discussion)[J].Technometrics,1993,35:109-148.
9Zhang C H.Penalized linear unbiased selection[R].Rutgers University,Department of Statistics and Biostatistics Technical Report,2007.
10李根,邹国华,张新雨.高维模型选择方法综述[J].数理统计与管理,2012,31(4):640-658. 被引量：35

二级参考文献90

1王大荣,张忠占.联合广义线性模型中的变量选择[J].统计研究,2007,24(4):37-40. 被引量：2
2Dose C, Cincotti S. Clustering of financial time series with application to index and enhanced index tracking portfolio [J]. Physica A, 2005, 355:145-151.
3Gilli M, Kellezi E. Threshold accepting for index tracking [R]. University of Geneva, Working Paper, 2001.
4Zorin A, Borisov A. Traditional and index tracking methods for portfolio construction by means of neural networks [R]. Scientific Proceedings Of RIGA Technical University, Information Technology and Management Science, 2002.
5Tibshirani R. Regression shrinkage and selection via the lasso [J]. J. Royal. Statist. Soc. (B), 1996, 58: 267-288.
6Efron B, Hastie T, Johnstone I and Tibshirani R. Least angle regression [Jl. Ann. Star., 2004, 82: 409-499.
7Roll R. A mean/variance analysis of tracking error [J]. Journal of Portfolio Management, 1992, 18(4): 13-22.
8Rudolf M, Wolter H J, Zimmernann H. A linear model for tracking error minimization [J]. Journal of Banking K: finance, 1999, 23(1): 85-103.
9Bamberg G, Wagner N. Equity index replication with standard and robust regression estimators [J]. Operation Research Spektrum, 2000, 22: 525-534.
10Fan J, Li R. Statistical challenges with high dimensionality: Feature selection in knowledge discovery [A]. In: Sanz-Sole M, Soria J, Varona J L, et al, eds. Proceedings of the International Congress of Mathematicians [C]. Zurich: European Mathematical Society, 2006, 3: 595-622.

共引文献115

1沈淑琳(译),张文龙.基于百度搜索指数的CPI预测研究[J].价格理论与实践,2023(4):131-134. 被引量：1
2李振鹏,董明利,于明鑫,孟凡勇,张羽飞.Encoder-Decoder LSTM网络的输电母排触点温度预测方法[J].电子测量与仪器学报,2022,36(4):32-39. 被引量：4
3谭俊龙.基于股指期货的对冲交易发展策略研究[J].经济视野,2013(23).
4杨铭,张莉,葛迎利,鲁艳柳,季光.以多种数学模型探求降脂颗粒组方配伍优化的研究[J].中国中药杂志,2011,36(24):3439-3443. 被引量：14
5刘立月,黄兆华,刘遵雄.高维数据分类中的特征降维研究[J].江西师范大学学报（自然科学版）,2012,36(2):131-134. 被引量：4
6王德祥.直面微软新版邮件程序的改进与Bug[J].网络与信息,2000,14(4):54-54.
7李淑珍.Goldenhar综合征6例分析[J].眼科新进展,2000,20(2):143-143. 被引量：2
8李根,邹国华,张新雨.高维模型选择方法综述[J].数理统计与管理,2012,31(4):640-658. 被引量：35
9孙燕.随机效应Logit计量模型的自适应Lasso变量选择方法研究——基于Gauss-Hermite积分的EM算法[J].数量经济技术经济研究,2012,29(12):147-157. 被引量：11
10杨庆,陈桂明,江良洲,何庆飞.带标志点的LTSA算法及其在轴承故障诊断中的应用[J].振动工程学报,2012,25(6):732-738. 被引量：3

同被引文献59

1王宁,闫娜,徐友真,杨剑锋.复杂多工序制造过程关键质量特性识别[J].统计与决策,2021(8):177-180. 被引量：6
2方匡南,吴见彬,朱建平,谢邦昌.信贷信息不对称下的信用卡信用风险研究[J].经济研究,2010,45(S1):97-107. 被引量：64
3石庆焱.一个基于神经网络——Logistic回归的混合两阶段个人信用评分模型研究[J].统计研究,2005,22(5):45-49. 被引量：39
4汪四水.基于交叉谱分析法的因子筛选[J].数学的实践与认识,2005,35(11):153-157. 被引量：5
5张玲,陈收,张昕.基于多元判别分析和神经网络技术的公司财务困境预警[J].系统工程,2005,23(11):49-56. 被引量：35
6惠守博,王文杰.基于支持向量机的财务预警模型与应用研究[J].计算机工程与设计,2006,27(7):1183-1186. 被引量：20
7胡桔州,侯木舟,欧阳资生.数据挖掘的统计方法及其软件实现[J].统计与决策,2007,23(5):134-135. 被引量：5
8何桢,赵玉忠.全面质量管理中的关键影响因素分析[J].统计与决策,2008,24(12):164-166. 被引量：17
9王华,金勇进.统计数据准确性评估：方法分类及适用性分析[J].统计研究,2009,26(1):32-39. 被引量：44
10李济洪,王瑞波,王蔚林,李国臣.汉语框架语义角色的自动标注[J].软件学报,2010,21(4):597-611. 被引量：42

引证文献8

1曾津,周建军.高维数据变量选择方法综述[J].数理统计与管理,2017,36(4):678-692. 被引量：37
2王小燕,袁欣.基于惩罚组变量选择的COX财务危机预警模型[J].系统工程,2018,36(3):113-121. 被引量：7
3鄂琳.探究变量选择的常见方法[J].通讯世界,2019,26(3):205-206.
4胡紫薇.高维回归中的几种变量选择方法[J].科学技术创新,2019(30):27-29.
5史兴杰,王赛旎,李扬.高维数据的稳健二分类方法[J].统计研究,2020,37(9):95-105. 被引量：1
6张宪友,李东喜.基于spike-and-slab先验分布的贝叶斯变量选择方法[J].山东大学学报（理学版）,2021,56(12):84-93. 被引量：3
7王小燕,袁腾,段湘斌.基于零膨胀分位数两部模型的银行贷款违约预测研究[J].中国管理科学,2022,30(10):1-13. 被引量：4
8王宁,田淑珂,刘玉敏,赵哲耘.基于PLS-Aenet的多工序制造过程关键质量特性识别[J].中国管理科学,2024,32(4):271-278. 被引量：1

二级引证文献53

1李淑珍.Goldenhar综合征6例分析[J].眼科新进展,2000,20(2):143-143. 被引量：2
2杨博文.基于餐饮业网络评论的消费者情感极性分析[J].计算机系统应用,2018,27(8):42-48.
3凌羚,冷薇,张崇岐.Adaptive lasso在高维混料模型中的应用[J].广州大学学报（自然科学版）,2018,17(4):9-13. 被引量：2
4郭霞霞,周桂红,程洪.基于线性回归模型的菜花重量预测研究[J].河北农业大学学报,2019,42(1):126-130. 被引量：9
5鄂琳.探究变量选择的常见方法[J].通讯世界,2019,26(3):205-206.
6张立军,谭冰洁.基于迹lasso模型的变量筛选方法[J].系统工程,2018,36(12):127-134. 被引量：3
7张亚伦,许明月,邵星铭,吴棣,刘聪.基于变量选择的网络直播影响因素分析[J].通信技术,2019,52(6):1436-1442.
8胡紫薇.高维回归中的几种变量选择方法[J].科学技术创新,2019(30):27-29.
9杨雨萌,黄琼华,汪四水.高维数据下的贝叶斯网络结构学习[J].数理统计与管理,2019,38(6):1014-1025.
10阮皓麟,王斌会.稳健稀疏主成分分析法及其实证研究[J].数理统计与管理,2020,39(1):80-92. 被引量：14

1FAN HongYi,YUAN HongChun,JIANG NianQuan.New identities about operator Hermite polynomials and their related integration formulas[J].Science China(Physics,Mechanics & Astronomy),2011,54(12):2145-2149. 被引量：1
2范臻.信用资产组合优化的“条件在险值-补偿”型随机规划模型[J].应用数学与计算数学学报,2006,20(1):56-62.
3杨志霞,邓乃扬.稳健的支持向量分类机的优化理论分析[J].系统工程,2008,26(2):104-107.
4冉伦,李金林,徐丽萍.收益管理中单产品动态定价的稳健模型研究[J].数理统计与管理,2009,28(5):934-941. 被引量：9
5武丹.稳健资产负债管理最优化模型及实证分析[J].应用数学与计算数学学报,2010,24(2):93-100.
6马学俊.GSIS超高维变量选择[J].统计与信息论坛,2015,30(8):16-19. 被引量：10
7牟建波,刘赪.基于惩罚方法的贝叶斯群组变量选择[J].绵阳师范学院学报,2017,36(2):6-13.
8Jian Ma,Zeng-Qi Sun,Sheng Chen,Hong-Hai Liu.Dependence Tree Structure Estimation via Copula[J].International Journal of Automation and computing,2012,9(2):113-121.
9赵慧,甘仲惟,肖明.多变量统计数据中异常值检验方法的探讨[J].华中师范大学学报（自然科学版）,2003,37(2):133-137. 被引量：24
10许君臣.一种网络可靠度分析的不交和算法[J].辽宁工学院学报,1999,19(1):44-50. 被引量：1

数理统计与管理

2015年第6期

浏览历史

内容加载中请稍等...

高维数据下群组变量选择的惩罚方法综述被引量：8

参考文献50

二级参考文献90

共引文献115

同被引文献59

引证文献8

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

高维数据下群组变量选择的惩罚方法综述 被引量：8

参考文献50

二级参考文献90

共引文献115

同被引文献59

引证文献8

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

高维数据下群组变量选择的惩罚方法综述被引量：8