大规模数据的分块SCAD惩罚回归分析被引量：2

Block and SCAD Penalty based Regression for Large-scale Data

导出

摘要受到计算内存的限制,大规模数据的回归分析往往难以奏效。为此,借用“化整为零”的思想,提出了一个新的回归分析方法：分块SCAD惩罚回归。该方法核心在于：将大规模数据划分成若干个块,对每一个块进行SCAD惩罚回归,最后将每个块的参数估计结果进行简单平均作为全样本回归系数估计的近似。进一步,在理论上证明了分块SCAD惩罚回归的变量选择效果与渐近性质。数值模拟和实际应用结果表明：分块SCAD惩罚回归不仅能够显著降低计算内存的需求和计算时间,而且其变量选择、参数估计和预测结果等与全样本回归基本一致。 It is difficult to implement regression on large-scale data owing to limitations of computer primary memory. To this end, we borrow the idea of breaking up the whole into parts and propose a new regression method： Block and SCAD Penalty based Regression. The major novelty of this method includes： splitting the entire data into a few blocks, implementing the SCAD penalty regression on data in each block, deriving final results through combining these SCAD penalty regression results via simple average approach, which provides approximate estimates of the regression coefficients on entire dataset. Moreover, we demonstrate the performance of variable selection and asymptotic property of the proposed method theoretically. Both numerical simulations and a real-world application show that the proposed method significantly reduces the required amount of primary memory and computation time. In addition, the new method is as efficient as the regression on entire dataset in terms of variable selection, estimation, and prediction, etc.

作者蔡超许启发蒋翠侠王艳明 CAI Chao;XU Qi-fa;JIANG Cui-xia;WANG Yan-ming(School of Statistics,Shandong Technology and Business University,Shandong Yantai 264005,China;School of Management,Hefei University of Technology,Anhui Hefei 230009,China)

机构地区山东工商学院统计学院合肥工业大学管理学院

出处《数理统计与管理》 CSSCI 北大核心 2018年第6期1023-1040,共18页 Journal of Applied Statistics and Management

基金国家自然科学基金(71671056) 国家社会科学基金(14BTJ028,15BJY008) 教育部人文社会科学研究规划基金项目(14YJA790015) 山东省社会科学规划项目(18DTJJ01)支持

关键词回归分析大规模数据分块数据 SCAD惩罚变量选择 regression analysis large-scale data block data scad penalty variable selection

分类号 F224.0 [经济管理—国民经济] O212 [理学—概率论与数理统计]

引文网络
相关文献

参考文献3

1晏振,戴晓文,田茂再.基于杠杆值大数据集抽样的异常点诊断[J].数理统计与管理,2016,35(5):794-802. 被引量：14
2张娟,张贝贝.基于Group-LASSO方法的广义半参数可加信用评分模型应用研究[J].数理统计与管理,2016,35(3):517-524. 被引量：13
3李春红,吴英,覃朝勇.基于LASSO变量选择方法的网络广告点击率预测模型研究[J].数理统计与管理,2016,35(5):803-809. 被引量：11

二级参考文献42

1王继民,陈翀,彭波.大规模中文搜索引擎的用户日志分析[J].华南理工大学学报（自然科学版）,2004,32(z1):1-5. 被引量：25
2Tibshirani R. Regression shrinkage and selection via the lasso [J]. J. R. Statist. Soc. (B), 1996(58): 267 -288.
3Bakin S. Adaptive regression and model selection in data mining problems [D]. PhD Thesis, Aus- tralian National University, Canberra, 1999.
4Yuan M, Lin Y. Model selection and estimation in regression with grouped variables [J]. J. R. Statist.Soc. (B), 2006, (68): 49- 67.
5Lukas Meier, Sara van de Geer, Peter Biihlmann. Tile group lasso for logistic regression [J]. J. R. Statist. Soc. (B), 2008, (70): 53 -71.
6Buja A, Hastie T J, Tibshirani R J. Linear smoother and additive models (with discussion) [J]. Annals of Statistics, 1989, (17): 453- 555.
7Linton O, Nielsen J P. A kernel method of estimating structured nonparametric regression based on ma.reinal integration [J]. Biometrika. 1995. (82): 93 -100.
8Manyika J,Chui M,Brown B,et al.Big Data:The Next Frontier for Innovation,Competition,and Productivity [M].McKinsey Global Institute,2011.
9Grobelnik,Marko.Big Data Tutorial [EB/OL].http://videolectures.net/eswc2012_grobelnik_big_data/.
10Hamish Barwick.The "four Vs" of Big Data.Implementing Information Infrastructure Symposium[EB/OL].http://www.computerworld.coin.au/article/396198/iiis_four_vs_big_data/.

共引文献34

1梁晋雯,田茂再.大数据下基于体积抽样的异常点诊断及估计问题[J].数理统计与管理,2020,39(2):223-235. 被引量：4
2赵杨,袁析妮,陈亚文,武立强.基于机器学习混合算法的APP广告转化率预测研究[J].数据分析与知识发现,2018,2(11):2-9. 被引量：3
3胡德秀,郭盼,陈诗怡,程琳,赵志明,冉蠡.基于最小截平方和估计的监测数据分析方法[J].数理统计与管理,2017,36(4):632-640. 被引量：7
4丁澍,王艳.高职院校课堂教学质量影响因素研究——基于Lasso-logistic回归模型[J].数理统计与管理,2017,36(6):1039-1048. 被引量：12
5李会琼,朱桂玲,郭召.单指标众数模型的统计诊断及在波士顿房价分析中的应用[J].数理统计与管理,2017,36(6):1091-1105. 被引量：4
6谢琍,刘磊,曹瑞元.一种新的空间计量模型——部分线性可加自回归模型及其应用[J].数理统计与管理,2018,37(2):235-242. 被引量：3
7时晨.互联网金融云平台中小企业客户信用评价研究[J].财经问题研究,2018(5):118-124. 被引量：6
8陈俊丽,张校磊.健康数据分析系统的设计研究[J].东莞理工学院学报,2018,25(3):89-93.
9谢天保,崔田.基于网络搜索数据的品牌汽车销量预测研究[J].信息技术与网络安全,2018,37(8):50-53. 被引量：3
10张涛,刘宽斌.“大数据”在宏观经济预测分析中的应用[J].财经智库,2018,3(3):65-83. 被引量：16

同被引文献7

1李仲达,林建浩,王美今.大数据时代的高维统计:稀疏建模的发展及其应用[J].统计研究,2015,32(10):3-11. 被引量：14
2冷薇,李俊鹏,张崇岐.高维混料模型的LASSO变量选择[J].数理统计与管理,2019,38(1):81-86. 被引量：8
3马学俊.GSIS超高维变量选择[J].统计与信息论坛,2015,30(8):16-19. 被引量：10
4张景肖,李向杰,郭海明.HD-SIS超高维数据稳健变量筛选[J].统计与信息论坛,2016,31(4):9-12. 被引量：6
5SHAO Li,YU Yuan,ZHOU Yong.Sure feature screening for high-dimensional dichotomous classification[J].Science China Mathematics,2016,59(12):2527-2542. 被引量：2
6曾津,周建军.高维数据变量选择方法综述[J].数理统计与管理,2017,36(4):678-692. 被引量：39
7王国长,梁焙婷,王金枝.改进的自适应Lasso方法在股票市场中的应用[J].数理统计与管理,2019,38(4):750-760. 被引量：16

引证文献2

1何胜美,谢家泉.超高维多类判别分析的特征筛选方法研究[J].数理统计与管理,2021,40(4):679-691. 被引量：2
2蔡超,王康宁.大规模数据的L_(1)惩罚分位数回归方法研究--基于特征筛选和随机抽样方法[J].数理统计与管理,2022,41(1):63-78. 被引量：1

二级引证文献3

1刘达,刘雨萌,许晓敏.基于Copula函数特征筛选的电力物资供应商投标价格预测[J].技术经济,2021,40(10):1-9. 被引量：6
2潘莹丽,葛翔宇,周艳丽.基于投影相关的超高维生存数据的特征筛选新方法[J].中国科学：数学,2024,54(2):211-230.
3宋凤丽,孙威.基于基尼相关系数的超高维判别特征筛方法[J].数理统计与管理,2024,43(6):1073-1083.

1曾俊.一种基于Hadoop架构的并行挖掘算法研究[J].现代电子技术,2018,41(1):117-119. 被引量：13
2钱雪忠,秦静,宋威.改进的并行随机森林算法及其包外估计[J].计算机应用研究,2018,35(6):1651-1654. 被引量：4
3杨思思.中证100股票指数回归模型的实证分析[J].重庆文理学院学报（社会科学版）,2018,37(2):121-126. 被引量：1
4何高锋.布地奈德雾化吸入配合静脉滴注阿奇霉素治疗儿童支原体肺炎的效果评价[J].齐齐哈尔医学院学报,2018,39(12):1409-1411. 被引量：2
5康鲲鹏.基于大数据的数据清洗研究[J].江西科学,2018,36(4):654-657. 被引量：2
6刘杰杰,李霓.基于估计方程的简单计数数据统计分析[J].海南师范大学学报（自然科学版）,2018,31(3):306-312.
7吕晓玲,王小宁,孙志猛.删失分位数变系数回归模型的FIC模型平均估计（英文）[J].系统科学与数学,2018,38(7):746-763. 被引量：4
8马瑞楠,马丽.一类NSFDE的带随机步长EM数值解的渐近性质[J].海南师范大学学报（自然科学版）,2018,31(3):295-305.
9闫朝琳,高建芳.关于红细胞模型数值解的振动性分析[J].高校应用数学学报（A辑）,2018,33(4):431-440.
10孟维维,李俊平.带灾难和移民的n维分枝过程[J].应用数学学报,2018,41(5):608-619.

数理统计与管理

2018年第6期

浏览历史

内容加载中请稍等...

大规模数据的分块SCAD惩罚回归分析被引量：2

参考文献3

二级参考文献42

共引文献34

同被引文献7

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

大规模数据的分块SCAD惩罚回归分析 被引量：2

参考文献3

二级参考文献42

共引文献34

同被引文献7

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

大规模数据的分块SCAD惩罚回归分析被引量：2