海量数据下模型平均的分治算法被引量：5

Divide and Conquer Algorithms for Model Averaging with Massive Data

导出

摘要随着数据收集技术在近年来的飞速发展，传统的统计方法都面临着“海量数据”的挑战．分治算法是应对海量数据的最有效方法之一：其基本思想是将整个数据集分成若干份较小的数据，在每份数据上单独拟合统计模型，然后将多个模型的结果进行整合从而得到最终的结果．模型平均是当代统计学和计量经济学研究的国际前沿方法，在经济、金融、生物、医学等方面有着广泛的应用．针对线性模型的MMA和JMA方法，以及广义线性模型的模型平均方法，文章分别提出了它们在海量数据下的分治算法，并通过模拟和实际数据分析来说明算法的有效性和实用性． With the rapid development of data collection techniques in recent years, traditional statistical methods face the challenge of ＂massive data＂. Divide and conquer is one of the most efficient ways to deal with massive data. Its basic idea is to divide the whole data to several subsets, fit a statistical model in each single subset, and combine the results from all the subsets to obtain the final result. Model averaging is a frontier method in statistics and economics. It has wide applications in many areas such as economics, finance, biology and medicine. In this paper, we study the divide and conquer algorithms for Mallows model averaging, Jackknife model averaging and model averaging for generalized linear models. Empirical results are provided to support the proposed algorithms.

作者方方尹相菊张强 FANG Fang;YIN Xiangju;ZHANG Qiang(School of Statistics,East China Normal University,Shanghai 200241)

机构地区华东师范大学统计学院

出处《系统科学与数学》 CSCD 北大核心 2018年第7期764-776,共13页 Journal of Systems Science and Mathematical Sciences

基金国家自然科学基金(11601156) 上海市科委科技项目(16QA1401700)资助课题

关键词分治算法广义线性模型 JMA 线性模型 MMA 海量数据 Divide and conquer generalized linear model jackknife model averaging linear model Mallows model averaging massive data.

分类号 O212 [理学—概率论与数理统计]

引文网络
相关文献

同被引文献40

1郭志民,马建伟,张小斐,万迪明,刘涌,袁秋实.面向三维可视化场景的电力大数据分析模型构建研究[J].电网与清洁能源,2019,35(6):46-51. 被引量：35
2吴萌,徐全智.支持向量机在金融时间序列预测中的应用[J].电子科技大学学报,2007,36(S1):442-444. 被引量：12
3Haiying WANG Xinyu ZHANG Guohua ZOU Academy of Mathematics and Systems Science,Chinese Academy of Sciences,Beijing 100190,China..FREQUENTIST MODEL AVERAGING ESTIMATION:A REVIEW[J].Journal of Systems Science & Complexity,2009,22(4):732-748. 被引量：16
4王海鹰,邹国华.线性测量误差模型的平均估计[J].系统科学与数学,2012,32(1):1-14. 被引量：10
5代亮,许宏科,陈婷,钱超,梁殿鹏.基于MapReduce的多元线性回归预测模型[J].计算机应用,2014,34(7):1862-1866. 被引量：17
6丁勇,陈凯.国际航空运输服务与货物贸易的相关性研究——基于中、美、德、日四国比较[J].郑州航空工业管理学院学报,2015,33(5):38-45. 被引量：1
7陈心洁,林鹏.工具变量线性回归模型的平均估计[J].系统科学与数学,2015,35(12):1546-1562. 被引量：3
8倪金生,刘翔,杨劲林,李莹,苏晓玉,朱学山.海量动态异构空间标绘信息实时接入技术[J].国土资源遥感,2017,29(2):221-225. 被引量：4
9梁小珍,乔晗,汪寿阳,张珣.基于奇异谱分析的我国航空客运量集成预测模型[J].系统工程理论与实践,2017,37(6):1479-1488. 被引量：27
10王涛,周宜,王立福,詹禹曦,夏娜.基于北斗通信SRP机制的电力计费信息远程传输系统的设计与实现[J].合肥工业大学学报（自然科学版）,2017,40(12):1630-1636. 被引量：16

引证文献5

1陈少东,李志强.海量数据广义线性模型变量选择算法研究[J].北京化工大学学报（自然科学版）,2020,47(2):130-136.
2陈少东,李志强.海量数据下广义线性模型参数的聚合估计算法研究[J].统计与信息论坛,2020,35(7):18-24. 被引量：3
3周建红,邝雄,陈志明,张新雨.我国航空客运量需求预测模型:基于随机前沿预测模型和模型平均[J].系统工程理论与实践,2020,40(11):2861-2871. 被引量：8
4罗世刚,杨鹏,张勇红,余向前,廖晓群.海量电力信息数据在线实时传输模型设计[J].电力信息与通信技术,2021,19(8):69-75. 被引量：1
5李翠荣,翟红,韦韧,梁金龙,徐民.基于ZigBee的医院病案信息局域共享模型设计[J].信息技术,2023,47(2):58-61.

二级引证文献12

1王晓慧,荣见华,杨向前.基于车联网的多维驾驶员行为评价方法研究[J].机电工程技术,2020,49(11):119-122. 被引量：3
2蒋建烨.智能电网环境下数据聚合方案分类研究[J].通信电源技术,2021,38(16):28-30.
3姚日权,费英群,丁云峰,王胜华,田林.基于智能数据挖掘算法的工程数据信息预测模型研究[J].电子设计工程,2022,30(7):63-67. 被引量：4
4陈孝文,苏攀,吴彬溶,成承,王林.基于改进长短期记忆网络的时间序列预测研究[J].武汉理工大学学报（信息与管理工程版）,2022,44(3):487-494. 被引量：5
5周辉宇,李瑞敏,黄安强,王启燕,贺泽芳,汪寿阳.基于时空关联规则挖掘的城市交通拥堵传导预测[J].系统工程理论与实践,2022,42(8):2210-2224. 被引量：4
6吴薇薇,陈新元,张皓瑜,季灵,刘硕.极端事件对我国民航客运的影响分析[J].哈尔滨商业大学学报（自然科学版）,2022,38(5):610-617.
7朱晗,张敏,唐加福.基于强化学习的需求分布未知情境下酒店客房动态定价研究[J].系统工程理论与实践,2023,43(2):509-523. 被引量：3
8陶瑞.基于季节调整的中国航空客运量预测研究[J].物流科技,2023,46(8):85-89.
9李轩,周新苗,吴晓峰.基于HW-EEMD-SVM模型的民航客运量预测[J].数量经济研究,2023,14(2):189-204. 被引量：3
10王星惠,耿文静,许启发.基于QRNN+GARCH族MA方法的多期VaR和CVaR度量研究[J].数理统计与管理,2023,42(4):714-734. 被引量：2

1唐小川,罗亮.基于析因设计的大数据相关关系挖掘算法[J].计算机应用,2018,38(9):2507-2510. 被引量：11
2基因检测创投研究:主战场与突破口[J].创业邦,2018,0(9):22-29.
3王博.教师在英语项目化教学中的角色转变[J].课程教育研究（学法教法研究）,2018,0(26):24-24.
4高鹏,白梓静.有机合成新理念及前沿方法在化学制药工艺学教学中的体现——以奥美拉唑的合成为例[J].广东化工,2018,45(14):243-244.
5曲长文,冯奇,李廷军.基于分治-贪心算法的高斯混合多观测站CPHD滤波器[J].电子学报,2018,46(10):2472-2479. 被引量：3
6张福星,崔巍.降低损耗的高频方波注入PMSM无传感器控制[J].微特电机,2018,46(9):54-58.
7徐震,杨蕾.低占空比无线传感网络中数据收集技术[J].哈尔滨工程大学学报,2018,39(4):772-777. 被引量：1
8张海亮.经济学研究热点之一:防范化解金融风险的若干研究热点问题[J].昆明理工大学学报（社会科学版）,2018,18(5). 被引量：1
9殷潇,毛宗福,张欲晓.我国贫困、边远地区基本药物供应保障改革探索与思考——基于供应链治理视角[J].中国药房,2017,28(36):5041-5044. 被引量：3
10杜小荣.大数据技术在计算机差异化教育中的应用[J].现代职业教育,2018,0(15):173-173. 被引量：1

系统科学与数学

2018年第7期

浏览历史

内容加载中请稍等...

海量数据下模型平均的分治算法被引量：5

同被引文献40

引证文献5

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

海量数据下模型平均的分治算法 被引量：5

同被引文献40

引证文献5

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

海量数据下模型平均的分治算法被引量：5