-
题名广义可加模型的拟最优样本选择方法
被引量:1
- 1
-
-
作者
秦磊
叶玲珑
谢邦昌
-
机构
对外经济贸易大学统计学院
厦门大学公共事务学院
台湾辅仁大学管理学院
-
出处
《统计与信息论坛》
CSSCI
北大核心
2022年第10期16-24,共9页
-
基金
对外经济贸易大学中央高校基本科研业务费专项资金资助“大数据下重大传染病的监测和预警研究”(20YQ12),对外经济贸易大学惠园杰出青年学者项目(20JQ07)。
-
文摘
面对海量数据,如何选取一个具有代表性的样本进行统计建模以揭示数据背后的规律、进而对经济和社会发展进行预测和判断,是统计学研究的重点。本研究以确定性抽样方法给出该问题的答案,该方法能够有效避免由传统概率抽样方法带来的损失,使得具有代表性的样本点尽量被选入抽样样本中,更加全面地反映总体情况。本研究集中在广义可加模型的最优样本抽取方法。通过比较全样本和抽样样本估计结果之间的差距,发现样本需要满足一定的正交性条件才能最大程度还原总体的统计特征。基于该正交条件,给出了一个贪婪的拟最优样本选择方法。大量的模拟数据和实际数据证实,相较于传统概率抽样方法,确定性抽样方法具有更优良的性能,该方法可以拓展到广义变系数模型,并且适用于处理经济统计和政府统计产生的大型微观数据集。
-
关键词
大数据
确定性抽样
广义可加模型
拟最优样本
-
Keywords
big data
deterministic sampling
general additive model
quasi-optimal sample
-
分类号
O212
[理学—概率论与数理统计]
-