-
题名大数据下基于体积抽样的异常点诊断及估计问题
被引量:4
- 1
-
-
作者
梁晋雯
田茂再
-
机构
中国人民大学应用统计科学研究中心
中国人民大学统计学院
兰州财经大学统计学院
新疆财经大学统计与信息学院
-
出处
《数理统计与管理》
CSSCI
北大核心
2020年第2期223-235,共13页
-
基金
中国人民大学科学研究基金(中央高校基本科研业务费专项资金资助)项目成果(18XNL012).
-
文摘
处理大规模数据集时,抽样是一种很受欢迎的有效方法。体积抽样作为一种联合抽样的方法,它是按照与矩阵平方的行列式成比例进行抽样。该方法在线性回归模型背景下能得到参数的无偏估计。然而也容易受到异常点的影响,本文感兴趣的是体积抽样受异常点影响的程度。基于数据删除模型和均值漂移模型构建统计量进行异常点诊断,结果发现体积抽样方法在某些情况下极易受异常点影响。但是在给定损失的条件下,比独立同分布抽样所需的子样本量更小,在此基础上,提出样本量的自适应选择方法。作为体积抽样的扩展,杠杆值体积抽样同样可以得到普通最小二乘线性模型参数的无偏估计,一个有趣的发现是使用杠杆值体积抽样,等权最小二乘估计结果比非等权最小二乘估计效果好。
-
关键词
大数据
体积抽样
异常点
最小二乘估计
-
Keywords
big data
volume sampling
outliers
least squares estimation
-
分类号
O212.2
[理学—概率论与数理统计]
-