-
题名大数据下基于体积抽样的异常点诊断及估计问题
被引量:4
- 1
-
-
作者
梁晋雯
田茂再
-
机构
中国人民大学应用统计科学研究中心
中国人民大学统计学院
兰州财经大学统计学院
新疆财经大学统计与信息学院
-
出处
《数理统计与管理》
CSSCI
北大核心
2020年第2期223-235,共13页
-
基金
中国人民大学科学研究基金(中央高校基本科研业务费专项资金资助)项目成果(18XNL012).
-
文摘
处理大规模数据集时,抽样是一种很受欢迎的有效方法。体积抽样作为一种联合抽样的方法,它是按照与矩阵平方的行列式成比例进行抽样。该方法在线性回归模型背景下能得到参数的无偏估计。然而也容易受到异常点的影响,本文感兴趣的是体积抽样受异常点影响的程度。基于数据删除模型和均值漂移模型构建统计量进行异常点诊断,结果发现体积抽样方法在某些情况下极易受异常点影响。但是在给定损失的条件下,比独立同分布抽样所需的子样本量更小,在此基础上,提出样本量的自适应选择方法。作为体积抽样的扩展,杠杆值体积抽样同样可以得到普通最小二乘线性模型参数的无偏估计,一个有趣的发现是使用杠杆值体积抽样,等权最小二乘估计结果比非等权最小二乘估计效果好。
-
关键词
大数据
体积抽样
异常点
最小二乘估计
-
Keywords
big data
volume sampling
outliers
least squares estimation
-
分类号
O212.2
[理学—概率论与数理统计]
-
-
题名异质性数据下基于Maximin效应的充分降维方法
- 2
-
-
作者
梁晋雯
田茂再
-
机构
中国人民大学应用统计科学研究中心
新疆财经大学统计与数据科学学院
兰州财经大学统计学院
-
出处
《系统科学与数学》
CSCD
北大核心
2020年第5期902-916,共15页
-
基金
中国人民大学“统筹支持一流大学和一流学科建设引导专项资金”资助课题。
-
文摘
对有多个来源的数据集进行充分降维,文献中常见的方法是利用分类变量信息并融入先验知识或者鉴于混合模型分别估计不同成分的中心子空间.文章主要借鉴了普通线性模型的Maximin估计思想,提出了中心子空间的Maximin方向估计,以减少数据来源较多而呈现的复杂性.模拟结果显示,Maximin方向估计能够有效地探索子总体的共性.
-
关键词
充分降维
异质性数据
Maximin效应
最小二乘估计
-
Keywords
Sufficient dimension reduction
heterogeneous data
maximin effect
least squares estimation
-
分类号
O212.1
[理学—概率论与数理统计]
-