-
题名异质性大数据的分布式估计
被引量:2
- 1
-
-
作者
郭婧璇
徐慧超
祝婉晴
田茂再
-
机构
中国人民大学统计学院
教育部人文社会科学重点研究基地中国人民大学应用统计科学研究中心
中国人民大学
-
出处
《统计研究》
CSSCI
北大核心
2020年第10期104-114,共11页
-
基金
中国人民大学科学研究基金(中央高校基本科研业务费专项资金资助)项目“大数据分析的稳健统计理论与应用研究”(18XNL012)。
-
文摘
随着物联网技术的进步,大数据给网络带宽和计算机存储能力带来巨大挑战,传统的集中式数据处理难以实现,客观上促进了分布式统计学习的发展。在无迭代算法研究中,Zhang等(2013)证明了当数据集个数s=O(■)时,基于局部经验风险最小化的分治(DC)简单平均估计量具有O(N-1)均方误差收敛速度,Huang和Huo(2019)在M估计框架下进一步提出分布式一步估计量,但上述方法均未考虑海量数据可能存在的异质性对分治估计效果的影响。本文在线性模型框架下提出海量异质数据的分治一步加权估计,证明了估计量的渐近性质并考虑了异质性检验问题。将本文提出的方法应用于美国医疗保险实际数据分析,结果表明该方法能更好地拟合数据的线性趋势且显著提高了计算效率。
-
关键词
分治策略
一步估计
海量数据
异质性
医疗保险
-
Keywords
Divide-and-conquer
One-step Estimator
Big Data
Heterogeneity
Medical Insurance
-
分类号
O212
[理学—概率论与数理统计]
-
-
题名基于充分降维的半参数不可忽略无响应光滑分位回归
- 2
-
-
作者
郭婧璇
田茂再
-
机构
中国人民大学统计学院
-
出处
《系统科学与数学》
CSCD
北大核心
2024年第2期471-507,共37页
-
基金
北京市自然科学基金项目(1242005)资助课题。
-
文摘
文章在响应变量不可忽略缺失假定下,考察了分位回归的估计问题.文章首先建立半参数指数倾斜响应模型,为克服不可忽略缺失数据的识别性困难,避免多元非参数核估计造成的维数灾难,文章基于充分降维假设,利用数据驱动方法构造缺失工具变量,得到倾斜参数的轮廓两步广义矩估计量和非参数部分的降维核估计量;基于上述估计量建立逆概率加权(IPW)、核辅助估计方程插补(EEI)和增强逆概率加权(AIPW)三种分位回归估计方程,并利用卷积平滑分位损失函数代替经典的分位损失函数克服检查函数不平滑造成的理论和计算困难,回归系数的估计量由经验似然方法得到.理论研究证明了三种估计量等价的渐近正态性和相应对数经验似然比函数的渐近χ2加权和性质.数值模拟比较了上述估计量的有限样本性能.最后对HIV-CD4实际数据进行分析.
-
关键词
不可忽略缺失
半参数
充分降维
分位回归
光滑经验似然
-
Keywords
MNAR
semiparametric
sufficient dimension reduction
quantile regression
empirical likelihood
-
分类号
O212.1
[理学—概率论与数理统计]
-