期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
基于一种距离相关的超高维生存数据Model-Free特征筛选
1
作者 潘莹丽 王昊宇 +1 位作者 喻佳丽 刘展 《湖北大学学报(自然科学版)》 CAS 2024年第1期122-132,共11页
随着大数据时代的来临,数据维度爆炸式增长,超高维数据的降维问题逐渐成为众多研究领域的热点话题。由于响应变量通常存在右删失,处理超高维完全数据的降维方法在右删失数据中将不再适用。本研究提出一种新的基于距离相关能有效处理超... 随着大数据时代的来临,数据维度爆炸式增长,超高维数据的降维问题逐渐成为众多研究领域的热点话题。由于响应变量通常存在右删失,处理超高维完全数据的降维方法在右删失数据中将不再适用。本研究提出一种新的基于距离相关能有效处理超高维右删失数据的特征筛选方法。首先利用距离相关系数计算每个协变量对响应变量的边际效应,建立与该系数有关的筛选指标,然后再根据事先确立的筛选准则进行特征筛选。提出的特征筛选方法不依赖任何模型结构假定,因此可以有效避免模型指定错误带来的不良后果。此外,该方法采用的距离协方差估计量是总体距离协方差的一个无偏估计,统计准确性和计算精度高。模拟和实证研究表明,提出的方法能在保留所有重要变量的前提下快速剔除与响应变量相关程度较弱的协变量,从而达到降低参数维数的目的。 展开更多
关键词 超高维数据 生存数据 距离相关 Model-Free特征筛选
下载PDF
Cox模型中基于Model-X Knockoffs的高维控制变量选择方法
2
作者 黄河 潘莹丽 《统计与决策》 北大核心 2023年第5期16-21,共6页
在生物医学、临床试验和流行病学等领域的研究中,由于获得生存数据的试验设计、观测时间的局限,以及观测对象在进入或退出试验时的个体差异等方面的原因,与所关注事件的发生时间相关的数据经常存在右删失。基于右删失生存数据解析协变... 在生物医学、临床试验和流行病学等领域的研究中,由于获得生存数据的试验设计、观测时间的局限,以及观测对象在进入或退出试验时的个体差异等方面的原因,与所关注事件的发生时间相关的数据经常存在右删失。基于右删失生存数据解析协变量和生存时间的关系时,应用最为广泛的统计模型是Cox模型。随着科学技术的进步,数据收集变得越来越容易,导致数据库规模越来越大、复杂性越来越高,数据的维度通常可以达到成百上千维,甚至更高。文章提出一种Cox模型中基于Model-X Knockoffs的高维控制变量选择方法。首先基于Knockoffs框架建立一个Knockoffs变量,并基于原始协变量和其相应的Knockoffs变量构造一个正则化的目标函数,然后通过求解目标函数的最优解构造一个统计量和基于数据的阈值,最后进行变量选择。模拟分析和实证研究结果表明:所提方法可以在变量选择的同时提供可靠的FDR控制,优于传统的LASSO方法。 展开更多
关键词 COX模型 Model-X Knockoffs FDR控制 变量选择
下载PDF
高维尾期望回归模型分布式估计方法的改进
3
作者 朱霞 潘莹丽 《统计与决策》 北大核心 2023年第18期33-38,共6页
文章针对高维尾期望回归模型的估计问题提出了一种在交互有效的替代损失(CSL)方法基础上进行优化函数改进的分布式估计方法,具体的改进步骤为:通过构建正则化的梯度增强型损失(GEL)函数,使所有Worker机器都能并行地优化各自对应的正则化... 文章针对高维尾期望回归模型的估计问题提出了一种在交互有效的替代损失(CSL)方法基础上进行优化函数改进的分布式估计方法,具体的改进步骤为:通过构建正则化的梯度增强型损失(GEL)函数,使所有Worker机器都能并行地优化各自对应的正则化GEL函数,并通过Master机器对计算结果进行更新。数值模拟和实证分析验证了该改进方法的估计误差收敛于基于所有数据的Centralize方法的估计误差,且相对于CSL方法,该方法具有较快的收敛速度。 展开更多
关键词 尾期望 分布式改进估计 正则化 GEL函数
下载PDF
带流数据集AFT模型的可再生估计
4
作者 潘莹丽 黄河 《统计与决策》 北大核心 2023年第9期47-52,共6页
流式生存数据是一个随时间延续而无限增长的动态生存数据集合,由于数据集以流的形式不断高速到达,一旦当前批次的数据到来,经过快速处理后就要被释放,不能继续保留在内存中。基于右删失流式生存数据来解析协变量与生存时间之间的相关性... 流式生存数据是一个随时间延续而无限增长的动态生存数据集合,由于数据集以流的形式不断高速到达,一旦当前批次的数据到来,经过快速处理后就要被释放,不能继续保留在内存中。基于右删失流式生存数据来解析协变量与生存时间之间的相关性时,加速失效时间模型(AFT模型)是常被使用的模型之一。文章基于带流数据集的AFT模型,通过泰勒展开构造一个Working估计方程,提出可再生估计,该估计仅依赖历史批数据集的汇总统计量和当前批数据集,有效避免了计算机对历史批数据存储带来的压力。模拟分析和实证结果表明,基于带流数据集的AFT模型提出的可再生估计方法在有限样本中的运行性能较好,在实践中具有可操作性。 展开更多
关键词 流数据集 右删失 AFT模型 可再生估计
下载PDF
带有污染协变量和辅助生存信息的Cox模型的改进估计方法研究
5
作者 潘莹丽 徐凯东 +1 位作者 陈慧芳 刘展 《应用概率统计》 CSCD 北大核心 2023年第3期394-412,共19页
在流行病学、生物医学和临床试验等领域的研究中,Cox模型是最受欢迎的半参数回归模型之一.在建模过程中,观测到的协变量通常是被污染的,污染因子可测,但是污染函数未知,直接使用被污染的协变量进行参数估计,可能会造成错误的统计推断.... 在流行病学、生物医学和临床试验等领域的研究中,Cox模型是最受欢迎的半参数回归模型之一.在建模过程中,观测到的协变量通常是被污染的,污染因子可测,但是污染函数未知,直接使用被污染的协变量进行参数估计,可能会造成错误的统计推断.研究者往往发现疾病治疗的最佳时刻点,如果忽略这些辅助生存信息,可能导致估计效率的降低.本文研究带有污染协变量和辅助生存信息的Cox模型的一种改进估计,通过核平滑方法校准受污染的协变量,并通过分组提取辅助生存信息用于参数估计,然后使用广义矩估计方法解决超维方程组求解的问题.模拟分析和实证研究结果表明:基于协变量校准后的Cox模型的广义矩估计方法比偏似然估计方法、协变量未调整的Cox模型的广义矩估计方法的效果更好. 展开更多
关键词 COX模型 受污染协变量 辅助生存信息 广义矩估计方法
下载PDF
超高维生存数据中基于相关性秩排序的变量筛选法和FDR控制
6
作者 潘莹丽 赵晓洛 +1 位作者 张淑莹 刘展 《统计与决策》 北大核心 2023年第19期47-52,共6页
由于超高维生存数据存在删失,因此处理超高维完全数据的变量筛选法大多不再适用。大多数变量筛选法虽能以较大的概率保留所有重要变量,即具有确定筛选性,但却未能很好地控制错误发现率(FDR),所以寻找一种可以平衡模型的可解释性和稳定... 由于超高维生存数据存在删失,因此处理超高维完全数据的变量筛选法大多不再适用。大多数变量筛选法虽能以较大的概率保留所有重要变量,即具有确定筛选性,但却未能很好地控制错误发现率(FDR),所以寻找一种可以平衡模型的可解释性和稳定性的降维方法显得尤为重要。文章探讨了超高维生存数据中基于相关性秩排序且不依赖于模型的变量筛选法和FDR控制,提出了一种使用Knockoff协变量指定变量筛选阈值的两步过程,可以将FDR控制在预先指定的水平α下。数值模拟和实证分析的结果表明,在FDR水平α大于或等于1 s(s是重要变量数量)的情况下,提出的两步CR-Knockoff过程同时具有确定筛选和FDR控制的性能。 展开更多
关键词 相关性秩 无模型筛选 Fixed-X Knockoff过滤器 超高维生存数据 CR-Knockoff
下载PDF
关于证券组合保险的操作策略 被引量:1
7
作者 潘莹丽 《知识经济》 2012年第11期63-63,共1页
证券组合保险是动态资源配置策略中最重要的一个方面,它为有价证券组合确保了最低的回报率,而又不会失去从市场有利变动中获利的机会。证券组合的管理人常常想持有对于其管理证券组合的看跌期权,在市场下跌时,看跌期权会对证券组合提供... 证券组合保险是动态资源配置策略中最重要的一个方面,它为有价证券组合确保了最低的回报率,而又不会失去从市场有利变动中获利的机会。证券组合的管理人常常想持有对于其管理证券组合的看跌期权,在市场下跌时,看跌期权会对证券组合提供保护,而在市场上涨时,证券组合仍有潜在上涨的空间,一种很好的做法是以合成的方式构造期权。 展开更多
关键词 资产组合 期权 对冲
下载PDF
基于Model-X Knockoffs的非概率样本倾向得分模型推断方法
8
作者 刘展 郑俊博 +1 位作者 刘洋 潘莹丽 《统计与决策》 北大核心 2023年第4期10-15,共6页
大数据下的样本大多为非概率样本,其入样概率未知,同时可能面临着协变量较多甚至是高维的情况,那么如何对这种情况下的非概率样本进行推断值得探索。针对该问题,文章考虑到Model-X Knockoffs的降维特点,提出采用Model-X Knockoffs筛选... 大数据下的样本大多为非概率样本,其入样概率未知,同时可能面临着协变量较多甚至是高维的情况,那么如何对这种情况下的非概率样本进行推断值得探索。针对该问题,文章考虑到Model-X Knockoffs的降维特点,提出采用Model-X Knockoffs筛选出重要变量,建立Logistic倾向得分模型来估计非概率样本的入样概率或倾向得分,对总体进行推断,从而提高估计的精度,同时可控制变量选择的错误发现率与功效。模拟与实证研究结果表明:基于Model-X Knockoffs的Logistic倾向得分模型的总体均值估计相比一般的Logistic倾向得分模型和广义线性回归模型的总体均值估计,偏差更小、效率更高、估计效果更好,并且能很好地控制错误发现率的水平,功效值也接近1。 展开更多
关键词 非概率样本 Model-X Knockoffs LASSO 倾向得分
下载PDF
非概率样本与概率样本的融合推断新方法
9
作者 刘展 王典妮 +1 位作者 潘莹丽 彭璐 《统计与决策》 北大核心 2023年第8期5-11,共7页
随着大数据与网络调查的发展,非概率样本重新引起了人们的关注与重视,然而非概率样本入样概率未知,利用非概率样本推断总体存在一定的困难。概率样本入样概率已知,然而其无回答率不断上升使得数据缺失日益严重,而有缺失的概率样本可能... 随着大数据与网络调查的发展,非概率样本重新引起了人们的关注与重视,然而非概率样本入样概率未知,利用非概率样本推断总体存在一定的困难。概率样本入样概率已知,然而其无回答率不断上升使得数据缺失日益严重,而有缺失的概率样本可能会产生有偏的总体估计。文章考虑非概率样本与概率样本的优缺点,提出结合非概率样本与概率样本对总体进行融合推断的方法。假设非概率样本所有变量数据完整,概率样本协变量数据完整而目标变量缺失,首先,对非概率样本建立超总体局部多项式回归模型,预测概率样本缺失的目标变量,得到完整的概率样本数据;然后,结合非概率样本与概率样本,建立倾向得分模型估计各样本单元的倾向得分,并采用倾向得分逆加权和倾向得分加权组调整两种方法进一步进行调整,得到非概率样本的入样概率估计,从而构造非概率样本的权数;最后,对两类样本的权数进一步进行调整,将两类样本融合为一个样本,实现对总体的估计。模拟与实证研究表明,基于超总体模型与倾向得分模型的非概率样本与概率样本融合得到的总体估计在偏差、方差与均方误差上都小于单个样本的总体估计,估计效果较好。 展开更多
关键词 超总体模型 倾向得分模型 非概率样本 概率样本 局部多项式回归模型
下载PDF
高维非概率样本数据的神经网络推断方法研究
10
作者 刘展 李若菡 潘莹丽 《湖北大学学报(自然科学版)》 CAS 2023年第5期684-694,共11页
大数据与网络调查的发展促进了非概率抽样的发展,大多数网络调查样本属于非概率样本,同时可能出现协变量较多,甚至是高维的数据,在这种情况下如何基于非概率样本对总体进行推断,成为当下的一个热点问题.针对该问题,考虑到神经网络的降... 大数据与网络调查的发展促进了非概率抽样的发展,大多数网络调查样本属于非概率样本,同时可能出现协变量较多,甚至是高维的数据,在这种情况下如何基于非概率样本对总体进行推断,成为当下的一个热点问题.针对该问题,考虑到神经网络的降维特点,提出根据非概率样本构建BP神经网络来推断总体的方法.结合非概率样本与参考样本,考虑BP神经网络所具有的正向传播和反向传播相结合的特点,通过训练神经网络调节内部参数,构建BP神经网络模型,估计倾向得分,从而得到总体的估计.模拟与实证分析结果表明基于神经网络的总体估计的偏差、方差、均方误差均小于基于Logistic倾向得分模型的总体估计,提出的方法估计效果较好. 展开更多
关键词 高维数据 非概率样本 BP神经网络 倾向得分
下载PDF
基于大规模数据尾期望回归的分布式计算方法 被引量:1
11
作者 潘莹丽 刘飞 +1 位作者 刘展 赵晓洛 《统计与决策》 CSSCI 北大核心 2022年第12期11-16,共6页
大规模数据是需要新处理模式才能具有更强的洞察力和决策力的海量、高增长率和多样化的信息资产。分析海量数据的工作异常复杂,主要面临两个挑战:数据的难存储性和偏态性。基于此,文章主要研究以下两个问题:(1)将数据进行分布式存储,减... 大规模数据是需要新处理模式才能具有更强的洞察力和决策力的海量、高增长率和多样化的信息资产。分析海量数据的工作异常复杂,主要面临两个挑战:数据的难存储性和偏态性。基于此,文章主要研究以下两个问题:(1)将数据进行分布式存储,减轻单台机器的存储负担,采用尾期望回归分析偏态数据。(2)基于尾期望回归构造全局损失函数的一个交互有效的梯度增强型损失函数,为解决该损失函数的优化问题,提出修正的ADMM算法。模拟研究表明,在有限次主从机器之间交互次数下,提出的分布式计算方法得到的估计误差递减并趋于全局最优方法得到的估计误差。基于全国健康访谈调查(NHIS)数据的实证研究表明,提出的分布式计算方法对国民体重具有良好的预测性能。 展开更多
关键词 大规模数据 尾期望回归 分布式计算 修正的ADMM算法 NHIS
下载PDF
基于SCAD惩罚回归的异常值检测方法 被引量:5
12
作者 潘莹丽 刘展 宋广雨 《统计与决策》 CSSCI 北大核心 2022年第4期38-42,共5页
异常值检测方法研究是当今数据分析领域的一个热门问题。传统的基于模型的异常值检测方法,往往是先对模型中的参数进行估计,再检测异常值,但是异常值的存在会影响参数估计值,从而使得异常值检测结果不可靠。文章基于线性回归模型,引入... 异常值检测方法研究是当今数据分析领域的一个热门问题。传统的基于模型的异常值检测方法,往往是先对模型中的参数进行估计,再检测异常值,但是异常值的存在会影响参数估计值,从而使得异常值检测结果不可靠。文章基于线性回归模型,引入异常值识别变量,提出线性均值漂移模型。在进行低维数据异常值检测时,对漂移项施加SCAD惩罚,利用坐标下降算法同时进行参数估计和异常值检测;在进行高维数据异常值检测时,对模型参数和异常值识别变量分别施加SCAD惩罚,利用坐标下降算法同时进行参数估计、变量选择和异常值检测。基于线性均值漂移模型,采用SCAD惩罚回归的思想设计坐标下降算法,消除了低维和高维数据中异常值的存在对参数估计带来的不利影响。 展开更多
关键词 异常值检测 线性均值漂移模型 SCAD惩罚 坐标下降算法
下载PDF
基于缺失数据的Logistic模型的分布式优化方法 被引量:4
13
作者 潘莹丽 刘展 蔡雯 《统计与决策》 CSSCI 北大核心 2020年第22期23-26,共4页
随着互联网、物联网和云计算的高速发展,数据呈现"爆炸式"增长趋势,然而,各类信息的大量流通使我们无法获得完整的数据。如何快速、高效地处理缺失数据是我们面临的一大挑战。在大数据背景下,文章将数据分别存储在不同的子机... 随着互联网、物联网和云计算的高速发展,数据呈现"爆炸式"增长趋势,然而,各类信息的大量流通使我们无法获得完整的数据。如何快速、高效地处理缺失数据是我们面临的一大挑战。在大数据背景下,文章将数据分别存储在不同的子机器中,结合分布式优化方法,对协变量随机缺失的指示变量建立Logistic模型,并基于该模型提出一个替代似然函数来进行参数估计。模拟和实证研究结果表明,所提出的基于替代似然函数的分布式优化方法优于基于平均思想的OneShot方法。 展开更多
关键词 大数据 随机缺失 LOGISTIC模型 替代似然函数 分布式优化
下载PDF
带有缺失协变量的分位数回归模型的参数估计 被引量:1
14
作者 潘莹丽 刘展 宋广雨 《统计与决策》 CSSCI 北大核心 2021年第11期21-25,共5页
数据挖掘的常用方法是回归分析,传统的回归分析仅可由自变量估计因变量的条件期望,分位数回归可由自变量估计因变量的条件分位数。在实际应用中,常会因为某些原因导致数据缺失,这些数据不可盲目删除或丢弃,否则会造成有偏的估计。在分... 数据挖掘的常用方法是回归分析,传统的回归分析仅可由自变量估计因变量的条件期望,分位数回归可由自变量估计因变量的条件分位数。在实际应用中,常会因为某些原因导致数据缺失,这些数据不可盲目删除或丢弃,否则会造成有偏的估计。在分位数回归模型下,文章以缺失数据为研究对象,主要解决两个方面的问题:一是利用逆概率加权的方法设计权重,通过构造加权的估计函数调整协变量随机缺失对参数估计造成的影响;二是设计Proximal-ADMM算法对模型参数进行估计。模拟与实证研究表明:采用Proximal-ADMM算法对带有缺失数据的分位数回归模型进行参数优化,所得估计量是无偏的。 展开更多
关键词 分位数回归 随机缺失 逆概率加权
下载PDF
非概率样本模型辅助校准估计方法
15
作者 潘莹丽 刘展 《统计与决策》 CSSCI 北大核心 2021年第22期5-10,共6页
大数据时代,如何高效地从高维数据中挖掘有效信息并进行统计推断逐渐成为人们关注的热点问题。文章基于高维数据研究如何充分利用已知辅助信息对非概率样本进行校准,主要包括两个方面的内容:一是在总体规模已知的情况下,对非概率样本进... 大数据时代,如何高效地从高维数据中挖掘有效信息并进行统计推断逐渐成为人们关注的热点问题。文章基于高维数据研究如何充分利用已知辅助信息对非概率样本进行校准,主要包括两个方面的内容:一是在总体规模已知的情况下,对非概率样本进行模型辅助SCAD校准和模型辅助ALASSO校准,依次求出校准权重并对总体均值进行统计推断。二是在总体规模未知的情况下,对非概率样本进行估计控制模型辅助SCAD校准和估计控制模型辅助ALASSO校准,依次求出校准权重并对总体均值进行统计推断。 展开更多
关键词 非概率样本 模型辅助校准 估计控制模型辅助校准 SCAD ALASSO
下载PDF
大数据背景下网络调查样本的建模推断问题研究——以广义Boosted模型的倾向得分推断为例 被引量:10
16
作者 刘展 潘莹丽 《统计研究》 CSSCI 北大核心 2019年第9期93-103,共11页
随着大数据和网络的不断发展,网络调查越来越广泛,大部分网络调查样本属于非概率样本,难以采用传统的抽样推断理论进行推断,如何解决网络调查样本的推断问题是大数据背景下网络调查发展的迫切需求。本文首次从建模的角度提出了解决该问... 随着大数据和网络的不断发展,网络调查越来越广泛,大部分网络调查样本属于非概率样本,难以采用传统的抽样推断理论进行推断,如何解决网络调查样本的推断问题是大数据背景下网络调查发展的迫切需求。本文首次从建模的角度提出了解决该问题的基本思路:一是入样概率的建模推断,可以考虑构建基于机器学习与变量选择的倾向得分模型来估计入样概率推断总体;二是目标变量的建模推断,可以考虑直接对目标变量建立参数、非参数或半参数超总体模型进行估计;三是入样概率与目标变量的双重建模推断,可以考虑进行倾向得分模型与超总体模型的加权估计与混合推断。最后,以基于广义Boosted模型的入样概率建模推断为例演示了具体解决方法。 展开更多
关键词 大数据 网络调查样本 入样概率 目标变量 建模推断
下载PDF
基于倾向得分的伪权数构造与混合样本推断 被引量:4
17
作者 刘展 潘莹丽 +1 位作者 涂朝凤 张梦 《统计与决策》 CSSCI 北大核心 2021年第2期20-24,共5页
随着网络调查与大数据的发展,非概率样本受到越来越多的关注和重视,然而非概率样本存在入样概率和权数未知的问题,为了充分利用信息,如何将非概率样本和概率样本结合,利用混合样本推断总体成为一个热点问题。基于此,文章提出将概率样本... 随着网络调查与大数据的发展,非概率样本受到越来越多的关注和重视,然而非概率样本存在入样概率和权数未知的问题,为了充分利用信息,如何将非概率样本和概率样本结合,利用混合样本推断总体成为一个热点问题。基于此,文章提出将概率样本与非概率样本混合,从同时计算权数和分别计算权数两条思路出发,结合倾向得分来构造非概率样本的伪权数,并利用混合样本来推断总体。模拟与实证研究表明:提出的两种混合样本推断方法所得的总体均值估计的绝对偏差、方差与均方误差都比仅基于概率样本的总体均值估计小,并且相对于分别计算权数估计总体均值的方法,同时计算权数估计总体均值的方法效果更好。 展开更多
关键词 倾向得分匹配法 伪权数 混合样本 概率样本 非概率样本
下载PDF
基于超总体伪设计与组合样本的候选者数据库网络调查的推断研究 被引量:4
18
作者 刘展 潘莹丽 《应用概率统计》 CSCD 北大核心 2019年第3期221-232,共12页
候选者数据库网络调查的推断问题是网络调查发展中迫切需要解决的问题.基于此,提出基于超总体伪设计与组合样本的非概率抽样推断方法:对网络候选者数据库的调查样本建立超总体模型来构造伪权数,并根据网络候选者数据库的调查样本和概率... 候选者数据库网络调查的推断问题是网络调查发展中迫切需要解决的问题.基于此,提出基于超总体伪设计与组合样本的非概率抽样推断方法:对网络候选者数据库的调查样本建立超总体模型来构造伪权数,并根据网络候选者数据库的调查样本和概率样本的组合样本计算总体均值的估计,最后根据超总体模型的方差估计理论推导出目标总体均值估计的方差估计式,同时采用Bootstrap与Jackknife方法来估计总体均值估计的方差,并比较不同方差估计方法的效果.研究结果表明:基于超总体伪设计与组合样本的总体均值估计效率高于仅使用概率样本的估计和仅使用网络候选者数据库的调查样本加权的估计,估计效果较好;方差估计方面,采用VM1、VM2与VM3方法计算的方差估计相比而言更好. 展开更多
关键词 超总体 伪设计 组合样本 网络候选者数据库 非概率抽样
下载PDF
大数据背景下网络调查样本的随机森林倾向得分模型推断研究 被引量:2
19
作者 刘展 潘莹丽 金美玲 《统计研究》 CSSCI 北大核心 2021年第11期130-140,共11页
随着大数据与互联网技术的迅猛发展,网络调查的应用越来越广泛。本文提出网络调查样本的随机森林倾向得分模型推断方法,通过构建若干棵分类决策树组成随机森林,对网络调查样本单元的倾向得分进行估计,从而实现对总体的推断。模拟分析和... 随着大数据与互联网技术的迅猛发展,网络调查的应用越来越广泛。本文提出网络调查样本的随机森林倾向得分模型推断方法,通过构建若干棵分类决策树组成随机森林,对网络调查样本单元的倾向得分进行估计,从而实现对总体的推断。模拟分析和实证研究结果表明:基于随机森林倾向得分模型的总体均值估计的相对偏差、方差与均方误差均比基于Logistic倾向得分模型的总体均值估计的相对偏差、方差与均方误差小,提出的方法估计效果更好。 展开更多
关键词 大数据 网络调查样本 随机森林 倾向得分模型
下载PDF
基于Adaptive LASSO Logistic倾向得分模型的网络调查样本推断方法 被引量:1
20
作者 刘展 潘莹丽 石寒 《统计与决策》 CSSCI 北大核心 2022年第6期15-20,共6页
网络调查是大数据背景下一种重要的抽样调查方法,然而大多数网络调查样本属于非概率样本,其入样概率未知,需要进行建模估计。之前的研究大多通过构建Logistic倾向得分模型计算入样概率,但是Logistic倾向得分模型通常适用于协变量或混杂... 网络调查是大数据背景下一种重要的抽样调查方法,然而大多数网络调查样本属于非概率样本,其入样概率未知,需要进行建模估计。之前的研究大多通过构建Logistic倾向得分模型计算入样概率,但是Logistic倾向得分模型通常适用于协变量或混杂变量较少的情况,存在较多协变量或混杂变量时如何进行倾向得分建模推断是一个亟待解决的问题。针对此问题,文章充分考虑经典的变量选择方法Adaptive LASSO的降维特点,提出对网络调查样本建立Adaptive LASSO Logistic倾向得分模型估计倾向得分,进一步利用倾向得分逆加权、未加权与加权均值、未加权与加权中位数的分组调整方法,从而估计总体。研究表明:基于Adaptive LASSO Logistic倾向得分模型的总体均值估计的偏差、方差与均方误差都比基于Logistic倾向得分模型的总体均值估计的偏差、方差与均方误差小。 展开更多
关键词 Adaptive LASSO 倾向得分 网络调查样本 加权调整
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部