期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
Cox模型中基于Model-X Knockoffs的高维控制变量选择方法
1
作者 黄河 潘莹丽 《统计与决策》 CSSCI 北大核心 2023年第5期16-21,共6页
在生物医学、临床试验和流行病学等领域的研究中,由于获得生存数据的试验设计、观测时间的局限,以及观测对象在进入或退出试验时的个体差异等方面的原因,与所关注事件的发生时间相关的数据经常存在右删失。基于右删失生存数据解析协变... 在生物医学、临床试验和流行病学等领域的研究中,由于获得生存数据的试验设计、观测时间的局限,以及观测对象在进入或退出试验时的个体差异等方面的原因,与所关注事件的发生时间相关的数据经常存在右删失。基于右删失生存数据解析协变量和生存时间的关系时,应用最为广泛的统计模型是Cox模型。随着科学技术的进步,数据收集变得越来越容易,导致数据库规模越来越大、复杂性越来越高,数据的维度通常可以达到成百上千维,甚至更高。文章提出一种Cox模型中基于Model-X Knockoffs的高维控制变量选择方法。首先基于Knockoffs框架建立一个Knockoffs变量,并基于原始协变量和其相应的Knockoffs变量构造一个正则化的目标函数,然后通过求解目标函数的最优解构造一个统计量和基于数据的阈值,最后进行变量选择。模拟分析和实证研究结果表明:所提方法可以在变量选择的同时提供可靠的FDR控制,优于传统的LASSO方法。 展开更多
关键词 COX模型 Model-X knockoffs FDR控制 变量选择
下载PDF
基于Model-X Knockoffs的非概率样本倾向得分模型推断方法
2
作者 刘展 郑俊博 +1 位作者 刘洋 潘莹丽 《统计与决策》 CSSCI 北大核心 2023年第4期10-15,共6页
大数据下的样本大多为非概率样本,其入样概率未知,同时可能面临着协变量较多甚至是高维的情况,那么如何对这种情况下的非概率样本进行推断值得探索。针对该问题,文章考虑到Model-X Knockoffs的降维特点,提出采用Model-X Knockoffs筛选... 大数据下的样本大多为非概率样本,其入样概率未知,同时可能面临着协变量较多甚至是高维的情况,那么如何对这种情况下的非概率样本进行推断值得探索。针对该问题,文章考虑到Model-X Knockoffs的降维特点,提出采用Model-X Knockoffs筛选出重要变量,建立Logistic倾向得分模型来估计非概率样本的入样概率或倾向得分,对总体进行推断,从而提高估计的精度,同时可控制变量选择的错误发现率与功效。模拟与实证研究结果表明:基于Model-X Knockoffs的Logistic倾向得分模型的总体均值估计相比一般的Logistic倾向得分模型和广义线性回归模型的总体均值估计,偏差更小、效率更高、估计效果更好,并且能很好地控制错误发现率的水平,功效值也接近1。 展开更多
关键词 非概率样本 Model-X knockoffs LASSO 倾向得分
下载PDF
Knockoff方法研究进展综述
3
作者 袁攀旭 李高荣 《应用概率统计》 CSCD 北大核心 2024年第3期463-497,共35页
随着现代科学技术的快速发展,大数据时代正向我们走来.此时,统计方法的可重复性对于提高科学研究的严谨性至关重要.Barber和Candès[48]提出的knockoff方法是一种可结合任意特征重要性得分的变量选择算法,在发现真实效应的同时严格... 随着现代科学技术的快速发展,大数据时代正向我们走来.此时,统计方法的可重复性对于提高科学研究的严谨性至关重要.Barber和Candès[48]提出的knockoff方法是一种可结合任意特征重要性得分的变量选择算法,在发现真实效应的同时严格控制错误发现率(false discovery rate,FDR),其核心想法是构造称为knockoff的合成变量来模仿原始变量之间的相关结构.该方法无需计算p-值而在近年来受到广泛关注,成为当今统计和机器学习最热点的研究领域.本文主要介绍knockoff方法的最新研究进展,并简要探讨未来可能的研究方向. 展开更多
关键词 knockoff方法 多重假设检验 错误发现率 高维数据 稀疏性 变量选择 可重复性
下载PDF
具有错误发现率控制的网络连接数据变量选择
4
作者 卢滢 李阳 《计算机系统应用》 2024年第5期28-36,共9页
网络连接数据的统计推断问题已成为近年来统计学研究的热点问题.传统模型中样本数据间的独立性假设通常不能满足现代网络连接数据的分析需求.本文研究了网络连接数据中每个节点的独立效应,并借助融合惩罚的思想,使得相互连接节点的独立... 网络连接数据的统计推断问题已成为近年来统计学研究的热点问题.传统模型中样本数据间的独立性假设通常不能满足现代网络连接数据的分析需求.本文研究了网络连接数据中每个节点的独立效应,并借助融合惩罚的思想,使得相互连接节点的独立效应趋同.同时借助仿变量方法 (Knockoff)仿冒原始变量的数据依赖结构、构造与目标变量无关的属性特征,提出了针对网络连接数据进行变量选择的仿变量方法 (NLKF).从理论上证明了NLKF方法将变量选择的错误发现率(FDR)控制在目标水平.对于原始数据协方差未知的情形,使用估计的协方差矩阵仍具有上述良好的统计性质.通过与传统变量选择方法 Lasso对比,说明了本文方法的可靠性.最后结合因子投资领域2022年1–12月中国A股市场4 000只股票的200个因子数据及每只股票所属申万一级行业构造的网络关系,给出模型的应用实例. 展开更多
关键词 网络连接数据 变量选择 Knockoff方法 错误发现率
下载PDF
基于Knockoff的分位数回归变量选择方法及其投资组合决策应用
5
作者 王小燕 张中艳 《统计研究》 CSSCI 北大核心 2023年第4期124-137,共14页
在数据驱动时代,变量选择广泛应用于投资组合,如何从众多资产中挑选恰当的资产并进行配比,对稳定收益、控制风险非常关键。现有选择资产的方法未考虑到控制错误发现率(FDR),不利于作出稳健的投资决策。为此,本文在Lasso分位数回归下基于... 在数据驱动时代,变量选择广泛应用于投资组合,如何从众多资产中挑选恰当的资产并进行配比,对稳定收益、控制风险非常关键。现有选择资产的方法未考虑到控制错误发现率(FDR),不利于作出稳健的投资决策。为此,本文在Lasso分位数回归下基于Knockoff方法控制FDR,并用于求解条件风险价值(CVaR)投资组合决策模型。其中,用Lasso惩罚实现变量选择,用Knockoff方法通过模仿解释变量的相关结构构造Knockoff变量,将变量选择的FDR控制在给定水平。模型在两步迭代算法下采用线性规划求解,模拟分析从不同的误差分布、变量分布和维度下多角度展开。结果显示,与已有模型相比,基于Knockoff的Lasso分位数回归模型能良好地控制FDR且呈现出最好的预测效果。最后基于上证50指数成分股进行实证分析,利用滚动建模技术进行投资组合决策分析,发现新模型在收益指标和风险指标上均具有一定优势。 展开更多
关键词 分位数回归 Knockoff Lasso惩罚 投资组合 CVAR
下载PDF
超高维生存数据中基于相关性秩排序的变量筛选法和FDR控制 被引量:1
6
作者 潘莹丽 赵晓洛 +1 位作者 张淑莹 刘展 《统计与决策》 CSSCI 北大核心 2023年第19期47-52,共6页
由于超高维生存数据存在删失,因此处理超高维完全数据的变量筛选法大多不再适用。大多数变量筛选法虽能以较大的概率保留所有重要变量,即具有确定筛选性,但却未能很好地控制错误发现率(FDR),所以寻找一种可以平衡模型的可解释性和稳定... 由于超高维生存数据存在删失,因此处理超高维完全数据的变量筛选法大多不再适用。大多数变量筛选法虽能以较大的概率保留所有重要变量,即具有确定筛选性,但却未能很好地控制错误发现率(FDR),所以寻找一种可以平衡模型的可解释性和稳定性的降维方法显得尤为重要。文章探讨了超高维生存数据中基于相关性秩排序且不依赖于模型的变量筛选法和FDR控制,提出了一种使用Knockoff协变量指定变量筛选阈值的两步过程,可以将FDR控制在预先指定的水平α下。数值模拟和实证分析的结果表明,在FDR水平α大于或等于1 s(s是重要变量数量)的情况下,提出的两步CR-Knockoff过程同时具有确定筛选和FDR控制的性能。 展开更多
关键词 相关性秩 无模型筛选 Fixed-X Knockoff过滤器 超高维生存数据 CR-Knockoff
下载PDF
Null-free False Discovery Rate Control Using Decoy Permutations 被引量:1
7
作者 Kun He Mengjie Li +2 位作者 Yan Fu Fuzhou Gong Xiaoming Sun 《Acta Mathematicae Applicatae Sinica》 SCIE CSCD 2022年第2期235-253,共19页
The traditional approaches to false discovery rate(FDR)control in multiple hypothesis testing are usually based on the null distribution of a test statistic.However,all types of null distributions,including the theore... The traditional approaches to false discovery rate(FDR)control in multiple hypothesis testing are usually based on the null distribution of a test statistic.However,all types of null distributions,including the theoretical,permutation-based and empirical ones,have some inherent drawbacks.For example,the theoretical null might fail because of improper assumptions on the sample distribution.Here,we propose a null distributionfree approach to FDR control for multiple hypothesis testing in the case-control study.This approach,named target-decoy procedure,simply builds on the ordering of tests by some statistic or score,the null distribution of which is not required to be known.Competitive decoy tests are constructed from permutations of original samples and are used to estimate the false target discoveries.We prove that this approach controls the FDR when the score function is symmetric and the scores are independent between different tests.Simulation demonstrates that it is more stable and powerful than two popular traditional approaches,even in the existence of dependency.Evaluation is also made on two real datasets,including an arabidopsis genomics dataset and a COVID-19 proteomics dataset. 展开更多
关键词 multiple testing false discovery rate null distribution-free p-value-free decoy permutations knockoff filter
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部