-
题名自适应性FDR控制程序原理及组学数据应用
- 1
-
-
作者
王子兴
薛芳
姜晶梅
-
机构
中国医学科学院基础医学研究所/北京协和医学院基础学院统计学教研室
-
出处
《中国卫生统计》
CSCD
北大核心
2023年第1期68-73,共6页
-
基金
中国医学科学院医学与健康科技创新工程(2017-I2M-1-009)
中央高校基本科研业务费专项资金(3332021038)。
-
文摘
目的高维组学数据分析常伴随多重检验问题,不当处理可造成检验效能低下或阳性发现错误率(FDR)升高。FDR已发展为一类新的控制标准,衍生出一系列理论和方法。方法本研究首先对一类自适应性FDR控制方法原理及条件进行介绍,其基于Benjamini-Hochberg程序,由数据自适应性地估计真实原假设数(m 0)进而对FDR实现控制;具体方法包括迭代式、分位数(中位数、定值)、多阶段、阈值函数调整、m 0外插等。进一步,将上述方法用于肺癌患者CT图像特征和COVID-19患者血清蛋白表达两个实例分析。结果相对两项分析中的控制前结果,各自适应性FDR控制方法均降低了阳性发现数,并相比Bonferroni校正结果很大程度保留了阳性比例。然而蛋白表达实例提示,该类程序无法从根本上解决结果不稳定性问题。通过数据拆分验证,适当降低拟控制水平并以各方法的结果进行综合评估,可使筛选结果稳定性得到一定程度提升。结论由于自适应性FDR控制程序基于样本估计m 0且需满足特定结构假设,高维小样本组学数据的结构复杂性可对其分析效果产生影响,故建议进行方法间的联合应用和综合评价。在阳性发现比例较大时,经典的线性递增程序不失为一种简易、稳健且有效的FDR控制方法。
-
关键词
阳性发现错误率
多重检验
组学数据
自适应性控制程序
-
Keywords
False discovery rate
Multiplicity
Omics data
Adaptive control procedure
-
分类号
R195.1
[医药卫生—卫生统计学]
-