完全随机缺失条件下分类随机变量数据缺失插补方法的比较研究被引量：6

下载PDF

导出

摘要目的探讨完全随机缺失条件下分类随机变量数据缺失对研究结果的影响,对各方法插补效果进行评价。方法基于上海地区35岁及以上吸烟人群吸烟与肺癌死亡关系的完整数据集,在5%、10%、20%及30%缺失率下,模拟有序分类变量(吸烟年数分组syfz)缺失和二分类变量(性别sex)缺失,重复模拟100次。采用删除法、众数插补法、多重插补-logistic回归法(MI/logistic)及多重插补-判别分析法(ML/discrim)对分类变量数据缺失进行处理。对插补效果从插补正确率及插补后模型参数的变化两个方面进行评价。结果有序分类变量缺失:各缺失率下,MI/logistic插补的正确率最高,MI/logistic和MI/discrim插补后模型参数的偏差均较小,对于吸烟年数sy以分组形式syfz纳入模型数据缺失导致模型参数的相对偏差更小,对syfz插补后模型参数相对偏差也小于连续变量sy插补后模型参数相对偏差。二分类变量缺失:各缺失率下,众数插补的正确率最高,删除法处理缺失数据后模型参数的偏差最小。结论连续变量缺失对模型结果的影响大于分类变量缺失,对于有数据缺失的连续变量可将其离散化,以分类变量的形式进行分析。缺失数据插补模型的拟合效果会直接影响插补效果,当模型拟合效果较差时可能会带来更大的偏差。

作者张彪韩伟庞海玉薛芳厚磊王子兴王钰嫣姜晶梅

机构地区中国医学科学院基础医学研究所&北京协和医学院基础学院流行病学与卫生统计学系

出处《中国卫生统计》 CSCD 北大核心 2015年第5期903-905,907,共4页 Chinese Journal of Health Statistics

关键词分类变量数据缺失多重插补

分类号 R195 [医药卫生—卫生统计学]

引文网络
相关文献

参考文献12

1Abraham WT,Russell DW. Missing data: a review of current meth- ods and applications in epidemiology research . Current opinion in psychiatry, 2004,17 (4) : 315 -321.
2Streiner DL. The case of the missing Data:Methods of dealing with dropouts and other research vagaries . Research Methods in Psychia- try ,2002,47 ( 1 ) :68-75.
3吴秋红,张裕青,李国平,张丕德.不同模型处理纵向缺失数据的模拟研究及应用[J].中国卫生统计,2013,30(6):855-858. 被引量：8
4曹阳,张罗漫.运用SAS对不完整数据集进行多重填补——SAS 9中的多重填补及其统计分析过程(一)[J].中国卫生统计,2004,21(1):56-58. 被引量：16
5李树威,钟晓妮.基于Markov Chain Monte Carlo模型对医院调查资料中缺失数据的多重估算[J].中国卫生统计,2013,30(6):837-841. 被引量：3
6SAS Institute Inc. SAS/STAT 9. 2 User's Guide, second edition , North Carolina: SAS Institute Inc ,2009.
7赵飞,张志杰,刘建翔,王海银,周艺彪,彭文祥,赵根明,姜庆五.疾病监测资料中缺失值最佳填充次数的研究[J].中国卫生统计,2009,26(5):455-458. 被引量：2
8帅平,李晓松,周晓华,刘玉萍.缺失数据统计处理方法的研究进展[J].中国卫生统计,2013,30(1):135-139. 被引量：40
9兰妥,江弋,刘光生.基于Sas的时间序列缺失值处理方法比较[J].计算机技术与发展,2008,18(10):43-45. 被引量：11
10张桥,李宁,张秋菊,刘美娜.任意缺失模式缺失数据不同填补方法效果比较[J].中国卫生统计,2013,30(5):690-692. 被引量：7

二级参考文献59

1庄严,邢艳春,马文卿.含有缺失机制的多元纵向数据分析[J].中国卫生统计,2008,25(5):489-493. 被引量：5
2廖海江,金水高,郭静,罗菊花.九省居民体质指数变化影响因素分析——重复测量纵向数据的多水平模型应用研究[J].数理医药学杂志,2004,17(4):292-293. 被引量：3
3刘鹏,雷蕾,张雪凤.缺失数据处理方法的比较研究[J].计算机科学,2004,31(10):155-156. 被引量：24
4夏彦,潘晓平,刘元元,陈卫中.广义估计方程在临床试验重复测量资料中的应用[J].现代预防医学,2005,32(5):444-445. 被引量：22
5陈启光.纵向研究中重复测量资料的广义估计方程分析[J].中国卫生统计,1995,12(1):22-25. 被引量：19
6冯志兰,刘桂芬,刘力生,郝建生.缺失数据的多重估算[J].中国卫生统计,2005,22(5):274-277. 被引量：7
7周艺彪,姜庆五,赵根明.调查研究中数据缺失的机制及处理方法[J].中国卫生统计,2005,22(5):318-321. 被引量：11
8岳勇,田考聪.数据缺失及其填补方法综述[J].预防医学情报杂志,2005,21(6):683-685. 被引量：29
9赵根明,王立英,赵琦,陈贤义,肖东楼,何纳,韦建国,姜庆五.2000～2004年全国血吸虫病监测点疫情分析[J].中国寄生虫学与寄生虫病杂志,2006,24(1):4-9. 被引量：30
10赵振,潘晓平,张俊辉.广义估计方程在纵向资料中的应用[J].现代预防医学,2006,33(5):707-708. 被引量：27

共引文献72

1黄瑶,胡芳,陈健超.中医药项目拉普拉斯特征映射综合评估[J].社区医学杂志,2020,0(5):375-380.
2刘世炜,王春平,杨功焕.调查研究中项目无应答误差的识别与处理[J].中国卫生统计,2008,25(2):183-186. 被引量：3
3魏海建,陈景武,张合礼,时峰.医院卫生统计调查表数据源数据缺失的填补预测[J].中国卫生统计,2009,26(5):519-521. 被引量：2
4郭超,陆新建.工业过程数据中缺失值处理方法的研究[J].计算机工程与设计,2010,31(6):1351-1354. 被引量：13
5魏海建,时峰,魏健.基于Markov Chain Monte Carlo模型对医院出院病人调查表数据缺失的填补与分析[J].数理统计与管理,2010,29(5):931-936. 被引量：2
6聂庆华,杨利华.缺失或不完备数据的填补方法分析[J].科技创新与应用,2012,2(9):46-46.
7花琳琳,施念,杨永利,赵天仪,施学忠.不同缺失值处理方法对随机缺失数据处理效果的比较[J].郑州大学学报（医学版）,2012,47(3):315-318. 被引量：22
8张姝,张强.决策树模型在气管插管困难预测中的应用[J].中国卫生统计,2012,29(4):493-496. 被引量：6
9漆波,张鹤,李国智,张建强,王强,彭翔飞,冯友,李莎,刘清芳.慢性阻塞性肺疾病急性加重患者住院死亡影响因素研究[J].中国呼吸与危重监护杂志,2013,12(1):24-28. 被引量：26
10李海涛,宋琳琳.政府门户网站公众满意度调查问卷缺失数据的处理研究[J].情报学报,2013,32(6):575-583. 被引量：2

同被引文献81

1陈荣荣,詹国华,李志华.基于XGBoost算法模型的信用卡交易欺诈预测研究[J].计算机应用研究,2020,37(S01):111-112. 被引量：14
2Sun, Dongxia, Li, Jianping, Wei, Liwei.Credit risk evaluation using adaptive Lq penalty SVM with Gauss kernel[J].Journal of Southeast University(English Edition),2008,24(S1):33-36. 被引量：1
3刘永珍,张雪峰,程玉梅,李向红,任进.随机、对照、重复和均衡原则在安评试验中的重要性[J].毒理学杂志,2007,21(4):312-312. 被引量：5
4吴泰相,李幼平,卞兆祥,李廷谦,李静,Simon Dagenais,David Moher,无.中医药临床随机对照试验报告规范(征求意见稿)[J].中国循证医学杂志,2007,7(8):601-605. 被引量：124
5刘建平.传统医学证据体的构成及证据分级的建议[J].中国中西医结合杂志,2007,27(12):1061-1065. 被引量：193
6青雪梅,房繄恭,刘保延,王永炎.实用性随机对照试验及其方法学特征思考[J].北京中医药大学学报,2008,31(1):14-18. 被引量：41
7于河,李赞华,刘建平.观察性研究在中医临床研究中的应用(2)——病例对照研究设计与报告[J].中医杂志,2008,49(7):598-601. 被引量：18
8胡运涛,曹袁媛,章诗琪,史济洲,李素文,王静.生存质量资料中缺失值的内在机制及处理措施[J].中国卫生统计,2008,25(6):661-664. 被引量：4
9胡竹菁.平均数差异显著性检验统计检验力和效果大小的估计原理与方法[J].心理学探新,2010,30(1):68-73. 被引量：49
10David Moher,Sally Hopewell,Kenneth F Schulz,Victor Montori,Peter C Gφtzsche,P J Devereaux,Diana Elbourne,Matthias Egger,Douglas G Altman,周庆辉,卞兆祥,刘建平.CONSORT 2010说明与详述:报告平行对照随机临床试验指南的更新[J].中西医结合学报,2010,8(8):701-741. 被引量：343

引证文献6

1周静,周正松,高旸,许欢,裴姣,张韬.神经网络模型应用于数据缺失机制识别的可行性分析[J].现代预防医学,2017,44(21):3856-3858. 被引量：3
2杨日东,李琳,陈秋源,周毅.LKNNI:一种局部K近邻插补算法[J].中国卫生统计,2019,36(5):780-783. 被引量：5
3闫世艳,郭中宁,何丽云,刘保延.临床研究缺失数据多重填补敏感性分析方法[J].世界科学技术-中医药现代化,2020,22(3):823-828. 被引量：5
4樊东醒,叶春明.一种面向高维缺失不平衡数据的信用评估方法[J].计算机应用研究,2021,38(9):2667-2672. 被引量：2
5鲁路,倪世豪,黄育生,龙文杰,唐雅琴,王陵军,杨忠奇.探讨中药人用经验的临床数据类型和统计分析方法[J].中国中药杂志,2022,47(13):3681-3685.
6吴帆,晏浩.随机对照试验受限下社会工作干预策略选择——以一个增进儿童积极行为发展的项目为例[J].中国社会科学评价,2023(2):141-156. 被引量：1

二级引证文献16

1梁远胜,关宏建.两参数Gamma分布模型下缺失数据的参数估计[J].湖北理工学院学报,2018,34(2):56-60. 被引量：1
2岳廷妍,邱建青,裴姣,张韬.数据缺失机制识别联合模型及评价[J].统计与决策,2019,0(16):71-74. 被引量：4
3岳廷妍,张昱勤,李晓松,马越,张韬.数据缺失机制识别及处理的标准化流程及集成系统[J].现代预防医学,2019,46(21):3928-3932. 被引量：1
4邓钰芳.基于不完整乳腺癌数据的模型预测研究[J].现代信息科技,2021,5(7):50-53.
5樊东醒,叶春明.一种面向高维缺失不平衡数据的信用评估方法[J].计算机应用研究,2021,38(9):2667-2672. 被引量：2
6焦志刚,凡如,许碧云,陈思臻,臧一腾,王诗远,陈炳为.临床纵向数据缺失的多重填补及其敏感性分析[J].中国临床药理学与治疗学,2021,26(9):1037-1041. 被引量：4
7陈舒扬,王波.MN-LKNNI:融合互近邻降噪的局部动态K近邻插补算法[J].软件导刊,2021,20(11):95-99. 被引量：1
8华南,马春萍,朱彦霞,刘惠萍,曹彦,王飞,张利鹏.一种基于MissFroest的并行插补算法[J].河南科技,2022,41(3):18-21. 被引量：1
9赵天易,雒琳,何丽云,吕晓颖,宫嫚,李筠,李少红,李洪皎,刘佳,刘保延,艾艳珂.多源异构数据整合在中医药真实世界临床研究中的应用及展望[J].世界中医药,2022,17(5):614-619. 被引量：4
10朱荣慧,许金芳,王睿,吴骋.多重填补技术在医学研究缺失值处理中的应用及发展[J].中国卫生统计,2022,39(2):293-295. 被引量：5

1张彪,韩伟,庞海玉,薛芳,厚磊,王子兴,王钰嫣,姜晶梅.完全随机缺失条件下连续型随机变量数据缺失插补方法的比较研究[J].中国卫生统计,2015,32(4):605-608. 被引量：5
2陈耀文,赖效莹,罗舜庭.利用SAS软件的DISCRIM过程对医学数据进行判别分析[J].汕头大学医学院学报,1996,9(1):96-97.
3沈琳,陈千红,谭红专.缺失数据的识别与处理[J].中南大学学报（医学版）,2013,38(12):1289-1294. 被引量：11
4朱秀梅,杨位兰.未婚女青年首次性行为影响因素的非条件Logistic回归分析[J].预防医学文献信息,2000,6(3):226-227.
5王曼,施念,花琳琳,杨永利.成组删除法和多重填补法对随机缺失的二分类变量资料处理效果的比较[J].郑州大学学报（医学版）,2012,47(5):642-645. 被引量：5
6王淑玲,刘卫,李军燕,陈明.应用秩和比法对医院医疗质量进行综合评价[J].中国医院统计,1998,5(4):215-216. 被引量：4
7尚磊,孙丽君,万毅,张玉海.生长发育监测指标缺失数据插补方法比较[J].数理医药学杂志,2013,26(5):514-516. 被引量：1
8潘子奇,刘琰,郑薇,张健,张玉梅.神经节苷脂对脑瘫患儿疗效的Meta分析[J].中国儿童保健杂志,2016,24(8):842-845. 被引量：7
9花琳琳,施念,杨永利,赵天仪,施学忠.不同缺失值处理方法对随机缺失数据处理效果的比较[J].郑州大学学报（医学版）,2012,47(3):315-318. 被引量：22
10武瑞仙,邓子兵,谯治蛟,李晓松.利用Monte Carlo技术模拟研究不同缺失值处理方法对完全随机缺失数据的处理效果[J].中国卫生统计,2015,32(3):534-536. 被引量：8

中国卫生统计

2015年第5期

浏览历史

内容加载中请稍等...

完全随机缺失条件下分类随机变量数据缺失插补方法的比较研究被引量：6

参考文献12

二级参考文献59

共引文献72

同被引文献81

引证文献6

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

完全随机缺失条件下分类随机变量数据缺失插补方法的比较研究 被引量：6

参考文献12

二级参考文献59

共引文献72

同被引文献81

引证文献6

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

完全随机缺失条件下分类随机变量数据缺失插补方法的比较研究被引量：6