基于R软件的缺失数据MICE填补效果研究被引量：6

A Study on Effects of Multivariate Imputation by Chained Equation Based on R Software

下载PDF

导出

摘要目的研究不同缺失率、不同缺失机制下,MICE(multivariate imputation by chained equations)多重填补的效果,探讨该填补方法的适用情况。方法依托某现况调查的完全数据,使用R软件构造不同缺失率、不同缺失机制的缺失数据。计算列表删除和MICE多重填补后分析结果的标准偏倚,并进行比较。单独对分类变量计算多重填补后的平均错分率。结果在单变量缺失率分别为10%、20%和30%的随机缺失三种情况下,MICE多重填补表现优良;其他模拟情况下,MICE多重填补相比于列表删除并未表现出明显的优势。对于分类变量,MICE填补后的平均错分率均超过60%。结论对于随机缺失数据,且单变量缺失率不超过30%时,建议采用MICE多重填补进行处理;但对于资料中的分类变量,不建议直接引用MICE填补后的具体数值。 Objective To evaluate the effects of multivariate imputation by chained equations （MICE） for data with dif- ferent missing mechanisms and various missing proportions,and explore the application situations of this method. Methods A complete dataset from a cross-sectional study was used to simulate missing datasets with different missing mechanisms and vari- ous missing proportions by R software. The standard bias of the incomplete datasets obtained by listwise deletion was compared with that of the imputed datasets obtained by MICE. Additionally, for binomial variable, the average misclassification ratio was calculated. Results MICE performed well for ＂missing at random＂ data with the univariate missing proportion of 10% ,20% and 30%. In other scenarios, MICE failed to show advantage over listwise deletion. For binomial variable, the average misclassi- fication ratios were more than 60%. Conclusion When the data was missing at random and the univariate missing proportion was no more than 30% ,MICE was recommended to use,but the imputed value in binomial variable was not suggested to be re- presented in raw data directly.

作者章涛朱麟季加东袁中尚薛付忠李秀君

机构地区山东大学公共卫生学院流行病与卫生统计学系

出处《中国卫生统计》 CSCD 北大核心 2015年第4期580-584,共5页 Chinese Journal of Health Statistics

基金山东省科技发展计划(No.2014GGH218019)

关键词 MICE 缺失数据模拟研究多重填补 MICE Missing data Simulation Multiple imputation

分类号 R195.1 [医药卫生—卫生统计学]

引文网络
相关文献

参考文献20

1Little RJ, D'Agostino R, Cohen ML, et al ment of Missing Data in Clinical Trials Medicine ,2012,367 ( 14 ) : 1355-1360.
2Enders CK. Applied missing data analysis The Prevention and Treat- New England Journal of Guilford Press ,2010.
3李璐.基于R语言的缺失值填补方法[J].统计与决策,2012,28(17):72-74. 被引量：11
4刘鹏,雷蕾,张雪凤.缺失数据处理方法的比较研究[J].计算机科学,2004,31(10):155-156. 被引量：24
5帅平,李晓松,周晓华,刘玉萍.缺失数据统计处理方法的研究进展[J].中国卫生统计,2013,30(1):135-139. 被引量：39
6徐丽红,刘志永,刘桂芬,罗天娥.纵向监测连续非随机缺失数据变系数模型及其应用[J].中国卫生统计,2012,29(3):314-317. 被引量：3
7季家超,王刚,张潇雅,刘桂芬.数据非随机缺失机制的混合效应模式混合模型分析与应用[J].中国卫生统计,2013,30(2):221-225. 被引量：5
8Lee KJ, Carlin JB. Multiple imputation for missing data: fully condi- tional specification versus multivariate normal imputation. American journal of epidemiology ,2010,171 ( 5 ) :624-632.
9Van Buuren S, Brand JPL, Groothuis-Oudshoorn CGM, et al. Fully conditional specification in multivariate imputation. Journal of Statis- tical Computation and Simulation ,2006,76 ( 12 ) : 1049-1064.
10Van Buuren S, Oudshoom K. Flexible multivariate imputation by MICE. Leiden, The Netherlands : TNO Prevention Center, 1999.

二级参考文献46

1胡红晓,谢佳,韩冰.缺失值处理方法比较研究[J].商场现代化,2007(05X):352-353. 被引量：18
2殷杰,石锐.SAS中处理数据集缺失值方法的对比研究[J].计算机应用,2007,27(B06):438-439. 被引量：8
3[1]Scheffe J. Dealing with missing data[J]. Res Lett Inf Math Sci,2002,3:153-156.
4[3]Schafer JL, Olsen MK. Multiple imputation for multivariate missing-data problems: a data analyst's perspective[J]. Multivariate Behavioral Research,1998,33(4): 545-571.
5[5]Darmawan I GN. NORM software review: handling missing values with multiple imputation methods[J]. Evaluat J Australastia, 2002,2(1): 51-57
6[6]Bernards CA, Farmer MM, Qi K, et al. Comparison of two multiple imputation procedures in a cancer screening survey [J]. J Data Sci, 2003,1(1): 1-20.
7Cios K J,Kurgan L A. Trends in Data Mining and Knowledge Discovery. In: Knowledge discovery in advanced information systems, Pal, N. R. , Jain, L. C. , Teoderesku N. eds. Springer,2002
8H Liu,Motoda H. Feature Extraction, Construction and Selection: A Data Mining Perspective, Kluwer Academic, Boston:MA, 1998
9Troyanskaya O, et al. Missing value estimation methods for DNA, Bioinformatics,2001. 520-525
10Kantardzic M. Data Mining Concepts, Models, Methods and Algorithms, Wiley-IEEE Computer Society Pr, 2003

共引文献95

1黄瑶,胡芳,陈健超.中医药项目拉普拉斯特征映射综合评估[J].社区医学杂志,2020,0(5):375-380.
2王震,张海清,彭莉,汪杰,游凤,李代伟,唐聃.基于奇异值分解的医疗数据信息提取及分类方法[J].成都信息工程大学学报,2020,35(5):537-541. 被引量：1
3肖哲坤,朱洒洒.变系数模型稳健回归和变量选择方法的研究与比选[J].工业技术创新,2021,8(3):130-136. 被引量：1
4雷蕾,吴乃君,刘鹏,刘兰娟.灵敏度分析:分类器中的缺失数据[J].管理学报,2005,2(S2):153-157. 被引量：2
5罗旭,程承旗,李勇,陈晓雪,冯仲科.SPSS在数据缺失值处理中的应用[J].水土保持研究,2007,14(4):426-429.
6王希雷.一种不完备决策表的数据补齐方法[J].天津科技大学学报,2007,22(3):62-64. 被引量：1
7郑晓卫,潘毅群,黄治钟,楼振飞.数据挖掘技术在上海市商用建筑信息数据库中的应用[J].暖通空调,2008,38(4):35-38. 被引量：4
8兰妥,江弋,刘光生.基于Sas的时间序列缺失值处理方法比较[J].计算机技术与发展,2008,18(10):43-45. 被引量：11
9杨永利,付鹏钰,胡东生,张卫东,张梅喜,王重建,平智广.期望最大化法和回归法对亚洲心血管病国际合作研究缺失数据填充效果比较[J].中国卫生统计,2009,26(4):367-369. 被引量：15
10邓银燕,郑宏宇,贺瑞缠.残缺数据型决策中的逆判方法及应用[J].纺织高校基础科学学报,2009,22(3):365-369.

同被引文献43

1刘佳星,张宏烈,刘艳菊,刘彦忠.基于缺失率的不完整数据填补算法[J].统计与决策,2021(2):39-41. 被引量：17
2张显,王锡凡,陈芳华,叶斌,陈皓勇.分时段短期电价预测[J].中国电机工程学报,2005,25(15):1-6. 被引量：60
3乔世明.少数民族地区生态环境法制建设研究[J].思想战线,2006,32(3):99-105. 被引量：18
4杨波,赵遵廉,陈允平,韩启业.日前交易边际电价的预测方法[J].高电压技术,2007,33(7):144-150. 被引量：6
5姚旻.生态文明与西部民族地区经济发展[J].中国流通经济,2009,23(12):63-66. 被引量：5
6徐国东,郭鹏,于明洁.基于DEMATEL知识联盟中知识转移影响因素识别研究[J].科学学与科学技术管理,2011,32(5):60-63. 被引量：17
7李璐.基于R语言的缺失值填补方法[J].统计与决策,2012,28(17):72-74. 被引量：11
8杨志华,严耕.中国当前生态文明建设关键影响因素及建设策略[J].南京林业大学学报（人文社会科学版）,2012,12(4):60-66. 被引量：6
9倪珊,何佳,牛冬杰,包存宽,王娟.生态文明建设中不同行为主体的目标指标体系构建[J].环境污染与防治,2013,35(1):100-105. 被引量：23
10崔强,武春友,匡海波.BP-DEMATEL在空港竞争力影响因素识别中的应用[J].系统工程理论与实践,2013,33(6):1471-1478. 被引量：53

引证文献6

1郑智泉,王孟孟,田维琦.基于加权K近邻算法的缺失数据填补研究[J].智能计算机与应用,2021,11(11):31-33. 被引量：3
2张朋.大数据中用户所需信息资源检测仿真[J].计算机仿真,2017,34(11):422-425. 被引量：1
3姚石,杨红娟.云南少数民族贫困地区生态文明建设的关键因素研究[J].安全与环境学报,2018,18(4):1543-1549. 被引量：1
4杨弘,田晶,王可,张青,韩清华,张岩波.混合型缺失数据填补方法比较与应用[J].中国卫生统计,2020,37(3):395-399. 被引量：12
5王曙,潘庭龙.基于MCMC的缺失数据填补方法在电价数据中的应用[J].计算机与数字工程,2020,48(12):2954-2958.
6郑智泉,陈妍,王孟孟,田维琦.不同缺失率下的数据填补算法稳定性研究[J].统计与决策,2023(8):12-17. 被引量：4

二级引证文献21

1张玮畅,田晶,杨弘,韩清华,张岩波.冠心病合并慢性心力衰竭患者5年全因死亡生存分析与可解释性研究[J].中华疾病控制杂志,2023,27(4):373-378. 被引量：7
2赵云强,韩翼,崔慧茹,郑琳.聚类目标函数下混合属性大数据集分析系统[J].电子设计工程,2020,28(4):73-76. 被引量：3
3熊中敏,郭怀宇,吴月欣.缺失数据处理方法研究综述[J].计算机工程与应用,2021,57(14):27-38. 被引量：42
4王凌云,林跃涵,童华敏,李黄强,张涛.基于改进Apriori关联分析及MFOLSTM算法的短期负荷预测[J].电力系统保护与控制,2021,49(20):74-81. 被引量：22
5华南,马春萍,朱彦霞,刘惠萍,曹彦,王飞,张利鹏.一种基于MissFroest的并行插补算法[J].河南科技,2022,41(3):18-21. 被引量：1
6黄浩东,刘小株,龚军,刘杰,张祖跃,向天雨.基于机器学习算法建立2型糖尿病患者冠心病辅助诊断模型[J].复旦学报（医学版）,2022,49(2):226-233. 被引量：8
7郭昆鹏,祁柏林,刘首正,冯晓宇.融合双向GRU的空气质量数据缺失补充算法[J].小型微型计算机系统,2022,43(7):1345-1349. 被引量：2
8谢维.民族地区旅游产业发展与生态文明建设协调发展研究[J].旅游与摄影,2022(12):109-111.
9张汛,李鹏.工业废水排放总量预测模型研究与仿真[J].计算机仿真,2022,39(7):482-486.
10段在鹏,张灿,谢汉青,王寓霖,李帆.面向“数值-文本”大安全数据的企业风险分析[J].安全与环境学报,2022,22(6):3164-3173.

1Jonathan A C Sterne,Ian R White,John B Carlin,Michael Spratt,Patrick Royston,Michael G Kenward,Angela M Wood,James R Carpenter,张清(译),张孔来(校).流行病学和临床研究中数据缺失的多重填补：机会和陷阱[J].英国医学杂志中文版,2009,12(6):371-375. 被引量：5
2申宁宁,房瑞玲,高宇钊,李少琼,张军锋,刘桂芬.纵向研究缺失数据多重填补及混合效应模型分析[J].中国药物与临床,2015,15(7):901-905. 被引量：6
3赵俊康,王彤,荣惠英,孟繁龙.不同缺失机制并存时偏倚校正的模拟研究[J].中国卫生统计,2014,31(4):570-574. 被引量：2
4鲍晓蕾,高辉,胡良平.多种填补方法在纵向缺失数据中的比较研究[J].中国卫生统计,2016,33(1):45-48. 被引量：17
5魏俊辉.浅谈医院托管[J].卫生经济研究,2005,22(5):32-33. 被引量：20
6税章林,石应康,马洪升,程永忠,马秀清.日间手术定义、范畴在我国适用的探讨[J].中国卫生事业管理,2011,28(S1):63-65. 被引量：63
7张海霞,赵俊康,顾彩姣,崔燕,荣惠英,孟繁龙,王彤.不同缺失机制并存时应答偏倚校正方法在医保学生医疗费用调查中的应用[J].中华流行病学杂志,2015,36(5):526-530. 被引量：1
8花琳琳,施念,杨永利,赵天仪,施学忠.不同缺失值处理方法对随机缺失数据处理效果的比较[J].郑州大学学报（医学版）,2012,47(3):315-318. 被引量：22
9张耀,陈培翠,张翠仙,罗天娥,刘桂芬.二分类数据缺失多重填补分析及应用[J].中国卫生统计,2014,31(3):370-373. 被引量：4
10卫生统计[J].中国妇幼卫生杂志,2007,0(1):60-62.

中国卫生统计

2015年第4期

浏览历史

内容加载中请稍等...

基于R软件的缺失数据MICE填补效果研究被引量：6

参考文献20

二级参考文献46

共引文献95

同被引文献43

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于R软件的缺失数据MICE填补效果研究 被引量：6

参考文献20

二级参考文献46

共引文献95

同被引文献43

引证文献6

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于R软件的缺失数据MICE填补效果研究被引量：6