期刊文献+

完全随机缺失条件下分类随机变量数据缺失插补方法的比较研究 被引量:6

下载PDF
导出
摘要 目的探讨完全随机缺失条件下分类随机变量数据缺失对研究结果的影响,对各方法插补效果进行评价。方法基于上海地区35岁及以上吸烟人群吸烟与肺癌死亡关系的完整数据集,在5%、10%、20%及30%缺失率下,模拟有序分类变量(吸烟年数分组syfz)缺失和二分类变量(性别sex)缺失,重复模拟100次。采用删除法、众数插补法、多重插补-logistic回归法(MI/logistic)及多重插补-判别分析法(ML/discrim)对分类变量数据缺失进行处理。对插补效果从插补正确率及插补后模型参数的变化两个方面进行评价。结果有序分类变量缺失:各缺失率下,MI/logistic插补的正确率最高,MI/logistic和MI/discrim插补后模型参数的偏差均较小,对于吸烟年数sy以分组形式syfz纳入模型数据缺失导致模型参数的相对偏差更小,对syfz插补后模型参数相对偏差也小于连续变量sy插补后模型参数相对偏差。二分类变量缺失:各缺失率下,众数插补的正确率最高,删除法处理缺失数据后模型参数的偏差最小。结论连续变量缺失对模型结果的影响大于分类变量缺失,对于有数据缺失的连续变量可将其离散化,以分类变量的形式进行分析。缺失数据插补模型的拟合效果会直接影响插补效果,当模型拟合效果较差时可能会带来更大的偏差。
出处 《中国卫生统计》 CSCD 北大核心 2015年第5期903-905,907,共4页 Chinese Journal of Health Statistics
  • 相关文献

参考文献12

二级参考文献59

共引文献72

同被引文献81

引证文献6

二级引证文献16

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部