期刊文献+

基于随机森林模型的分类数据缺失值插补 被引量:27

Missing Data Imputation for Categorical Data Based on Random Forest Model
下载PDF
导出
摘要 缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是处理属性分类问题的常用方法,随机森林模型是众多分类算法中精度较高的方法之一。将随机森林模型引入调查问卷缺失数据的插补研究中,提出了基于随机森林模型的分类数据缺失值插补方法,并根据不同的缺失模式探讨了相应的插补步骤。通过与其它方法的实证模拟比较,表明随机森林插补法得到的插补值准确度更优、可信度更高。 Missing data is a important factor which has bad effect on the data quality of survey questionnaire, missing data imputation can significantly improve the data quality. Categorical data is the main data type of survey data. Classification algorithms of data mining can be often dealt with classification problem, random forest modeling is one of the high predictive accuracy classification models. This paper introduces the random forest model into the missing data imputation research of survey data, and proposes the missing data imputation method for categorical data based on random forest model. Imputation process is also designed according to different pattern of missing data. Empirical simulation shows that the proposed new method can obtain more accuracy and reliable results by comparing with other imputation methods.
作者 孟杰 李春林
出处 《统计与信息论坛》 CSSCI 2014年第9期86-90,共5页 Journal of Statistics and Information
基金 国家社会科学基金项目<基于数据挖掘技术的调查数据质量控制研究>(13BTJ007)
关键词 缺失值插补 调查问卷 分类数据 随机森林 数据挖掘 missing data imputation survey questionnaire categorical data random forest data mining
  • 相关文献

参考文献5

二级参考文献79

共引文献691

同被引文献199

引证文献27

二级引证文献94

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部