基于随机森林模型的分类数据缺失值插补被引量：27

Missing Data Imputation for Categorical Data Based on Random Forest Model

下载PDF

导出

摘要缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是处理属性分类问题的常用方法,随机森林模型是众多分类算法中精度较高的方法之一。将随机森林模型引入调查问卷缺失数据的插补研究中,提出了基于随机森林模型的分类数据缺失值插补方法,并根据不同的缺失模式探讨了相应的插补步骤。通过与其它方法的实证模拟比较,表明随机森林插补法得到的插补值准确度更优、可信度更高。 Missing data is a important factor which has bad effect on the data quality of survey questionnaire, missing data imputation can significantly improve the data quality. Categorical data is the main data type of survey data. Classification algorithms of data mining can be often dealt with classification problem, random forest modeling is one of the high predictive accuracy classification models. This paper introduces the random forest model into the missing data imputation research of survey data, and proposes the missing data imputation method for categorical data based on random forest model. Imputation process is also designed according to different pattern of missing data. Empirical simulation shows that the proposed new method can obtain more accuracy and reliable results by comparing with other imputation methods.

作者孟杰李春林

机构地区天津财经大学中国经济统计研究中心河北经贸大学数学与统计学院

出处《统计与信息论坛》 CSSCI 2014年第9期86-90,共5页 Journal of Statistics and Information

基金国家社会科学基金项目<基于数据挖掘技术的调查数据质量控制研究>(13BTJ007)

关键词缺失值插补调查问卷分类数据随机森林数据挖掘 missing data imputation survey questionnaire categorical data random forest data mining

分类号 F812 [经济管理—财政学]

引文网络
相关文献

参考文献5

1金勇进,朱琳.不同差补方法的比较[J].数理统计与管理,2000,19(4):50-54. 被引量：19
2方匡南,吴见彬.个人住房贷款违约预测与利率政策模拟[J].统计研究,2013,30(10):54-60. 被引量：19
3杨贵军,蔡娟,赵晓云.高相关性辅助变量择优回归插补法[J].统计与信息论坛,2012,27(6):8-13. 被引量：6
4李春林,申博.数据挖掘在河北省农村居民总体满意度调查中的应用[J].科技情报开发与经济,2012,22(7):94-97. 被引量：1
5方匡南,吴见彬,朱建平,谢邦昌.随机森林方法研究综述[J].统计与信息论坛,2011,26(3):32-38. 被引量：651

二级参考文献79

1冯士雍.抽样调查应用与理论中的若干前沿问题[J].统计与信息论坛,2007,22(1):5-13. 被引量：39
2刘微,罗林开,王华珍.基于随机森林的基金重仓股预测[J].福州大学学报（自然科学版）,2008,36(S1):134-139. 被引量：8
3方匡南,吴见彬,朱建平,谢邦昌.信贷信息不对称下的信用卡信用风险研究[J].经济研究,2010,45(S1):97-107. 被引量：63
4韩立民.韩国的“新村运动”及其启示[J].中国农村观察,1996(4):63-65. 被引量：22
5吴敬学.韩国的“新村运动”[J].中国改革,2005(12):45-46. 被引量：16
6林成德,彭国兰.随机森林在企业信用评估指标体系确定中的应用[J].厦门大学学报（自然科学版）,2007,46(2):199-203. 被引量：36
7KishL.,倪加勋主译,孙山泽校译.抽样调查[M].北京:中国统计出版社,1997,527-570.
8胡锦涛.在建设社会主义新农村研讨班开班式上讲话[EB/OL].(2006-02-14).http://www.gov.cn/ldhd/2006-02/14/content_191222.htm.
9张尧庭,谢邦昌,朱世武.数据采掘入门及其应用[M].北京:中国统计出版社,2001.
10Hansen M H, Hurwitz W N. The Problem of Nonresponse in Sample Surveys[J]. Journal of the American Statistical Association, 1946 (41).

共引文献691

1郑伟,戴伊宁,孙楠楠,尹乔乔,吴青青,惠田辰,吴文昊,黄海军,童永喜,黄益澄,汪明珊,陈美娟,张家杰,严蓉,高海女,潘红英.应用随机森林模型和Logistic回归模型分析COVID-19的影响因素[J].预防医学,2021,33(7):722-725. 被引量：1
2袁鸷慧,聂胜,张合兵,王成,王宏涛,习晓环.GEDI地面高程和森林冠层高度的精度评价与影响分析[J].遥感技术与应用,2022,37(5):1056-1070.
3谢春,许伟.基于随机森林回归算法的锅炉沾污因数预测方法[J].上海电气技术,2022,15(1):29-32.
4王仁超,朱品光.基于随机森林回归方法的爆破块度预测模型研究[J].水力发电学报,2020,39(1):89-101. 被引量：22
5杨龙,王闻娟,覃哲,古悦璇.中国大学生气候认知与低碳行为及其影响因素研究——基于随机森林模型分析[J].文化与传播,2022,11(2):6-15. 被引量：1
6饶贵川,王雅楠,华伟平,林维晟,潘俊忠,廖佩莹.环境因子对人工森林蓄积量影响的机器学习分析[J].林业科技通讯,2023(12):58-63.
7王治忠,闫文明,王松伟.基于鸽子视顶盖神经元响应对不同颜色背景字符图像的重建研究[J].计算机应用研究,2020,37(1):308-312.
8宋华丽,陈欣影,王鹏,初军玲,丛源.基于随机森林的江淮各省会城市夏季降水量预报对比分析[J].湖北农业科学,2019,58(S02):190-197.
9李一民,谭振宇,杨辰,何峰,孟迪,罗菊花,段洪涛.基于多源卫星的滇池藻华提取机器学习算法研究[J].地球科学进展,2022,37(11):1141-1156. 被引量：5
10劳钰钞,刘秀峰,杨锦礼,蒋志.基于随机森林构建集装箱堆存时间预测分类器的港口翻箱研究[J].装备制造技术,2022(2):209-212.

同被引文献199

1《中国信用》杂志编辑部电子商务领域信用建设研究课题组.电子商务领域“双十一”信用环境评价和提示(2020年度)[J].中国信用,2020(11):22-33. 被引量：1
2刘佳星,张宏烈,刘艳菊,刘彦忠.基于缺失率的不完整数据填补算法[J].统计与决策,2021(2):39-41. 被引量：17
3陈荣荣,詹国华,李志华.基于XGBoost算法模型的信用卡交易欺诈预测研究[J].计算机应用研究,2020,37(S01):111-112. 被引量：14
4侯建华,熊承义,游政红.信号估计中的贝叶斯方法及应用[J].西南民族大学学报（自然科学版）,2006,32(3):591-594. 被引量：2
5Sun, Dongxia, Li, Jianping, Wei, Liwei.Credit risk evaluation using adaptive Lq penalty SVM with Gauss kernel[J].Journal of Southeast University(English Edition),2008,24(S1):33-36. 被引量：1
6朴世龙,方精云,贺金生,肖玉.中国草地植被生物量及其空间分布格局[J].植物生态学报,2004,28(4):491-498. 被引量：380
7林翠,王凤平,李晓刚.大气腐蚀研究方法进展[J].中国腐蚀与防护学报,2004,24(4):249-256. 被引量：73
8武建虎,贺佳,贺宪民,程红岩.多变量缺失数据的不同处理方法及分析结果比较[J].第二军医大学学报,2004,25(9):1013-1016. 被引量：17
9沈新强,王云龙,袁骐,黄洪亮,周爱忠.北太平洋鱿鱼渔场叶绿素a分布特点及其与渔场的关系[J].海洋学报,2004,26(6):118-123. 被引量：36
10原毅军,孙晓华,柏丹.我国软件企业智力资本价值创造潜力的评估[J].中国工业经济,2005(3):44-50. 被引量：31

引证文献27

1朱力,王盛利,于立.弹道导弹的雷达探测系统仿真[J].计算机仿真,2000,17(1):46-48. 被引量：1
2刘展,金勇进,韩显男.基于倾向得分匹配的缺失数据插补方法[J].数学的实践与认识,2016,46(12):193-201. 被引量：2
3冯莎.居民主观幸福感及其影响因素研究——基于多种预测模型[J].调研世界,2016,0(9):42-49.
4冯莎,张芃.收入差距与主观幸福感及影响因素的实证研究——基于有序Logistic和多层累积Logistic模型[J].调研世界,2017,0(6):45-51. 被引量：7
5孟杰,王欣,张然.修正Benford分布律及其模拟研究[J].统计与信息论坛,2017,32(9):9-16. 被引量：5
6曹卫权,褚衍杰,李显.针对机器学习中残缺数据的近似补全方法[J].西安交通大学学报,2017,51(10):142-148. 被引量：5
7李志平,付冬梅,穆志纯.基于稀疏数据规约的CMAC大气腐蚀数据补偿方法[J].计算机应用研究,2016,33(9):2645-2647. 被引量：4
8孟杰,沈文静.人口名录库及其在人口普查中的应用[J].统计与信息论坛,2018,33(10):90-97. 被引量：12
9孙玉东,王欢.缺失数据情形下期望收益率和波动率估计的潜变量MCMC抽样方法[J].湖北民族学院学报（自然科学版）,2019,37(3):277-281.
10任泽茜,丁丽霞,刘丽娟,谢锦莹,敖伊颍,张继艳,何嘉莹.利用无人机遥感监测农作物种植面积[J].测绘通报,2020(7):76-81. 被引量：9

二级引证文献94

1王丙参,魏艳华,丁恒飞.正态概率纸检验的改进及推广[J].统计与信息论坛,2018,33(3):26-30. 被引量：1
2李彦,刘军.面向大数据的多维数据缺失特征填补仿真研究[J].计算机仿真,2018,35(10):432-435. 被引量：11
3罗笛文.我国主观幸福感影响因素职业差异分析——基于2013CGSS数据的实证分析[J].中南财经政法大学研究生学报,2018,0(5):91-99.
4葛瑞星,周青松,张剑云,谌诗娃.基于迭代凸优化的导弹探测时间估算方法[J].弹道学报,2017,29(4):22-28.
5安强强,张峰,李赵兴,张雅琼.基于机器学习的VoIP流量在线识别系统设计与实现研究[J].电子设计工程,2018,26(16):103-106. 被引量：2
6毛颖颖.可扩展机器学习中残缺数据补全方法研究[J].信息与电脑,2018,30(17):32-33.
7郑思宁,王淑琴,郑逸芳.子女数量与农村居民幸福感——基于性别和年龄差异视角[J].西北人口,2018,39(5):30-38. 被引量：12
8张旭.人口普查中年龄误报问题的原因及对策[J].经济视野,2019,0(2):157-158.
9吴国平.论Benford法则作为一种反舞弊审计手段的局限性[J].时代经贸,2019,17(13):94-98. 被引量：1
10王巍,任萍,谢海军.基于Benford法则的企业财务数据质量评价[J].管理观察,2019,0(13):185-187.

1谢英欣,张世玲.我国商业银行经营绩效评价实证研究——基于因子分析和缺失值插补[J].统计与管理,2015,0(9):40-44. 被引量：2
2刘微,罗林开,王华珍.基于随机森林的基金重仓股预测[J].福州大学学报（自然科学版）,2008,36(S1):134-139. 被引量：8
3陶超,李超,李杰,赵骞.数据挖掘在个人信用评估中的研究[J].商丘师范学院学报,2016,32(12):12-15. 被引量：1
4袁靖,刘永久,李东进.中外银行业操作风险比较研究[J].金融发展研究,2010(3):64-67.
5数说天下[J].四川省情,2012(7):65-65.
6王瑛.我国财政支出和GDP的增长关系分析[J].商,2013(3):107-107.
7吕涛.市场调查中样本数据缺失值问题研究[J].商场现代化,2014(12):70-71. 被引量：2
8柴振荣.按照性质不同的互相关联的分类数据数据库进行共同分段[J].管理观察,1998(6):31-31.
9Youngjae Lee P. Lynn Kennedy.Real exchange rates and U.S./Korean bilateral trade[J].China-USA Business Review,2009,8(9):1-17.
10于晓虹,楼文高.基于随机森林的P2P网贷信用风险评价、预警与实证研究[J].金融理论与实践,2016(2):53-58. 被引量：47

统计与信息论坛

2014年第9期

浏览历史

内容加载中请稍等...

基于随机森林模型的分类数据缺失值插补被引量：27

参考文献5

二级参考文献79

共引文献691

同被引文献199

引证文献27

二级引证文献94

相关作者

相关机构

相关主题

浏览历史

基于随机森林模型的分类数据缺失值插补 被引量：27

参考文献5

二级参考文献79

共引文献691

同被引文献199

引证文献27

二级引证文献94

相关作者

相关机构

相关主题

浏览历史

基于随机森林模型的分类数据缺失值插补被引量：27