缺失数据插补方法性能比较分析被引量：14

Comparative Analysis of the Performance of Interpolation Methods for Missing Data

下载PDF

导出

摘要数据缺失问题在现实工作生活中不可避免,为保证信息完整度以便于后续统计分析,尽可能准确地预测填补缺失值则显得尤为重要。基于两组分别服从于高斯分布和伽马分布的模拟数据集和一组非洲地区部分国家预期寿命实际数据,分别预设5%、10%和20%三种缺失比例,利用计算机软件对四种插补方法统计结果进行比较分析。试验结果表明,模拟数据中自回归建模插补和均值插补整体效果略优于最近邻插补和线性回归插补;实际数据中当缺失数据比例较低时,最近邻插补和线性回归插补效果优于前两者,当缺失比例较高时与模拟数据效果无明显差异。 Data missing is inevitable.In order to ensure information integrity and follow-up statistical analysis,it is particularly important to predict and fill in missing values as accurately as possible.Based on two sets of simulated data sets that are subject to Gaussian distribution and Gamma distribution respectively,and a set of actual life expectancy data of some countries in Africa,three missing ratios of 5%,10% and 20% are preset respectively,and the statistical results of the four interpolation methods are compared and analyzed by computer software.The experimental results show that the overall effect of auto-regression modeling interpolation and mean interpolation in simulated data is slightly better than that of K-nearest neighbor interpolation and linear regression interpolation.In actual data,when the proportion of missing data is low,K-nearest neighbor interpolation and linear regression is better than the former two,and there is no significant difference in the effect of the simulated data when the missing ratio is high.

作者徐鸿艳孙云山秦琦琳朱明涛 XU Hongyan;SUN Yunshan;QIN Qilin;ZHU Mingtao(School of Science,Tianjin University of Commerce,Tianjin 300134,China;School of Information Engineering,Tianjin University of Commerce,Tianjin 300134,China)

机构地区天津商业大学理学院天津商业大学信息工程学院

出处《软件工程》 2021年第11期11-14,10,共5页 Software Engineering

关键词缺失数据插补方法自回归建模 missing data interpolation method autoregressive

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1熊中敏,郭怀宇,吴月欣.缺失数据处理方法研究综述[J].计算机工程与应用,2021,57(14):27-38. 被引量：52
2张松兰,王鹏,徐子伟.基于统计相关的缺失值数据处理研究[J].统计与决策,2016,32(12):13-16. 被引量：19
3陈雁声.时间序列中缺失数据的处理方法综述[J].信息与电脑,2020,32(10):19-22. 被引量：2
4张昕.不完备信息系统下空缺数据处理方法的分析比较[J].海南师范大学学报（自然科学版）,2008,21(4):444-447. 被引量：3
5朱高培,朱乐乐,孟马承,吴学森.基于Monte Carlo模拟的四种完全随机双变量缺失数据处理方法的比较[J].中国卫生统计,2018,35(5):707-709. 被引量：7

二级参考文献34

1田兵.缺失数据的单一插补方法[J].阴山学刊（自然科学版）,2011,25(3):17-19. 被引量：3
2张宏亭,李学仁,孔韬.BP神经网络在缺失数据估计中的应用[J].计算机工程与设计,2007,28(14):3457-3459. 被引量：13
3[1]Patrick O'Neil,Elizabeth O'Neil.DATABASE Principles,Programming,and Performance[M].北京:高等教育出版社,2002.
4[2]萨师煊,王珊.数据库系统概论[M].北京:高等教育出版社,2005:169-192.
5Julie M D, Kannan B. Attribute Rreduction and Missing Value Imput- ing With ANN:Prediction of Learning Disabilities[J].Neural Comput & Applic,2012,21(7).
6Wang X C, Liu X D, Pedrycz W. Fuzzy Rule Based Decision Trees[J].Pattern Recognition,2015,(48).
7Sovilj D, Eirola E, Miche Y. Extreme Learning Machine for Missing Data Using Multiple Imputations[J].Neurocomputing,2016,(174).
8Lee M C, Mitra R. Multiply imputing Missing Values in Data Sets With Mixed Measurement Scales Using A Sequence of Generalized Linear Models[J].Computational Statistics and Data Analysis,2016, (95).
9Maa L, Destercke S, Wang Y. Online Active Learning of Decision Trees With Evidential Data[J]. Pattern Recognition, 2016, (52).
10Tsang S, Kao B, Yip K Y. Decision Trees for Uncertain Data[J]. IEEE Transactions on Knowledge and Data Engineering,2011,23(1).

共引文献78

1李富盛,陈伟松,钱斌,郭斌,肖勇,周密,罗奕.面向低压配电网智能电表误差监测的LightGBM-EM-EC多变量缺失数据高效重建[J].中国电机工程学报,2022,42(S01):95-105. 被引量：6
2杨苹,吕茵,黄锦成.基于模糊聚类的蜂窝小区业务量数据填补算法[J].计算机工程,2011,37(13):259-261. 被引量：1
3李海涛,宋琳琳.政府门户网站公众满意度调查问卷缺失数据的处理研究[J].情报学报,2013,32(6):575-583. 被引量：2
4刘攀,冯长焕.正态标准化数据无量纲处理在因子分析中的应用[J].内江师范学院学报,2017,32(12):54-58. 被引量：10
5单春霞,仲伟周.环境保护投入对煤炭企业核心竞争力的影响研究[J].华东经济管理,2018,32(1):137-144. 被引量：23
6杜国栋,吕云辉,马磊,相艳,邵党国,雷强,胡蓉.基于ROSE和C5.0算法的打鼾者OSAHS初筛模型[J].计算机工程与应用,2018,54(3):250-254. 被引量：3
7殷丽丽,段利忠,刘航宇,孙巧巧,康茜茜,卢奇.阿卡波糖和瑞格列奈治疗2型糖尿病的药物经济学评价[J].山西医科大学学报,2018,49(2):152-156. 被引量：13
8吴桐雨,吴少雄.基于核主成分分析和粒子群优化支持向量机的统计数据缺失值插补[J].统计与决策,2018,0(8):21-24. 被引量：5
9柯昊,李天,周悦,钟玉颖,俞征鹿,袁军鹏.数据缺失时基于BP神经网络的作者重名辨识研究[J].情报学报,2018,37(6):600-609. 被引量：7
10王天立,周超.文本数据处理的改进算法研究[J].福建电脑,2019,35(8):60-61. 被引量：1

同被引文献156

1李富盛,陈伟松,钱斌,郭斌,肖勇,周密,罗奕.面向低压配电网智能电表误差监测的LightGBM-EM-EC多变量缺失数据高效重建[J].中国电机工程学报,2022,42(S01):95-105. 被引量：6
2张志昌,任淮秀.政府补贴、寻租与企业研发人力资本投入[J].云南财经大学学报,2020,0(3):92-103. 被引量：21
3刘佳星,张宏烈,刘艳菊,刘彦忠.基于缺失率的不完整数据填补算法[J].统计与决策,2021(2):39-41. 被引量：18
4陈振宇,刘金波,李晨,季晓慧,李大鹏,黄运豪,狄方春,高兴宇,徐立中.基于LSTM与XGBoost组合模型的超短期电力负荷预测[J].电网技术,2020,44(2):614-620. 被引量：223
5郑智泉,王孟孟,田维琦.基于加权K近邻算法的缺失数据填补研究[J].智能计算机与应用,2021,11(11):31-33. 被引量：4
6庞新生.多重插补处理缺失数据方法的理论基础探析[J].统计与决策,2005,21(02X):12-14. 被引量：19
7傅勇,张晏.中国式分权与财政支出结构偏向:为增长而竞争的代价[J].管理世界,2007,23(3):4-12. 被引量：1737
8郑磊.财政分权、政府竞争与公共支出结构——政府教育支出比重的影响因素分析[J].经济科学,2008(1):28-40. 被引量：164
9李晓静,聂广礼,曾婧.Logistic方法在财务困境预测中的应用[J].中国管理信息化,2009,12(15):124-126. 被引量：5
10林辉,刘晶,郝志峰,朱锋峰,吴广潮.基于相似日负荷修正的节假日短期负荷预测[J].电力系统保护与控制,2010,38(7):47-51. 被引量：38

引证文献14

1康亮河,林雨蔚,朱莉莉,王雲慧,袁敏.基于PCA及Elamn神经网络的财务困境预警[J].电脑知识与技术,2022,18(31):11-13.
2刘洪旭,韩红桂,杨洪燕.知识和数据驱动的多时间尺度采样系统建模方法[J].北京工业大学学报,2023,49(4):395-402.
3李佳鹏,胡玉杰.财政分权能促进中国农村人居环境治理吗?[J].中国人口·资源与环境,2023,33(5):172-180. 被引量：4
4吴立辉,周秀,张中伟.基于CNN-LSTM的晶圆良率预测[J].组合机床与自动化加工技术,2023(7):142-146. 被引量：1
5梁庆,付青坤,田海安,彭志浩.基于时空相关性的交通物联网缺失数据填补算法[J].电脑知识与技术,2023,19(18):4-9.
6许小刚,王志香,王惠杰.基于深度长短记忆网络的汽轮机数据清洗[J].热力发电,2023,52(8):179-187. 被引量：2
7张坤,肖慧,徐哈宁,胡佳超,范凌峰.基于主成分分析和长短期记忆网络的滑坡地表位移监测数据缺失插补算法[J].科学技术与工程,2023,23(26):11129-11135. 被引量：2
8陈炯.供电所用电检查数据缺失快速填补研究[J].电气技术与经济,2023(7):98-100.
9李夏,汪晓云,丁沈杰,张玥.基于统计分布信息的上市公司随机缺失数据的KNN插补[J].安徽工程大学学报,2023,38(4):90-94.
10王啸飞,鲍胜利,陈炯环.基于潜在因子模型在子空间上的缺失值注意力聚类算法[J].计算机应用,2023,43(12):3772-3778.

二级引证文献9

1郭静.基于高质量发展要求的财政支出效率与税收激励机制创新[J].纳税,2024(11):4-6.
2徐春,刘迪,沈琪.基于机器学习的高精度无人机影像滑坡自动识别研究[J].云南电力技术,2023,51(5):46-50.
3薛怡,李志刚.乡村振兴战略下运城市农村生活垃圾治理问题研究[J].河北环境工程学院学报,2023,33(6):57-62. 被引量：1
4齐文浩,宋长兴,齐秀琳.数字农业与农村环境可持续发展:作用机理与多维效益[J].财贸研究,2024,35(6):45-58.
5张亮,党海龙,刘庆海,曾俊,蔺建武,王涛,丁磊.考虑地质分层约束的长短期记忆循环神经网络测井曲线重构[J].科学技术与工程,2024,24(19):8045-8051.
6甘林针,钟钰.财政分权、粮食安全省长责任制与粮食生产[J].当代经济科学,2024,46(4):112-123.
7乔壮,仇海全,吴燕,马帅龙.基于CNN-LSTM的黄淮海地区冬小麦产量预测模型[J].黑龙江工业学院学报（综合版）,2024,24(5):95-101.
8顾菊平,赵佳皓,张新松,程天宇,周伯俊,蒋凌.电力设备多参量监测数据清洗研究现状及展望[J].高电压技术,2024,50(8):3403-3420.
9梁晓龙,李金刚,徐平平,马雅楠,孟现阳.基于CEEMDAN-CNN-LSTM的供热异常数据检测与清洗[J].电子测量技术,2024,47(11):20-27.

1董红瑶,王弈丹,李丽红.随机森林优化算法综述[J].信息与电脑,2021,33(17):34-37. 被引量：22
2王加彪.也谈数学学科核心素养及其构建[J].数学大世界（中旬）,2021(6):32-32.
3杨露(文),郭嘉亮(图).一个展会和一座城市的风云际会[J].南风窗,2021(22):29-31.
4韩长喜(编译).高频信号经电离层传输的近似频率调制估计[J].电子工程信息,2021(3):31-34.
5郜明强,成莉凤,杨琦,冯湘沅,郑科,段盛文,彭源德.脱胶微生物菌群与Dickeya dadantii DCE-01菌株的苎麻脱胶性能比较分析[J].中国麻业科学,2021,43(5):247-253. 被引量：1
6杨丹宇.基于文化差异视角审视高校英语的文化缺失现象[J].湖北开放职业学院学报,2021,34(20):175-176.
7原佳怡,朱锐,林雷蕾,李彤,郑明.单触发序列突发漂移检测算法[J].计算机集成制造系统,2021,27(9):2636-2646.
8张佳男.世界经济月评[J].中国远洋海运,2021(11):94-94.
9于晓明,陈亮,周丽萍.新型冠状病毒肺炎的中医认识及治疗经验浅析[J].医学理论与实践,2021,34(21):3858-3859. 被引量：3
10卢泽华,王君勤.自然降水条件下关中平原农业水资源短缺风险分析[J].水土保持研究,2021,28(6):364-370. 被引量：7

软件工程

2021年第11期

浏览历史

内容加载中请稍等...

缺失数据插补方法性能比较分析被引量：14

参考文献5

二级参考文献34

共引文献78

同被引文献156

引证文献14

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

缺失数据插补方法性能比较分析 被引量：14

参考文献5

二级参考文献34

共引文献78

同被引文献156

引证文献14

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

缺失数据插补方法性能比较分析被引量：14