构造性覆盖下不完整数据修正填充方法被引量：4

Improving missing data recovery with a constructive covering algorithm

下载PDF

导出

摘要不完整数据处理是数据挖掘、机器学习等领域中的重要问题,缺失值填充是处理不完整数据的主流方法。当前已有的缺失值填充方法大多运用统计学和机器学习领域的相关技术来分析原始数据中的剩余信息,从而得到较为合理的值来替代缺失部分。缺失值填充大致可以分为单一填充和多重填充,这些填充方法在不同的场景下有着各自的优势。但是,很少有方法能进一步考虑样本空间分布中的邻域信息,并以此对缺失值的填充结果进行修正。鉴于此,本文提出了一种可广泛应用于诸多现有填充方法的框架用以提升现有方法的填充效果,该框架由预填充、空间邻域信息挖掘和修正填充三部分构成。本文对7种填充方法在8个UCI数据集上进行了实验,实验结果验证了本文所提框架的有效性和鲁棒性。 Incomplete data processing is one of the most active avenues in the fields of data mining,machine learning,etc.Missing value imputation is the mainstream method used to deal with incomplete data.At present,most existing missing value imputation methods utilize relevant techniques in the field of statistics and machine learning to analyze surplus information from original data to replace the missing attributes with plausible values.Missing value imputation can be roughly divided into single imputation and multiple imputation,which have their own advantages in different scenarios.However,there are few methods that can further consider neighborhood information in the spatial distribu-tion of samples and modify the filling results of missing values.In view of this,this paper proposes a new framework that can be widely used in many existing imputation methods to enhance the imputation effect of existing methods.It is composed of three modules,called pre-filling,spatial neighborhood information mining,and modification of the results of pre-filling separately.In this paper,seven existing imputation methods were evaluated on eight UCI datasets.Experi-mental results verified the validity and robustness of the framework proposed in this paper.

作者严远亭吴亚亚赵姝张燕平 YAN Yuanting;WU Yaya;ZHAO Shu;ZHANG Yanping(School of Computer Science and Technology,Anhui University,Hefei 230601,China)

机构地区安徽大学计算机科学与技术学院

出处《智能系统学报》 CSCD 北大核心 2019年第6期1225-1232,共8页 CAAI Transactions on Intelligent Systems

基金国家自然科学基金项目(61806002,61872002,61673020,61876001,61602003) 安徽省自然科学基金项目(1708085QF143,1808085MF197) 安徽大学博士科研启动基金项目(J01003253)

关键词不完整数据缺失值填充邻域信息数据挖掘机器学习填充方法单一填充多重填充 incomplete data missing value imputation neighborhood information data-mining machine learning im-putation method single imputation multiple imputation

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1张铃,张钹.M-P神经元模型的几何意义及其应用[J].软件学报,1998,9(5):334-338. 被引量：135

二级参考文献1

1张铃,张钹.多层反馈神经网络的FP学习和综合算法[J].软件学报,1997,8(4):252-258. 被引量：24

共引文献134

1段震,姚芳兵,张铃.基于构造性学习方法的车牌定位[J].微机发展,2004,14(8):41-43. 被引量：2
2张燕平,张铃,吴涛,徐锋,张,王伦文.基于覆盖的构造性学习算法SLA及在股票预测中的应用[J].计算机研究与发展,2004,41(6):979-984. 被引量：18
3段震,鲁杰,张铃.基于交叉覆盖神经网络的车牌识别研究[J].安徽大学学报（自然科学版）,2004,28(5):11-14. 被引量：7
4赵姝,张燕平,张媛,陈传明.基于交叉覆盖算法的改进算法——核平移覆盖算法[J].微机发展,2004,14(11):1-3. 被引量：6
5黄国宏,邵惠鹤.一种新的基于神经网络覆盖分类算法[J].中国图象图形学报（A辑）,2004,9(10):1165-1168. 被引量：6
6张燕平,张铃,段震.构造性核覆盖算法在图像识别中的应用[J].中国图象图形学报（A辑）,2004,9(11):1304-1308. 被引量：17
7阚涛,娄天玲.基于交叉覆盖算法的模糊神经网络在车用发电机故障诊断系统中的应用研究[J].安徽电子信息职业技术学院学报,2005,4(1):76-77.
8钱峰,张蕾,赵姝.基于粗糙集的交叉覆盖算法[J].铜陵学院学报,2004,3(4):70-71.
9毛军军,吴涛,郑婷婷,张铃.基于商空间的构造性分层竞争网络算法[J].微机发展,2005,15(4):37-39. 被引量：2
10唐理兵,倪志伟,李学俊,马猛.基于交叉覆盖设计算法的空间分类挖掘[J].微机发展,2005,15(4):43-45.

同被引文献44

1Mei Lu,Fanzhang Li.Survey on Lie Group Machine Learning[J].Big Data Mining and Analytics,2020,3(4):235-258. 被引量：6
2胡克林,张凤荣,吕贻忠,王茹,徐艳.北京市大兴区土壤重金属含量的空间分布特征[J].环境科学学报,2004,24(3):463-468. 被引量：171
3吴涛,张铃,张燕平.机器学习中的核覆盖算法[J].计算机学报,2005,28(8):1295-1301. 被引量：33
4邱炳文,王钦敏,陈崇成,池天河.福建省土地利用多尺度空间自相关分析[J].自然资源学报,2007,22(2):311-320. 被引量：96
5谢花林,李波.基于logistic回归模型的农牧交错区土地利用变化驱动力分析--以内蒙古翁牛特旗为例[J].地理研究,2008,27(2):294-304. 被引量：142
6赵地,李光强,李晶晶.空间不完备数据及其填补方法研究[J].西部探矿工程,2009,21(1):137-140. 被引量：4
7吴涛,张方方.基于特征选择的多侧面覆盖算法[J].计算机应用,2011,31(5):1318-1320. 被引量：4
8张燕平,刘超,曲永花.WCBVSM与SACA结合的文本分类模型[J].计算机工程与应用,2012,48(11):137-142. 被引量：3
9李新,程国栋,卢玲.空间内插方法比较[J].地球科学进展,2000,15(3):260-265. 被引量：530
10沈仁芳,陈美军,孔祥斌,李永涛,同延安,汪景宽,李涛,鲁明星.耕地质量的概念和评价与管理对策[J].土壤学报,2012,49(6):1210-1217. 被引量：206

引证文献4

1马草原.基于低秩模型的电力能源大数据异常修正方法研究[J].自动化仪表,2021,42(3):90-93. 被引量：3
2陈宇,周悟,胡月明,谢健文.耕地质量评价缺失数据填充方法研究[J].农业资源与环境学报,2021,38(6):1132-1141. 被引量：5
3陈彦至,张子洋,薛琦,刘力,李凡长.李群覆盖学习算法研究进展[J].信息记录材料,2022,23(3):32-34.
4朱先远,严远亭,张燕平.邻域信息修正的不完整数据多填充集成分类方法[J].计算机工程与应用,2023,59(23):125-135. 被引量：2

二级引证文献10

1马金克,宋瑶,韩坤宸,朱雯君,于晓涵,张钦任,张曦予,李全阳.用随机森林回归算法辨析长寿人群饮食特征与健康指标间量化关系[J].食品工业科技,2022,43(8):389-398. 被引量：1
2陈谧.基于数据分析的电力用户用电特征研究[J].自动化仪表,2022,43(9):100-105. 被引量：1
3林彤,高建岗,王亚华.基于国家耕地质量等别指数和空间自相关的苏北地区耕地保护分区[J].农业资源与环境学报,2023,40(3):525-533. 被引量：7
4白雪源,张杰,崔振岭,王广进,吕玉娇,张福锁.中低产田评价指标与主要方法研究进展[J].土壤学报,2023,60(4):913-924. 被引量：1
5徐轶玮,李亚周.陕西省耕地养分状况调查与评价[J].西北园艺,2024(1):1-4.
6刘敏,周健,胡月明,张林,赵清林,秦雅静,陈瑗瑗.基于XGBoost算法的可恢复耕地宜耕性评价——以湘阴县为例[J].农业资源与环境学报,2024,41(1):49-60. 被引量：2
7王林,姚发兴,王健,唐力,桂辉阳.柔性直流换流站异常监控数据实时预警研究[J].自动化仪表,2024,45(3):70-73.
8何昀,张川,张继夫,陈伟.基于随机森林的多源小样本数据快速集成方法[J].信息与电脑,2024,36(1):52-54.
9杨晶,妥建军,李昊,廖翯,马雅蓉.电网多源异构缺失数据最优投影整合算法研究[J].自动化仪表,2024,45(4):76-81.
10朱华,乔勇进,董国钢.基于CART决策树的分布式数据离群点检测算法[J].现代电子技术,2024,47(16):157-162.

1黄龙,张汉雄.ProTaper机用锉结合根管测量仪与手持K型锉结合X线片在乳磨牙一次法根管治疗中的应用效果[J].医疗装备,2019,32(23):138-139. 被引量：2
2段静宜.“人是植物”概念隐喻的身体性认知机制阐释[J].吉林省教育学院学报,2019,35(12):166-169.
3陈景文,徐鑫,雷涛,加小红,薛丁华.基于广义Ⅱ型模糊聚类的图像分割算法[J].陕西科技大学学报,2020,38(1):154-163. 被引量：2
4高昊鹏,朱苦竹.地聚物砂浆在道路加固中的应用与研究[J].粉煤灰综合利用,2019,0(6):89-92. 被引量：7
5张炎亮,李小哲.基于案例推理的天猫店铺在线评论分析[J].现代电子技术,2020,43(2):57-59.
6李锦妍,何敏红,王涛.基于CAE分析的塑件产品注射成型浇注系统优化设计[J].科技创新与应用,2020,0(2):70-72. 被引量：1
7王丹丹,曲杰,崔矿庆,陈秋华,魏晨亮.基于智能内检测的某海底管道的泄漏分析[J].船海工程,2019,48(6):100-103. 被引量：2
8潘丽君,韩欣利,李彤.色谱方程的广义黎曼问题:含有Delta激波[J].数学物理学报（A辑）,2019,39(6):1300-1313.
9孟诗语,黄英来,赵鹏,李超,刘镇波,刘一星,徐艳.卷积神经网络用于近红外光谱古筝面板木材分级[J].光谱学与光谱分析,2020,40(1):284-289. 被引量：4
10吴满意,景星维.精准思政：内涵生成与结构演化[J].学术论坛,2019,42(5):133-139. 被引量：146

智能系统学报

2019年第6期

浏览历史

内容加载中请稍等...

构造性覆盖下不完整数据修正填充方法被引量：4

参考文献1

二级参考文献1

共引文献134

同被引文献44

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

构造性覆盖下不完整数据修正填充方法 被引量：4

参考文献1

二级参考文献1

共引文献134

同被引文献44

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

构造性覆盖下不完整数据修正填充方法被引量：4