邻域信息修正的不完整数据多填充集成分类方法被引量：1

Multiple Imputation-Revision Ensemble Classification with Neighborhood Information

下载PDF

导出

摘要不完整数据集分类前需要对缺失值先填充。目前已有了一些经典的缺失值填充算法,如均值填充、K近邻填充等。它们各有优势,但这些算法对缺失值的估算易受到与缺失值相关性不大的其他数据干扰,影响缺失值填充效果,进而影响后续分类性能。针对该问题,提出一种邻域信息修正不完整数据多填充集成分类方法。该方法通过嵌入修正填充模块来优化填充过程,利用纯度和邻域半径筛选出待修正填充的近邻数据样本,并根据这些近邻数据样本对缺失值进行修正填充,进一步提升填充精度。同时,融合了多种经典填充算法优势,利用多填充的数据多样性,通过引入集成学习提升分类精确度。实验结果表明,该方法对基准数据集上的缺失值填充效果、数据分类精确度都优于对比方法,同时在真实不完整数据集上也表现出更好的分类精确度。 Missing value imputation is one of the important preprocess techniques for incomplete data classification.Numerous missing value imputation methods have been proposed over the past decades.However,these algorithms are prone to being affected by other data that is not related to the missing values,leading to imprecise imputation results and degradation of subsequent classification performance.To address this issue,this paper proposes an incomplete data classification method based on multiple imputation-revision ensemble with local information.The method incorporates an imputation-revision module that selects neighbor of the sample to be corrected and imputed based on neighborhood purity and neighborhood radius,resulting in better imputation accuracy.The method also integrates the strengths of multiple classic imputation algorithms and utilizes the diversity of multiple imputed dataset to enhance classification accuracy via ensemble learning.Experimental results demonstrate that this method outperforms compared methods in terms of imputation accuracy and classification performance on benchmark datasets,and it also exhibits superior classification accuracy on real-world incomplete datasets.

作者朱先远严远亭张燕平 ZHU Xianyuan;YAN Yuanting;ZHANG Yanping(School of Information and Artificial Intelligence,Anhui Business College of Vocational Technology,Wuhu,Anhui 241002,China;School of Computer Science and Technology,Anhui University,Hefei 230601,China)

机构地区安徽商贸职业技术学院信息与人工智能学院安徽大学计算机科学与技术学院

出处《计算机工程与应用》 CSCD 北大核心 2023年第23期125-135,共11页 Computer Engineering and Applications

基金国家自然科学基金(61872002,62272001) 安徽高校自然科学研究重点项目(KJ2021A1483,2022AH052740,2023AH052296)。

关键词不完整数据分类修正填充邻域信息集成学习 incomplete data classification imputation-revision local information ensemble learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1孟军,李锐,郝涵.基于相交邻域粗糙集的基因微阵列数据分类[J].计算机科学,2015,42(6):37-40. 被引量：4
2张建军,张天成,隋宇婷,岳德君.基于极限学习机(ELM)岭回归的DNA微阵列数据填补[J].小型微型计算机系统,2014,35(10):2357-2362. 被引量：3
3黄帷,闵帆,任杰.基于协同过滤加权预测的主动学习缺失值填补算法[J].南京大学学报（自然科学版）,2018,54(4):758-765. 被引量：2
4刘永楠,李建中,高宏.海量不完整数据的核心数据选择问题的研究[J].计算机学报,2018,41(4):915-930. 被引量：6
5辛利柯,杨琬琪,杨明.基于判别稀疏性表示的不完整多视图分类[J].计算机科学与探索,2021,15(10):1938-1948. 被引量：2
6严远亭,吴亚亚,赵姝,张燕平.构造性覆盖下不完整数据修正填充方法[J].智能系统学报,2019,14(6):1225-1232. 被引量：4

二级参考文献25

1刘星毅.GBNN-填充缺失属性值算法[J].微计算机信息,2007(05X):246-248. 被引量：6
2Piao Y, Piao M, Park K, et al. An ensemble correlation-based gene selection algorithm for cancer classification with gene ex- pression data[J]. Bioinformatics, 2012,28(24) : 3306-3315.
3Wang Shu-lin, Li Xue-ling, Zhang Shan-wen, et al. Tumor classi- fication by combining PNN classifier ensemble with neighbor- hood rough set based gene reduction[J]. Computers in Biology and Medicine,2010,40(2) : 179-189.
4Tong Mu-chen-xuan, Liu Kun-hong,Xu Chun-gui, et al. An en- semble of SVM classifiers based on gene pairs[J]. Computers in Biology and Medicine, 2013,43 (6) : 729-737.
5Kohavi R,John G H. Wrappers for feature subset selection[J]. Artificial Intelligence, 1997,97 (1/2) : 273-324.
6Wang El, Zhu Ji, Zou Hui. Hybrid huberized support vector ma- chines for mieroarray classification and gene selection[J]. Bioin- formatics, 2008,24 (3) : 412-419.
7Bolon-Canedo V, Sanchez-Marono N, Alonso-Betanzos A. An ensemble of filters and classifiers for microarray data elassifica- tion[J]. Pattern Recognition,2012,45(1) :531-539.
8Jiao Na, Miao Duo-qian. An efficient gene selection algorithm based on tolerance rough set theory[J]. Data Mining and Granu- lar Computing, 2009,5908 : 176-183.
9Pawlak Z. Rough sets[J]. Computer and Information Science, 1982,11 (5) : 341-356.
10Jensen R, Shen Q. Fuzzy-rough attribute reduction with applica- tion to web categorization[J]. Fuzzy Sets and Systems, 2004, 141(3) :469-485.

共引文献15

1韩飞,沈镇林.基于不完备集双聚类的缺失数据填补算法[J].计算机工程,2016,42(4):20-26. 被引量：12
2郭炳,郑文萍,韩素青.一种基于突变基因网络的癌症驱动通路识别算法[J].计算机科学,2018,45(7):230-236.
3刘翠翠.基于邻域粗糙集的特征基因提取分析[J].电脑知识与技术,2017,13(3X):160-161.
4骆公志,钱佳丽.基于多阈值的变精度邻域多粒度粗糙决策方法[J].计算机应用研究,2018,35(10):2943-2946. 被引量：2
5汪敏,赵飞,闵帆.储层预测的代价敏感主动学习算法[J].南京大学学报（自然科学版）,2020,56(4):561-569.
6杨晓贤,翁雯,吴嘉琪.大数据平台在智慧教育中的应用思考[J].软件,2020,41(10):270-272.
7马草原.基于低秩模型的电力能源大数据异常修正方法研究[J].自动化仪表,2021,42(3):90-93. 被引量：3
8邢付贵,朱廷劭.基于大规模语料库的古文词典构建及分词技术研究[J].中文信息学报,2021,35(7):41-46. 被引量：7
9辛俊龙,葛静,朱斯杨,周子玉.基于偏最小二乘回归的大坝安全监测数据缺失迭代修补方法研究[J].水利规划与设计,2021(11):100-104. 被引量：4
10杜鹃,张卓,曹建春.利用快速无偏分层图抽样算法的MapReduce负载平衡方法[J].计算机应用与软件,2021,38(11):288-294. 被引量：2

同被引文献6

1杨家俊,余涛,余盛灿,陈鑫沛,吴毓峰,卢冠华.基于图数据分割的子图集成学习方法及在电价预测领域的应用[J].电力信息与通信技术,2023,21(8):59-67. 被引量：3
2张全秀,安晓冬,陈梦洵,王浩任,安文章.城市轨道交通投资估算大数据分析与BIM集成展示[J].价值工程,2023,42(25):88-91. 被引量：1
3江乾坤,王成哲.互联网企业海外并购财务风险大数据预警研究——基于Stacking集成学习[J].技术经济,2023,42(9):147-160. 被引量：1
4丁剑,武红鑫,韩萌.基于动态异构集成的多标签数据流分类算法[J].计算机工程与设计,2023,44(10):3031-3038. 被引量：1
5陈根深,刘刚,陈麒玉,赵力行,向世泽,罗庆,张俊杰.基于多源数据集成与WebGIS的三维矿山空间数据管理系统关键技术及应用[J].软件导刊,2023,22(11):18-28. 被引量：1
6汤程皓,梅颖,卢诚波.利用集成OS-ELM的不平衡数据流分类与存储方法[J].软件导刊,2023,22(12):71-77. 被引量：1

引证文献1

1何昀,张川,张继夫,陈伟.基于随机森林的多源小样本数据快速集成方法[J].信息与电脑,2024,36(1):52-54.

1李明亮,李卓,黄斌,于军,辛鹏,张继成,唐友.基于GPU加速随机森林算法的大豆基因型填充研究[J].大豆科学,2023,42(6):742-748. 被引量：1
2沈海伦.NLP和知识图谱技术在钢铁电商用户分类场景的应用[J].宝钢技术,2023(5):56-60.
3孙端正,高飞,叶周润,吴言安,张树峰,谢荣晖.改进PointNet++模型在道路杆状物提取中的应用[J].测绘通报,2023(11):95-99.
4冯易,王杜娟,胡知能,崔少泽.基于改进LightGBM集成模型的胃癌存活性预测方法[J].中国管理科学,2023,31(10):234-244. 被引量：3
5王晖,张慧.个性化商品推荐系统的混合推荐算法研究[J].科技资讯,2023,21(22):248-252. 被引量：1
6赖烨辉,黄慧英,彭绍婷,胡文玉.利用加权对数范数分解的矩阵填充算法[J].赣南师范大学学报,2023,44(6):112-119.
7陈迪,杜韬,周劲,仵匀政,王心耕.自适应多密度峰值子簇融合聚类算法[J].计算机工程与应用,2023,59(23):73-85.
8包晓娜,何黎黎,崔景安.基于机器学习的蛋白质编码区识别[J].生物信息学,2023,21(4):270-276.
9邱林山,房子荃,陈璐,张天明,李天义.面向异质信息网络的双通道协同聚类算法[J].计算机学报,2023,46(11):2416-2430.
10武月佳,周建涛.DL+:一种增强型双层知识图谱推理框架[J].计算机科学,2023,50(12):302-313. 被引量：1

计算机工程与应用

2023年第23期

浏览历史

内容加载中请稍等...

邻域信息修正的不完整数据多填充集成分类方法被引量：1

参考文献6

二级参考文献25

共引文献15

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

邻域信息修正的不完整数据多填充集成分类方法 被引量：1

参考文献6

二级参考文献25

共引文献15

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

邻域信息修正的不完整数据多填充集成分类方法被引量：1