APT-KNN:一种面向分类问题的高效缺失值填充算法被引量：10

APT-KNN:AN EFFICIENT MISSING VALUE IMPUTATION METHOD ORIENTED TOWARD CLASSIFICATION ISSUE

下载PDF

导出

摘要分类是一种常见的数据挖掘方法,而属性值缺失是分类过程中常见的一类数据质量问题,缺失值填充可以减少属性值缺失造成的分类错误。缺失值填充首先要求准确率高,在许多实际应用当中,缺失值填充还必须保证较高的计算效率。提出了一种填充缺失属性值算法APT-KNN,APT-KNN算法利用属性与属性之间的相互关系,根据与目标最相似的几个实例属性值来估计缺失值,以保证填充结果具有更高的准确性,同时设计了一种优化的AntiPole树索引结构,提高了缺失属性值的填充效率。实验表明,APT-KNN方法与现有的几种缺失属性填充方法相比,具有更高的准确率和填充效率。 Classification is one of the common data mining methods.However,one common data quality problem in classification process is attribute value missing,and missing data imputation can reduce the effect on the classification errors caused by the attribute value missing.Missing data imputation requires high accuracy first,and it shall ensure higher computation efficiency in many practical applications as well.In this paper,we present a new imputation method for missed attribute value – APT-KNN,it makes use of the relations among the attributes and estimates the missing value according to a couple of instance attribute values which are most similar to the object,so as to guarantee higher accuracy of the imputed results.At the same time,an optimised AntiPole-Tree index structure is designed,which improves the efficiency of missed attribute values imputation.Experiments show that APT-KNN outperforms several current methods of missed attribute imputation on efficiency and accuracy.

作者徐宇明陈诚熊赟朱扬勇

机构地区复旦大学计算机科学技术学院

出处《计算机应用与软件》 CSCD 2011年第4期135-139,共5页 Computer Applications and Software

基金上海市科委重点科技攻关课题(08511500203)

关键词分类缺失值填充索引数据挖掘数据准备 Classification Missing value imputation Index Data mining Data preparation

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1Pang Ning Tan,Michael Steinbach,Vipin Kumar.数据挖掘导论[M].北京:人民邮电出版社,2006.
2Chan T M. Approximating the diameter, width, smallest enclosing cylinder, andminimum-width annulus[ J ]. International Journal of Computational Geometry and Applications ,2002,12, ( 1 - 2 ) :67 - 85.
3Cantone D, Ferro A, Pulvirenti A, et al. Antipole tree indexing to support range search and k-nearest neighbor search in metric spaces [ J ]. IEEE Transactions on Knowledge and Data Engineering ,2005,17 (4) : 535-550.
4Mehala B, Vivekanandan K, Ranjit Jeba Thangaiah P. An analysis on kmeans Algorithm as in imputation method to deal with missing values [ J ]. Asian Journal of Information Technology,2008,7 (9) :434 - 441.
5Blake C, Merz C. (1998)Repository of machine learning database. Itvine, CA : university of California, Department of Information and Computer Science. http://www, ics. uci. edu/- mlearn/MLRepository, html.
6Gustavo E A P A Batista, Maira C Monard. An analysis of four missing data treatment methods for supervised learning [ J ]. Applied Artificial Intelligence, 2003,17 ( 5 ) :519 - 533.
7殷杰,石锐.SAS中处理数据集缺失值方法的对比研究[J].计算机应用,2007,27(B06):438-439. 被引量：8
8Alsuwaiyel M H. Algorithm design techniques and analysis[ J]. Lecture Notes Series on Computing, 1998 (7) :374- 376.

二级参考文献4

1茅群霞,李晓松.多重填补法Markov Chain Monte Carlo模型在有缺失值的妇幼卫生纵向数据中的应用[J].四川大学学报（医学版）,2005,36(3):422-425. 被引量：7
2GIARDINA M,HUO Y,AZUAJE F,et al.A Missing Data Estimation Analysis in Type Ⅱ Diabetes Databases[A].Proceedings of the 18th IEEE Symposium on Computer-Based Medical Systems[C].2005.
3BARZI F,WOODWARD M.Imputation of Missing Values in Practice:Results from Imputations of Serum Cholesterol in 28 Cohort Studies[J].American Journal of Epidemiology,2004,160 (1):34-351.
4ARNOLD AM,KRONMAL RA.Multiple Imputation of Baseline Data in the Cardiovascular Health Study[J].American Journal of Epidemiology,2003,157 (1):74-841.

共引文献7

1黄瑶,胡芳,陈健超.中医药项目拉普拉斯特征映射综合评估[J].社区医学杂志,2020,0(5):375-380.
2董艳.数据预处理方法在移动通信行业中的应用[J].计算机技术与发展,2010,20(11):225-228. 被引量：4
3花琳琳,施念,杨永利,赵天仪,施学忠.不同缺失值处理方法对随机缺失数据处理效果的比较[J].郑州大学学报（医学版）,2012,47(3):315-318. 被引量：22
4王曼,施念,花琳琳,杨永利.成组删除法和多重填补法对随机缺失的二分类变量资料处理效果的比较[J].郑州大学学报（医学版）,2012,47(5):642-645. 被引量：5
5甘蕾,周脚根,石锦,李希,沈健林,吕殿青,李裕元,吴金水.点源时间序列数据缺失值的估值方法比较——以小流域气象和水文数据为例[J].中国农业气象,2018,39(3):195-204. 被引量：5
6赵艳红,姜汉桥,李洪奇,刘洪涛,韩大伟,王英男,刘灿超.基于机器学习的单井套损预测方法[J].中国石油大学学报（自然科学版）,2020,44(4):57-67. 被引量：7
7刘鹤鹏,李登华,丁勇.融合多测点数据相关性的大坝监测历史数据填补[J].人民长江,2023,54(9):245-251.

同被引文献96

1金连,王宏志,黄沈滨,高宏.基于Map-Reduce的大数据缺失值填充算法[J].计算机研究与发展,2013,50(S1):312-321. 被引量：18
2武建虎,贺佳,贺宪民,程红岩.多变量缺失数据的不同处理方法及分析结果比较[J].第二军医大学学报,2004,25(9):1013-1016. 被引量：17
3刘鹏,雷蕾,张雪凤.缺失数据处理方法的比较研究[J].计算机科学,2004,31(10):155-156. 被引量：24
4赵飞,刘奇志,张剡,柏文阳.一种大域数据流中缺失值的填充方法[J].南京大学学报（自然科学版）,2011,47(1):32-39. 被引量：4
5杨涛,骆嘉伟,王艳,吴君浩.基于马氏距离的缺失值填充算法[J].计算机应用,2005,25(12):2868-2871. 被引量：24
6Allison P D.Missing Data[M].Thousand Oaks:Sage Publications,2001.
7Luengo J,Saez J A,Herrera F.Missing data imputation for fuzzy rule-based classification systems[J].Soft Computing,2012,16(5):863-881.
8Rubin D B.Inference and missing data[J].Biometrika,1976,63(3):581-592.
9Little R,Rubin D.Statistical Analysis with Missing Data[M].New York:Wiley,1987.
10Chen Jing-nian,Xu Li.A hybrid selective classifier for categorizing incomplete data[C]//Proceedings of the 6th International Conference on Fuzzy Systems and Knowledge Discovery.2009,1:31-34.

引证文献10

1闫立强,雷磊,王保荣,李文超,王杰平,谢全安.基于煤质综合指标的焦炭质量预测[J].洁净煤技术,2021,27(S02):175-180.
2吕靖,舒礼莲.基于AdaBoost的不完整数据的信息熵分类算法[J].计算机与现代化,2013(9):31-34. 被引量：3
3赵姝,吕靖,张燕平,张以文.不完整数据集的信息熵集成分类算法[J].模式识别与人工智能,2014,27(3):193-198. 被引量：6
4田进华,孙利.数据挖掘中一种容错的子空间聚类算法[J].计算机工程,2016,42(2):210-217. 被引量：3
5潘主强,张林,颜仕星,李国正,张磊.中医睡眠情绪类疾病不均衡数据的分类研究[J].济南大学学报（自然科学版）,2017,31(1):55-60. 被引量：3
6王彦,张华.面向不完备症状信息的肝硬化证候辨识知识获取方法[J].信息与电脑,2016,28(23):115-117.
7戴超凡,李沛,王文倩.最大依赖集在不一致数据检测中的应用[J].计算机工程与应用,2019,55(15):89-95.
8陈舒扬,王波.MN-LKNNI:融合互近邻降噪的局部动态K近邻插补算法[J].软件导刊,2021,20(11):95-99. 被引量：1
9王啸飞,鲍胜利,陈炯环.基于潜在因子模型在子空间上的缺失值注意力聚类算法[J].计算机应用,2023,43(12):3772-3778.
10李董,迟家俊,相博,王梅.基于SMOTE和KNN的石油数据缺失填充算法[J].数学的实践与认识,2019,49(17):187-195. 被引量：7

二级引证文献22

1李丽红,董红瑶,刘文杰,李宝霖,代琪.不完备数据集的邻域容差互信息选择集成分类算法[J].南京大学学报（自然科学版）,2024,60(1):106-117.
2令狐新荣.多媒体网络负面信息分类方法研究与仿真[J].计算机仿真,2016,33(8):260-263. 被引量：3
3孙海蓉,王蕊,耿军亚.基于信息熵的BP网络在热工系统建模中的应用[J].系统仿真学报,2017,29(1):226-233. 被引量：9
4潘主强,张林,张磊,李国正,颜仕星.中医临床不均衡数据疾病分类方法研究[J].智能系统学报,2017,12(6):848-856. 被引量：3
5杜晔,张田甜,黎妹红.基于信息密度贝叶斯算法的云平台入侵检测[J].系统仿真学报,2018,30(2):714-721. 被引量：8
6徐新爱.非平衡光纤传感数据集类间数据重合的识别与分离算法[J].激光杂志,2018,39(11):120-125.
7梁燕红.属性受限状态下低维冗余聚类数据快速挖掘方法[J].科学技术与工程,2018,18(9):107-111. 被引量：1
8王景文,李伟,李永彬.基于KNN的中医胃疼病患者分类研究[J].电脑与信息技术,2019,27(5):40-43. 被引量：1
9赵俊杰,黄四牛,吴正午,王帅.基于聚类分析的不均衡数据标注技术研究[J].计算机仿真,2020,37(2):476-480. 被引量：3
10罗有志,陈征明,陈明,梅文涛.一种基于自适应关联熵的关键字提取算法[J].计算机与现代化,2020,0(4):67-71. 被引量：1

1刘星毅,农国才.几种不同缺失值填充方法的比较[J].南宁师范高等专科学校学报,2007,24(3):148-150. 被引量：8
2张红霞.缺失值填充:基于信息增益的方法[J].计算机工程与设计,2006,27(24):4810-4812. 被引量：8
3覃泽.基于信息增益的数据库缺失值填充算法[J].微计算机信息,2007,23(04X):180-181. 被引量：4
4苏毅娟,孙可,邓振云,尹科军.基于LPP和l_(2,1)的KNN填充算法[J].广西师范大学学报（自然科学版）,2015,33(4):55-62.
5金连,王宏志,黄沈滨,高宏.基于Map-Reduce的大数据缺失值填充算法[J].计算机研究与发展,2013,50(S1):312-321. 被引量：18
6朱曼龙.MkNNI:基于相互最近邻的缺失值填充新方法[J].现代计算机,2012,18(21):8-11. 被引量：3
7王洪春.缺失数据的主曲线恢复方法[J].微电子学与计算机,2008,25(11):160-161. 被引量：1
8赵亮,陈志奎,张清辰.基于分布式减法聚类的不完整数据填充算法[J].小型微型计算机系统,2015,36(7):1409-1414. 被引量：10
9王添,姜麟,米允龙.海量数据下不完备信息系统的知识约简算法[J].计算机技术与发展,2015,25(1):137-142. 被引量：2
10祁瑞华,杨德礼,李慧芬.两阶段半监督加权朴素信念分类模型[J].运筹与管理,2011,20(5):156-161.

计算机应用与软件

2011年第4期

浏览历史

内容加载中请稍等...

APT-KNN:一种面向分类问题的高效缺失值填充算法被引量：10

参考文献8

二级参考文献4

共引文献7

同被引文献96

引证文献10

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

APT-KNN:一种面向分类问题的高效缺失值填充算法 被引量：10

参考文献8

二级参考文献4

共引文献7

同被引文献96

引证文献10

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

APT-KNN:一种面向分类问题的高效缺失值填充算法被引量：10