缺失值填充:基于信息增益的方法被引量：8

Missing data imputation:Information gain based on approach

下载PDF

导出

摘要在数据挖掘以及机器学习等领域,都需要涉及一个数据预处理过程,以消除数据中所包含的错误、噪声、不一致数据或缺失值。其中,缺失值的填充是一个非常具有挑战性的任务,因为填充效果的好坏会极大的影响学习算法及挖掘算法的后续处理过程。目前已有的一些填充算法,如基于粗糙集的和基于最近邻法的算法等,在一定程度上能够处理缺失值问题。与以上方法不同,提出了一种扩展的基于信息增益的缺失值填充算法,它充分利用数据集中各属性之间隐含的关系对缺失的数据进行填充。大量的实验表明,提出的扩展的基于信息增益的缺失值填充算法是有效的。 In the data mining or machine learning field, a data preprocessing procedure is often needed to eliminate errors, noises, inconsistent data or missing data that are contained in the dataset. Among them, the missing data filling is a very challenging task, because the filling results greatly affect the following procedures of the learning or mining algorithms. While some existing filling algorithms, such as rough set based and nearest neighbor based algorithms etc, can deal with the missing data problem to some extent. Different from these methods, an extended information gain （IG） based on algorithm is proposed for dealing with missing data, which fully utilizes the underlying relationships between attributes of the dataset. Extensive experiments show that the proposed algorithm is efficient.

作者张红霞

机构地区桂林航天工业高等专科学校计算机系

出处《计算机工程与设计》 CSCD 北大核心 2006年第24期4810-4812,共3页 Computer Engineering and Design

关键词机器学习缺失值填充信息增益分类准确率 machine learning missing data imputation, information gain classification accuracy

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1Cios K,Kurgan L.Trends in data mining and knowledge discovery[C].Knowledge Discovery in Advanced Information Systems,2002.
2Brown M L,Kros J F.Data mining and the impact of missing data[J].Industrial Management and Data Systems,2003,103 (8):611-621.
3Zhang C,Yang Q,Liu B.Intelligent data preparation[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(9):1163-1165.
4Marco Ramoni.Learning Bayesian networks from incomplete databases[EB/OL].Technical report kmi-97-6,Knowledge Media Institute,The Open University,1997.http://kmi.open.ac.uk/publications/index.cfm? trnumber=kmi-97-6.
5Ghahramani Z,Jordan M I.Mixture models for learning from incomplete data[C].Cambridge,MA:Computational Learning Theory and Natural Learning Systems,Volume Ⅳ:Making Learning Systems Practical,The MIT Press,1997.67-85.
6韩家炜,坎伯.数据挖掘:概念与技术[M].北京:机械工业出版社,2000.
7Chmielewski M R,Grzymala-Busse J W,Peterson N W,et al.The rule induction system LERS-a version for personal computers[J].Found Computer Decision Science,1993,18(3/4):181-212.
8王清毅,蔡智,邹翔,蔡庆生.部分数据缺失环境下的知识发现方法[J].软件学报,2001,12(10):1516-1524. 被引量：18
9Quinlan J R.C4.5:Programs for machine learning[M].San Mate,CA:Morgan Kaufmann Publishers Inc,1993.
10邹志文,朱金伟.数据挖掘算法研究与综述[J].计算机工程与设计,2005,26(9):2304-2307. 被引量：52

二级参考文献28

1毛国君.数据挖掘的概念、系统结构和方法[J].计算机工程与设计,2002,23(8):13-17. 被引量：28
2Ragel A，Research and Development in Knowledge Discovery and Data Mining，1998年，258页
3Zhang T，Technical Report，1995年
4孙文爽，多元统计分析，1994年
5Gehrke J, Ramakrishnan R, Ganti V. Rainforest a framework for fast decision tree construction of large datasets[A]. In VLDB[C].1998.
6Friedman N, Geiger D, Goldszmidt M. Bayesian network classifier [J]. Machine L earning, 1997, 29(1): 131-163.
7Liu B, Hsu W, Ma Y. Integrating classification and association rule mining[A]. Proc of the 4th int confon knowle-dge discovery and dataMining[C]. NY, USA:AAAIPress, 1998.80-86.
8WANG M, Iyer B, Vitter J S. Scalable mining for classification rules in relational databases[A]. Eaglestone B, DesaiBC, SHAO Jianhua. Proc of the 1998 Int database eng and appl symp[C].Cardiff, Wales, UK:IEEEComputer Society, 1998.58-67.
9MacQueen J. Some methods for classification and analysis of multivariate observations[A].Proc 5th berkeley symp.math statist[C]. Prob, 1967-01.
10Kaufman L, Rousseeuw P J. Finding groups in data: an introduction to cluster analysis[M]. John Wiley and Sons, 1990.

共引文献98

1李默.基于Web的数据挖掘技术在数字图书馆中的应用[J].大学图书情报学刊,2007,25(4):44-46. 被引量：13
2谢川,倪世宏,张宗麟.基于支持向量机的缺失飞行参数预测方法[J].弹箭与制导学报,2004,24(S2):350-352. 被引量：1
3陈晓杰,许振华,张娅锋.数据挖掘在烟草物流综合管理系统中的应用[J].硅谷,2009,2(1):98-99. 被引量：3
4冯雪梅,卢来洁,马爱军,刘洪英.应用数据挖掘关联技术研究温湿度对冲击谱试验的影响[J].航天器环境工程,2007,24(2):109-112.
5谢川,倪世宏,张宗麟.一种缺失飞行参数预处理的新方法[J].计算机仿真,2005,22(4):27-31. 被引量：9
6黄兰.数据挖掘技术在图书馆工作中的应用[J].图书馆学研究,2005(7):15-17. 被引量：27
7张健,冯建华.数据预处理在保险理赔预测中的应用[J].计算机工程与设计,2005,26(9):2537-2539. 被引量：5
8魏刚.基层银行反洗钱工作存在的问题及建议[J].理论观察,2005(5):163-164. 被引量：3
9彭曙蓉,王耀南,杨文忠.基于马尔可夫链的Web访问序列挖掘算法[J].计算机工程与设计,2006,27(2):332-334. 被引量：4
10印鉴,周祥福,杨敏.不完整数据库中的数据挖掘[J].计算机工程,2006,32(12):34-36. 被引量：3

同被引文献76

1唐四平,黄文杰,李娜.大数据时代,电力营销何以应之?[J].湖北电力,2013,37(5). 被引量：4
2刘鹏,雷蕾,张雪凤.缺失数据处理方法的比较研究[J].计算机科学,2004,31(10):155-156. 被引量：24
3李初福,陈丙珍,何小荣,邱彤,胡山鹰.用于含过失误差数据稳态检测的改进滤波法[J].清华大学学报（自然科学版）,2004,44(9):1160-1162. 被引量：12
4茅群霞,李晓松.多重填补法与Ad Hoc法对模拟纵向数据集缺失值处理的比较[J].现代预防医学,2005,32(4):310-312. 被引量：5
5赵恒平,俞金寿.化工数据预处理及其在建模中的应用[J].华东理工大学学报（自然科学版）,2005,31(2):223-226. 被引量：17
6谢宏,程浩忠,牛东晓.基于信息熵的粗糙集连续属性离散化算法[J].计算机学报,2005,28(9):1570-1574. 被引量：134
7徐洪波,程辉,柳健,田金文.基于支持向量机的散乱数据拟合[J].计算机工程与应用,2005,41(28):84-87. 被引量：5
8杨涛,骆嘉伟,王艳,吴君浩.基于马氏距离的缺失值填充算法[J].计算机应用,2005,25(12):2868-2871. 被引量：24
9蔡冬松,靖继鹏.基于最小二乘支持向量机的数据挖掘应用研究[J].情报科学,2005,23(12):1877-1880. 被引量：7
10沈晨鸣.决策树分类算法研究[J].盐城工学院学报（自然科学版）,2005,18(4):22-24. 被引量：8

引证文献8

1郭超,陆新建.工业过程数据中缺失值处理方法的研究[J].计算机工程与设计,2010,31(6):1351-1354. 被引量：13
2许磊,张凤鸣.缺失飞参数据填补的组合方法研究[J].计算机工程与应用,2010,46(21):210-212. 被引量：6
3陈炎,杨小健,李荣雨.基于交叉相关性的流程工业时滞性研究[J].计算机工程与设计,2010,31(18):4120-4123. 被引量：2
4王泽,程恺,董坤,王家腾.基于动态窗口的灰色加权填充算法及应用[J].指挥控制与仿真,2016,38(2):43-47. 被引量：1
5赵少东,王春燕.电力系统的计量缺失数据智能修复研究与应用[J].科技创新导报,2018,15(18):96-98. 被引量：1
6李虹利,蒙祖强.运用信息增益和不一致度进行填补的属性约简算法[J].计算机科学,2018,45(10):217-224. 被引量：3
7王扬.基于Weka的小学生成绩挖掘分析[J].科学与信息化,2018,0(2):130-130.
8彭新亮,程力,王轶,马博,赵凡,周喜.基于真值发现的加油站车辆号牌缺损数据填充方法[J].计算机应用与软件,2019,36(8):41-46.

二级引证文献26

1张泰峰,杨晓华,柴志起,郑有区.飞机单机寿命监控中瞬时油量的确定方法研究[J].装备环境工程,2013,10(3):8-11. 被引量：2
2冯大春,鲁红.数据驱动技术在石化工业运行中的应用[J].石油化工自动化,2010,46(6):28-35. 被引量：1
3王伟岩,马野,邱楚楚.基于RBF神经网络与LS-SVM方法的无人机飞行数据预处理方法[J].舰船科学技术,2011,33(11):112-116.
4唐小强.缺失值文献综述[J].现代商贸工业,2012,24(23):224-224.
5杨轲,张晓丰,赵录峰,李正欣.基于LSSVM的缺失飞行数据组合填补方法[J].火力与指挥控制,2013,38(1):84-86. 被引量：2
6刘红霞,李耕.基于三层架构的流程模拟系统的设计与应用[J].自动化与仪表,2014,29(6):5-8. 被引量：1
7王奔驰,杜军,丁超,吴祯涛,张帅.基于AHP-TOPSIS法的飞机起飞阶段飞行品质评价[J].飞行力学,2019,37(1):80-84. 被引量：7
8贾俊萍.流行病学研究中的数据缺失及处理方法[J].中国科技博览,2015,0(7):358-359.
9李珊,俞瑛,胡康华,宋波,姚叶慧.基于制造云服务QoS序列特性的缺失值估计算法[J].计算机集成制造系统,2016,22(12):2930-2936. 被引量：2
10王世林,牛玉广,韩璞,潘岩.RSCNMF算法在工业过程故障检测中的应用[J].计算机仿真,2017,34(8):386-390. 被引量：2

1覃泽.基于信息增益的数据库缺失值填充算法[J].微计算机信息,2007,23(04X):180-181. 被引量：4
2刘星毅,农国才.几种不同缺失值填充方法的比较[J].南宁师范高等专科学校学报,2007,24(3):148-150. 被引量：8
3苏毅娟,孙可,邓振云,尹科军.基于LPP和l_(2,1)的KNN填充算法[J].广西师范大学学报（自然科学版）,2015,33(4):55-62.
4金连,王宏志,黄沈滨,高宏.基于Map-Reduce的大数据缺失值填充算法[J].计算机研究与发展,2013,50(S1):312-321. 被引量：18
5朱曼龙.MkNNI:基于相互最近邻的缺失值填充新方法[J].现代计算机,2012,18(21):8-11. 被引量：3
6徐宇明,陈诚,熊赟,朱扬勇.APT-KNN:一种面向分类问题的高效缺失值填充算法[J].计算机应用与软件,2011,28(4):135-139. 被引量：10
7苏毅娟,程德波,宗鸣,李凌,朱永华.稀疏编码的最近邻填充算法[J].计算机应用研究,2015,32(7):1942-1945. 被引量：2
8赵亮,陈志奎,张清辰.基于分布式减法聚类的不完整数据填充算法[J].小型微型计算机系统,2015,36(7):1409-1414. 被引量：10
9卢棪,刘应安.基于缺失值迭代预测填充的协同过滤推荐算法[J].计算机与数字工程,2016(6):992-996. 被引量：4
10刘莹,景波,黄兵.基于回收技术的关联规则研究[J].计算机工程,2008,34(13):56-57.

计算机工程与设计

2006年第24期

浏览历史

内容加载中请稍等...

缺失值填充:基于信息增益的方法被引量：8

参考文献11

二级参考文献28

共引文献98

同被引文献76

引证文献8

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

缺失值填充:基于信息增益的方法 被引量：8

参考文献11

二级参考文献28

共引文献98

同被引文献76

引证文献8

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

缺失值填充:基于信息增益的方法被引量：8