缺失数据处理方法的比较研究被引量：13

A Comparison Study of Missing Value Datasets Processing Methods

下载PDF

导出

摘要由于数据挖掘技术日益广泛地应用于各个领域,而大多数领域中数据都存在缺失值,因此基于缺失数据的数据挖掘方法的研究具有重要意义.利用直接删除、特殊值填充、平均值填充、Robust方法4种处理缺失值的方法建立4个缺失值处理模型以及相应的朴素贝叶斯分类器模型.通过在5个实际数据集上进行实验比较,并采用五重交叉验证来检验这些模型的性能.结果表明,用这些模型处理缺失值构建的朴素贝叶斯分类器是有效的.

作者乔珠峰田凤占黄厚宽陈景年

机构地区北京交通大学计算机与信息技术学院

出处《计算机研究与发展》 EI CSCD 北大核心 2006年第z1期171-175,共5页 Journal of Computer Research and Development

基金国家自然科学基金项目(60503017)

关键词数据挖掘缺失值朴素贝叶斯分类器 ROBUST 交叉验证

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1[1]Marco Ramoni,Paola Sebastiani.Robust Bayes classifiers[J].Artificial Intelligence,2001,125(1-2):209-226
2[2]Sameer Agarwal.Learning from incomplete data[OL].http://www.cs.ucsd.edu/user/elkan/254springol/sagarwalrep.pdf,2006
3[3]Zoubin Ghahramani,Michael I Jordan.Learning from incomplete data[R].MIT Center for Biological and Computational Learning,Tech Rep:AIM-1509,1994
4[4]R J A Little,D B Rubin.Statistical Analysis with Missing Data[M].Wiley Series in Probability and Mathematical Statistics.New York:Wiley and Sons,1987
5[6]J W Grzymala-Busse,M Fu.A comparison of several approaches to missing attribute values in data mining[C].In:Proc of the 2nd Int'l Conf on Rough Sets and Current Trends in Computing.Berlin:Springer-Verlag,2000.378-385
6[7]David Heckerman.Bayesian networks for data mining[G].In:Data Mining and Knowledge Discovery.Berlin:Springer,1997.79-119
7[8]Nir Friedman,Dan Geiger,Moises Goldszmidt.Bayesian network classifiers[J].Machine Learning,1997,29(2-3):131-163

同被引文献122

1庞新生.缺失数据处理中相关问题的探讨[J].统计与信息论坛,2004,19(5):29-32. 被引量：20
2刘鹏,雷蕾,张雪凤.缺失数据处理方法的比较研究[J].计算机科学,2004,31(10):155-156. 被引量：24
3刘岳峰.地理信息服务概述[J].地理信息世界,2004,2(6):26-29. 被引量：46
4白虎志,董文杰,马振锋.青藏高原及邻近地区的气候特征[J].高原气象,2004,23(6):890-897. 被引量：42
5李序颖.基于空间自回归模型的缺失值插补方法[J].数理统计与管理,2005,24(3):45-50. 被引量：9
6曹建廷,秦大河,康尔泗,李原园.青藏高原外流区主要河流的径流变化[J].科学通报,2005,50(21):2403-2408. 被引量：27
7张敏.西藏林芝地区生态旅游资源基本特征与吸引向性评价[J].浙江林学院学报,2006,23(3):301-305. 被引量：5
8邵晓梅,许月卿,严昌荣.黄河流域降水序列变化的小波分析[J].北京大学学报（自然科学版）,2006,42(4):503-509. 被引量：224
9李建忠,郑来林,耿全如,孙志明,董翰,李泰兴.西藏波密—林芝环境地质灾害及防治[J].沉积与特提斯地质,2006,26(3):81-84. 被引量：4
10杨学兵,张俊.决策树算法及其核心技术[J].计算机技术与发展,2007,17(1):43-45. 被引量：88

引证文献13

1沐守宽,周伟.缺失数据处理的期望-极大化算法与马尔可夫蒙特卡洛方法[J].心理科学进展,2011,19(7):1083-1090. 被引量：16
2李建更,郭庆雷,贺益恒.时序基因表达缺失值的加权双向回归估计算法[J].数据采集与处理,2013,28(2):136-140. 被引量：4
3王帅,邢延,蔡延光,李格人.基于OpenShift的非均衡数据完整性评估[J].电脑编程技巧与维护,2014(2):36-38.
4罗军,张俊勇.树形算法在电信客户细分中的应用研究[J].计算机时代,2014(5):1-4.
5陈睿进,张聪,毛宇光.基于马氏距离和H-K聚类的空值估计研究[J].计算机光盘软件与应用,2014,17(20):86-88.
6史倩玉,梁吉业,赵兴旺.一种不完备混合数据集成聚类算法[J].计算机研究与发展,2016,53(9):1979-1989. 被引量：20
7张宜,谢娟英,李静,陈媛媛,贺瑞瑞,李燕.红斑鳞状皮肤病的聚类分析[J].济南大学学报（自然科学版）,2017,31(3):181-187. 被引量：4
8陈科,谢明霞,郭建忠.基于PageRank的地理信息服务质量数据缺失处理[J].测绘与空间地理信息,2018,41(9):12-15.
9张悟颖,孙维君,张玉伦.1960—2012年西藏林芝气温和降水变化[J].中国沙漠,2018,38(5):1086-1092. 被引量：11
10严凡,张霁月.基于图书语义信息的推荐方法研究[J].图书馆学研究,2018(21):40-45. 被引量：13

二级引证文献88

1何文鑫,徐玉霞,马凯,齐建锋,陈倩.内蒙古半湿润与半干旱过渡区气候干湿变化差异研究——以赤峰市与呼伦贝尔市对比为例[J].水资源与水工程学报,2020(5):110-119. 被引量：1
2吴兴惠,周玉萍,邢海花.利用随机森林算法对学生成绩评价与预测研究[J].电脑知识与技术,2020,0(4):254-255. 被引量：5
3周伟.心理学研究中缺失数据的分析方法[J].牡丹江大学学报,2012,21(4):30-32. 被引量：1
4方杰,张敏强.中介效应的点估计和区间估计:乘积分布法、非参数Bootstrap和MCMC法[J].心理学报,2012,44(10):1408-1420. 被引量：238
5方杰,邱皓政,张敏强,方路.我国近十年来心理学研究中HLM方法的应用述评[J].心理科学,2013,36(5):1194-1200. 被引量：14
6高峰,迟春梅.决策表中属性的重排[J].山东大学学报（工学版）,2013,43(5):6-12.
7张翔,丁勇,刘小峰.MF-DFA在癫痫发作期及发作强度检测中的应用[J].数据采集与处理,2013,28(5):664-671. 被引量：2
8唐文清,方杰,蒋香梅,张敏强.追踪研究方法在国内心理研究中的应用述评[J].心理发展与教育,2014,30(2):216-224. 被引量：25
9王孟成,叶浩生.计划缺失设计——通过有意缺失让研究更高效[J].心理科学进展,2014,22(6):1025-1035. 被引量：6
10徐久成,李涛,孙林,李玉惠.基于信噪比与邻域粗糙集的特征基因选择方法[J].数据采集与处理,2015,30(5):973-981. 被引量：13

1沈奇,王池社.生物缺失数据处理的贝叶斯模型研究[J].微电子学与计算机,2011,28(7):110-112. 被引量：2
2刘鹏,雷蕾,张雪凤.缺失数据处理方法的比较研究[J].计算机科学,2004,31(10):155-156. 被引量：24
3马捷,钟子发,史英春.基于不完整数据的异常信号检测方法[J].计算机工程,2011,37(14):88-90. 被引量：2
4宫义山,董晨.基于贝叶斯网络的缺失数据处理[J].沈阳工业大学学报,2010,32(1):79-83. 被引量：6
5范运灵.试探法解选择题的几种试探手段[J].数学通讯（教师阅读）,2009(4):38-39.
6李月婷,姜成旭.基于nRF51的智能计步器系统设计[J].微型机与应用,2016,35(21):91-93.
7徐永河.Guass函数的应用[J].科技信息,2007(31):272-272.
8许连虎,袁怡宝,朴伟英.小半圆直径的高精度测量方法及其应用[J].工具技术,2011,45(7):87-91. 被引量：1
9支馨悦.基于安卓手机的液晶屏数字识别系统的设计与实现[J].自动化与仪器仪表,2016(3):13-14. 被引量：4
10陈海洋,高晓光,郑景嵩.基于数据修补DDBNs的空中目标识别方法研究[J].系统仿真学报,2010,22(3):678-681. 被引量：2

计算机研究与发展

2006年第z1期

浏览历史

内容加载中请稍等...

缺失数据处理方法的比较研究被引量：13

参考文献7

同被引文献122

引证文献13

二级引证文献88

相关作者

相关机构

相关主题

浏览历史

缺失数据处理方法的比较研究 被引量：13

参考文献7

同被引文献122

引证文献13

二级引证文献88

相关作者

相关机构

相关主题

浏览历史

缺失数据处理方法的比较研究被引量：13