一种基于近邻规则的缺失数据填补方法被引量：15

A Missing Data Imputation Method Based on Neighbor Rules

下载PDF

导出

摘要数据缺失是数据挖掘与分析过程中的常见问题,若直接删除含缺失的事例可能导致不可靠的决策。为此,针对缺失数据的填补问题,提出一种基于近邻规则的缺失数据填补方法。根据关联规则的后件数据项进行分类,计算分类后的规则项与缺失项集间的相似度,用最相似的规则项值填补缺失值。实验结果表明,该方法具有较高的填补正确率。 Data missing is a common problem in data mining and data analysis process, it can lead to reliable decision-making if it is deleted with the cases directly. An imputation method of solving the missing data is put forward, which is based on association rule. In this method, the rules are classified by the rules＇ consequent, and then calculate the similarity of constrained rules cases＇ items and missing cases＇ items, impute the missing value with the most similar rule＇s item. Experimental results show this method has higher imputation accuracy.

作者王凤梅胡丽霞

机构地区湖南科技学院计算机与通信工程系

出处《计算机工程》 CAS CSCD 2012年第21期53-55,62,共4页 Computer Engineering

关键词关联规则缺失数据填补近邻规则相似度 K最近邻法 association rules missing data imputation neighbor rule similarity K-Nearest Neighbor（KNN） algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Song Qinbao, Shepperd M. A New Imputation Method for Small Software Project Data Sets[J]. Journal of Systems and Software, 2007, 80(1): 51-62.
2Setiawan N A, Venkatachalam P, Hani A F M. Missing Attribute Value Prediction Based on Artificial Neural Network and Rough Set Theory[C]//Proc. of BMEI'08. Sanya, China: [s. n.], 2008.
3Penny K I, Chesney T. Imputation Methods to Deal with Missing Values When Data Mining Trauma Injury Data[C]//Proc. of the 28th International Conference on Information Technology Interfaces. [S. I.]: IEEE Press, 2006.
4Vateekul P, Sarinnapakorn K. Tree-based Approach to Missing Data Imputation[C]//Proc. of IEEE International Conference on Data Mining Workshops. Miami, USA: IEEE Press, 2009.
5Twala B, Cartwright M. Ensemble Imputation Methods for Missing Software Engineering Data[C]//Proc. of the l lth IEEE International Symposium on Software Metrics. Como, Italy: IEEE Press, 2005.
6Garcia-Laecina P J, Sancho-Gomez J L. K Nearest Neighbors with Mutual Information for Simultaneous Classification and Missing Data Imputation[J]. Neurocomputing, 2009, 72(7-9): 1483-1493.
7Liao Zaifei, Lu Xinjie, Yang Tian, et al. Missing Data Imputation: A Fuzzy K-means Clustering Algorithm over Sliding Window[C]//Proc. of the 6th International Conference on Fuzzy Systems and Knowledge Discovery. [S. 1.]: IEEE Computer Society, 2009: 133-138.
8Wu Jianhua, Song Qinbao, Shen Junyi. An Novel Association Rule Mining Based Missing Nominal Data Imputation Method[C]//Proc. of the 8th ACIS International Conference on Software Engineering, Artificial Intelligence, Networking, and Parallel/Distributed Computing. [S. 1.]: IEEE Press, 2007: 244-249.
9UCI Machine Learning Repository[EB/OL]. (2010-08-11). http:// archive.ics.uci.edu/ml/datasets.html.

同被引文献109

1林印华,张春海,刘洁.基于清洗规则和主数据的数据修复算法实现[J].计算机科学,2012,39(S3):174-176. 被引量：5
2金连,王宏志,黄沈滨,高宏.基于Map-Reduce的大数据缺失值填充算法[J].计算机研究与发展,2013,50(S1):312-321. 被引量：18
3赵飞,刘奇志,张剡,柏文阳.一种大域数据流中缺失值的填充方法[J].南京大学学报（自然科学版）,2011,47(1):32-39. 被引量：4
4杨涛,骆嘉伟,王艳,吴君浩.基于马氏距离的缺失值填充算法[J].计算机应用,2005,25(12):2868-2871. 被引量：24
5张国英,沙芸,江慧娜.基于粒子群优化的快速KNN分类算法[J].山东大学学报（理学版）,2006,41(3):120-123. 被引量：8
6陈景年,黄厚宽,田凤占,乔珠峰.一种基于不完整数据的朴素贝叶斯分类器[J].计算机工程,2006,32(17):86-88. 被引量：4
7刘星毅,农国才.几种不同缺失值填充方法的比较[J].南宁师范高等专科学校学报,2007,24(3):148-150. 被引量：8
8PIGOTTA T D. A review of methods for missing data[J]. Educational Research and Evaluation,2001,7(4) :353-383.
9GRZYMALA-BUSSE J W. Rough set strategies to data with missing attribute values [C]//Workshop Notes, Foundationsand New Directions of Data Mining, the 3rd International Conference on Data Mining, Melbourne, Florida, 2003.
10HATHAWAY R J,BEZDEK J C. Fuzzy c-means clustering of incomplete data[j]. IEEE Transaction on systems,Man andCybemetics-part B :Cybernetics,2001,31(5) :735-744.

引证文献15

1王震,张海清,彭莉,汪杰,游凤,李代伟,唐聃.基于奇异值分解的医疗数据信息提取及分类方法[J].成都信息工程大学学报,2020,35(5):537-541. 被引量：1
2程开富,刘心莲.HWLPCVD多晶硅薄膜的制备及性能分析[J].四川真空,2000(1):23-23.
3束建华,李飞凤,方刚.基于模糊决策的不完整数据分类算法[J].淮北师范大学学报（自然科学版）,2015,36(2):12-20.
4伊卫国,冯向营.不完备数据集的关联分析填补方法及应用[J].大连交通大学学报,2015,36(6):99-101. 被引量：1
5韩飞,沈镇林.基于不完备集双聚类的缺失数据填补算法[J].计算机工程,2016,42(4):20-26. 被引量：12
6沈斌,赵淑玉.编辑距离的数控机床故障诊断案例推理方法[J].中国工程机械学报,2017,15(4):359-364. 被引量：7
7杨杰,杨虎,王鲁滨,金鑫,郭华,于亮亮.高维相关性缺失数据的分块填补算法研究[J].计算机科学与探索,2017,11(10):1557-1569. 被引量：6
8陈静杰,车洁.基于FGM(1,1)的航段油耗预测模型[J].计算机工程与设计,2018,39(2):522-526. 被引量：6
9游凤,李代伟,张海清,汪杰,彭莉,王震.基于归一化KNNI的随机森林填补算法[J].成都信息工程大学学报,2021,36(1):32-40. 被引量：2
10马帜,罗尧治,万华平,YUN C B,沈雁彬,俞峰.基于概率主成分分析的结构健康监测数据修复方法研究[J].振动与冲击,2021,40(21):135-141. 被引量：8

二级引证文献57

1舒服华.新型灰色马尔科夫模型预测商业银行资本充足率[J].西部金融,2023(2):29-35.
2庞晓霞.基于BP优化DBN算法的机床传动主轴故障识别[J].工程机械文摘,2024(1):27-30.
3于宏.倍他乐克治疗左室舒张功能障碍性心力衰竭疗效观察[J].天津医科大学学报,2000,6(1):116-117. 被引量：2
4路玫,曹大明,王宪龄,赵喜新.穴贴扶正升白膏对化疗小鼠造血及免疫系统的实验研究[J].河南中医,2000,20(3):17-19. 被引量：2
5袁浩.网络教学资源利用率优化管理仿真研究[J].计算机仿真,2017,34(10):221-224. 被引量：8
6张朋.大数据中用户所需信息资源检测仿真[J].计算机仿真,2017,34(11):422-425. 被引量：1
7梁剑波,梁丽香.大数据环境下特征数据优化提取仿真[J].计算机仿真,2017,34(12):345-348. 被引量：4
8唐博.动态网络模糊域数据缺陷实时修正方法仿真[J].计算机仿真,2018,35(4):266-269. 被引量：2
9张辉.混合式网络丢失数据包恢复方法仿真研究[J].计算机仿真,2018,35(5):199-202. 被引量：4
10李彦,刘军.面向大数据的多维数据缺失特征填补仿真研究[J].计算机仿真,2018,35(10):432-435. 被引量：11

1胡军华,陈晓红,刘咏梅.基于粗糙集的查询与规则不精确匹配近邻算法[J].计算机工程与应用,2006,42(21):175-177.
2翟俊海,李胜杰,王熙照.基于粗糙集技术的压缩近邻规则[J].计算机科学,2012,39(2):236-239. 被引量：1
3张立.企业管理系统中数据存储的可靠性探究[J].信息与电脑（理论版）,2010(1):20-22.
4刘钦创,郭庚麒.模式分类中的非参数技术方法研究[J].重庆科技学院学报（自然科学版）,2010,12(4):161-164.
5贺群,程格,安军辉,戴光明,彭雷.基于Pareto的多目标克隆进化算法[J].计算机科学,2012,39(B06):489-492. 被引量：2
6翟俊海,苗青,李塔,王熙照.概率神经网络样例选择算法[J].小型微型计算机系统,2015,36(4):787-791. 被引量：2
7张亚萍,陈得宝,侯俊钦,杨一军.朴素贝叶斯分类算法的改进及应用[J].计算机工程与应用,2011,47(15):134-137. 被引量：19
8邵晓晨,宋蕊.CSRimpute算法填补效果的正则化参数灵敏度分析[J].中国管理信息化,2016,19(23):159-162.
9焦洪赞,钟燕飞,张良培,李平湘.高光谱遥感数据的DNA计算分类[J].遥感学报,2010,14(5):865-878. 被引量：4
10张凤琴,张水平,白钢,严晓梅,张月玲.基于粗糙集的装备故障诊断系统的算法研究[J].空军工程大学学报（自然科学版）,2010,11(6):47-51.

计算机工程

2012年第21期

浏览历史

内容加载中请稍等...

一种基于近邻规则的缺失数据填补方法被引量：15

参考文献9

同被引文献109

引证文献15

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

一种基于近邻规则的缺失数据填补方法 被引量：15

参考文献9

同被引文献109

引证文献15

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

一种基于近邻规则的缺失数据填补方法被引量：15