一种基于Epanechnikov二次核的成分数据缺失值填补法被引量：1

An Imputation Method for Missing Data in Compositional Based on Epanechnikov Kernel

下载PDF

导出

摘要核函数方法已经被成功的用于各种函数的估计.本文利用核函数的思想,针对缺失数据造成现有的成分数据统计方法失效和k近邻填补法(KNNI)在利用缺失数据的k个近邻估计缺失数据时没有考虑到它们各自不同的贡献,提出了一种基于Epanechnikov二次核的成分数据缺失值填补法(EKI)和对其进行修正后的Epanechnikov核成分数据缺失值填补法(MEKI).实验结果表明,基于修正的Epanechnikov二次核的成分数据缺失值填补法比k近邻填补法能够得到更为准确的估计. Kernel function method has been successfully used for the estimation of a variety of function. By using the kernel function theory, an imputation method based on Epanechnikov kernel and its modification were proposed to solve the problem that missing data in compositional caused the failures of existing statistical methods and the k-nearest imputation didn＇t consider the different contributions of the k nearest samples when it used them to estimated the missing data. The experimental results illustrate that the modified imputation method based on Epanechnikov kernel get a more accurate estimation than k-nearest imputation for compositional data.

作者张晓琴康菊荆文君

机构地区山西大学数学科学学院

出处《应用概率统计》 CSCD 北大核心 2014年第6期598-606,共9页 Chinese Journal of Applied Probability and Statistics

基金国家自然科学基金重点项目(71031006) 国家自然科学基金项目(81173366)资助国家青年基金项目(41101440) 山西省教育厅专项项目(20120301)

关键词成分数据缺失值填补 k近邻填补法 Epanechikov二次核 Aitchison距离 Compositional data, imputation for missing data, k-nearest imputation, Epanechnikovkernel, Aitchison distance.

分类号 O212.1 [理学—概率论与数理统计]

引文网络
相关文献

参考文献11

1Ferrers, N.M., An Elementary Treatise on Trilinear Coordinates, London: Macmillan, 1866.
2Aitchison, J., The Statistical Analysis of Compositional Data, London: Chapman and Hall, 1986.
3Egozcue, J.J., Pawlowsky-Glahn, V., Mateu-Figueras, G. and BarcelS-Vidal, C., Isometric logratio transformations for compositional data analysis, Mathematical Geology, 35(3)(2003), 279-300.
4刘鹏,雷蕾,张雪凤.缺失数据处理方法的比较研究[J].计算机科学,2004,31(10):155-156. 被引量：24
5Hron, K., Templ, M. and Filzmoser, P., Imputation of missing values for compositional data using classical and robust methods, Computational Statistics and Data Analysis, 54(12)(2010), 3095-3107.
6孙志猛,张忠占,杜江.缺失数据下半参数单调回归模型的估计[J].数理统计与管理,2011,30(6):979-988. 被引量：5
7Qin, Y.S., Zhang, S.C., Zhu, X.F., Zhang, J.L. and Zhang, C.Q., Semi-parametric optimization for missing data imputation, Applied Intelligence, 27(1)(2007), 79-88.
8范明,柴玉梅,昝红英等译.统计学习基础-数据挖掘,推理与预测,北京:电子工业出版社,2004.
9何亮,宋擒豹,沈钧毅,海振.一种新的组合k-近邻预测方法[J].西安交通大学学报,2009,43(4):5-9. 被引量：4
10Aitchison, J., A concise guide to compositional data analysis, in Compositional Data Analysis Work- shop, Girona, 2003.

二级参考文献34

1杨立,左春,王裕国.基于语义距离的K-最近邻分类方法[J].软件学报,2005,16(12):2054-2062. 被引量：31
2HAN E H, KARYPIS G, KUMAR V. Text categorization using weight adjusted k-nearest neighbor clas sification[C]// Proceedings of the 5th Pacific Asia Conference on Knowledge Discovery and Data Mining. Berlin, Germany: Springer-Verlag, 2001..53-65.
3YAMADA T, YAMASHITA K, ISHII N, et al. Text classification by combining different distance functions with weights[C]// Proceedings of the 7th ACIS International Conference on Software Engineering, Artificial Intelligence, Networking, and Parallel/ Distributed Computing. Los Alamitos, CA, USA: IEEE Computer Society, 2006: 85-90.
4JAGADISH H V, OOI B C, TAN K L, et al. iDistance: an adaptive B-tree based indexing method for nearest neighbor search[J]. ACM Transactions on Da tabase Systems, 2005, 30(2):364-397.
5FREUND Y, SCHAPIRE R E, A decision theoretic generalization of on-line learning and an application to boosting [J]. Journal of Computer and System Sciences, 1997, 55(1)7119-139.
6FERN X Z, BRODLEY C E, Boosting lazy decision trees [C]//20th International Conference on Machine Learning. Menlo Park, CA, USA: American Association for Artificial Intelligence, 2003: 178-185.
7BREIMAN L. Prediction games and arcing algorithms [J]. Neural Computation, 1999, 11(7):1493-1517.
8RIEGEWAY G, MADIGAN D, RICHARDSON T. Boosting methodology for regression problems [C]// Proceedings of the 7th International Workshop on Ar tificial Intelligence and Statistics. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc. , 1999: 152- 161.
9KEGL B. Robust regression by boosting the median [C]//16th Annual Conference on Learning Theory and 7th Kernel Workshop. Berlin, Germany: Springer- Verlag, 2003: 258-272.
10DRUCKER H. Improving regressors using Boosting techniques[C]// The 14th International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc. , 1997: 107-115.

共引文献30

1雷蕾,吴乃君,刘鹏,刘兰娟.灵敏度分析:分类器中的缺失数据[J].管理学报,2005,2(S2):153-157. 被引量：2
2王希雷.一种不完备决策表的数据补齐方法[J].天津科技大学学报,2007,22(3):62-64. 被引量：1
3兰妥,江弋,刘光生.基于Sas的时间序列缺失值处理方法比较[J].计算机技术与发展,2008,18(10):43-45. 被引量：11
4陈海洋,高晓光,郑景嵩.基于数据修补DDBNs的空中目标识别方法研究[J].系统仿真学报,2010,22(3):678-681. 被引量：2
5郭超,陆新建.工业过程数据中缺失值处理方法的研究[J].计算机工程与设计,2010,31(6):1351-1354. 被引量：14
6马垣,张果枝.基于粒计算的不完备信息系统的缺失值估计算法[J].计算机应用与软件,2010,27(4):23-25.
7菅小艳.基于不完整数据的EM算法初值选取[J].太原师范学院学报（自然科学版）,2010,9(1):79-81. 被引量：3
8曹作宝,包晓敏,汪亚明,周砚江.基于Kalman预测和K-近邻的多目标跟踪[J].浙江理工大学学报（自然科学版）,2011,28(3):384-388. 被引量：2
9胡登峰,王巍,陈菁.安徽省技术创新投融资金融生态环境评价研究[J].技术经济,2011,30(7):42-47. 被引量：2
10廖化生,何利力,王文娟.商务智能在企业营销分析系统中的应用研究[J].工业控制计算机,2011,24(9):71-73.

同被引文献9

1廖加强,刘俊阳,张菊英.基于Bootstrap抽样的EM估计缺失数据多重填补方法在公共卫生调查数据中的应用及其R实现[J].现代预防医学,2014,41(1):7-10. 被引量：5
2郝胜轩,宋宏,周晓锋.基于近邻噪声处理的KNN缺失数据填补算法[J].计算机仿真,2014,31(7):264-268. 被引量：29
3李昂,温琪,顾星博,焦辛妮,佟海龙,袁重胜,刘艳,李康.单核苷酸多态性数据缺失值填补方法研究[J].中国公共卫生,2014,30(12):1576-1582. 被引量：3
4吕政,赵珺,刘颖,王伟.基于最大方差权信息系数的煤气数据填补[J].控制理论与应用,2015,32(5):646-654. 被引量：6
5章涛,朱麟,季加东,袁中尚,薛付忠,李秀君.基于R软件的缺失数据MICE填补效果研究[J].中国卫生统计,2015,32(4):580-584. 被引量：6
6伊卫国,冯向营.不完备数据集的关联分析填补方法及应用[J].大连交通大学学报,2015,36(6):99-101. 被引量：1
7韩飞,沈镇林.基于不完备集双聚类的缺失数据填补算法[J].计算机工程,2016,42(4):20-26. 被引量：12
8肖亚明,陈永杰,王玉鹏,刘美娜.分类变量缺失数据处理方法有效性的比较研究[J].中国卫生统计,2016,33(2):186-189. 被引量：7
9杨毅,卢诚波.一种基于极限学习机的缺失数据填充方法[J].计算机应用与软件,2016,33(10):243-246. 被引量：9

引证文献1

1张朋.大数据中用户所需信息资源检测仿真[J].计算机仿真,2017,34(11):422-425. 被引量：1

二级引证文献1

1赵云强,韩翼,崔慧茹,郑琳.聚类目标函数下混合属性大数据集分析系统[J].电子设计工程,2020,28(4):73-76. 被引量：3

1朱桂玲,李治远.非参数模型的三种经典估计方法[J].保山学院学报,2016,35(5):57-59.
2张晓琴,王敏.基于主成分分析的成分数据缺失值插补法[J].应用概率统计,2016,32(1):101-110. 被引量：14
3张晓琴,程誉莹.基于随机森林模型的成分数据缺失值填补法[J].应用概率统计,2017,33(1):102-110. 被引量：33
4李云,张腾飞,杨文杰.基于K近邻分类间隔的特征选择方法研究[J].南京邮电大学学报（自然科学版）,2009,29(6):68-74. 被引量：2
5闫在在,吴伟志,聂赞坎.半参数回归模型的近邻估计──鞅差误差序列情形[J].应用概率统计,2001,17(1):44-50. 被引量：18
6马学俊,何晓群.基于Monte Carlo模拟比较K近邻和局部线性分位数回归[J].数学的实践与认识,2014,44(17):196-202. 被引量：3
7高伟,张春.多维随机变量的熵估计及其在独立性检验中的应用[J].统计与信息论坛,2015,30(1):24-29. 被引量：1
8周志丹.回归函数的k近邻估计法及在经济分析中的应用[J].浙江万里学院学报,2003,16(2):31-34. 被引量：1
9吴海英.一元工序能力指数的经验Bayes估计[J].长江大学学报（自科版）（上旬）,2007,4(2):18-19. 被引量：1
10王炳章.最近邻回归估计的随机加权逼近[J].高校应用数学学报（A辑）,1997(2):157-162.

应用概率统计

2014年第6期

浏览历史

内容加载中请稍等...

一种基于Epanechnikov二次核的成分数据缺失值填补法被引量：1

参考文献11

二级参考文献34

共引文献30

同被引文献9

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于Epanechnikov二次核的成分数据缺失值填补法 被引量：1

参考文献11

二级参考文献34

共引文献30

同被引文献9

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于Epanechnikov二次核的成分数据缺失值填补法被引量：1