摘要
目的针对K近邻插补法在缺失率较大的数据集上的性能不佳,提出一种局部K近邻插补法。方法在6个完整的公开数据集上按照不同缺失率随机删除数据,根据填充数据和原始数据计算算法的填充性能,将局部K近邻插补法与K近邻插补法、多重插补法对比。结果局部K近邻插补法在缺失率较低的条件下,填充性能与多重插补法接近,且略胜于K近邻插补法。在缺失率较高的条件下,局部K近邻插补法的性能明显优于K近邻插补法,且略胜于多重插补法。结论相比K近邻插补法,局部K近邻插补法非常适合处理缺失率较大的数据集。
出处
《中国卫生统计》
CSCD
北大核心
2019年第5期780-783,共4页
Chinese Journal of Health Statistics
基金
国家自然科学基金项目(编号:61876194)
国家重点研发计划项目(编号:2018YFC0116902,2016YFC0901602)
NSFC-广东大数据科学中心联合基金项目(编号:U1611261)
广东省医学科学技术研究基金项目(编号:C2016046)