摘要
在实际数据中,由于人为、设备等原因,不可避免的会出现数据缺失问题。针对缺失值的处理方法一是删除,二是填充。若数据缺失较少,删除存在缺失值的样本不失为一个快速简单的方法,但若缺失值较多,大量删除样本就会损失掉重要信息,不利于模型的建立,预测效果也会不理想。本文从非完备数据出发,采用SimpleImputer、KNNImputer、IterativeImputer三种方法来填充缺失的数据,建立宽带客户流失随机森林分类模型,经过对比分析得出IterativeImputer方法补充缺失值分类效果更好的结论。
出处
《中国新通信》
2021年第14期125-126,共2页
China New Telecommunications