文章采用高维数据变量筛选的方法对衡量员工离职的诸多因素进行统计分析,并对员工离职情况进行了预测.分别使用了由Cui等(2015)提出的MV (Mean of Variance)方法和LASSO方法对高维数据进行变量筛选,选出了与员工离职相关较为密切的的变...文章采用高维数据变量筛选的方法对衡量员工离职的诸多因素进行统计分析,并对员工离职情况进行了预测.分别使用了由Cui等(2015)提出的MV (Mean of Variance)方法和LASSO方法对高维数据进行变量筛选,选出了与员工离职相关较为密切的的变量进入分类模型.为保证模型预测结果的准确性,文章选择了支持向量机、随机森林、XGBoost以及Logistic模型四种机器学习模型对员工离职情况进行预测.在100次的实验中,相比于另外的7种组合模型方法,MV变量选择下的随机森林模型的平均分类准确率最高,达到95.43%.通过改变训练集与验证集的比例、抽取80%样本数据、增加随机扰动三种方式来验证上述实验结果,发现仍然是MV方法下的随机森林的平均分类准确率最高,且该组合模型具有较好的稳健性能.展开更多
文摘文章采用高维数据变量筛选的方法对衡量员工离职的诸多因素进行统计分析,并对员工离职情况进行了预测.分别使用了由Cui等(2015)提出的MV (Mean of Variance)方法和LASSO方法对高维数据进行变量筛选,选出了与员工离职相关较为密切的的变量进入分类模型.为保证模型预测结果的准确性,文章选择了支持向量机、随机森林、XGBoost以及Logistic模型四种机器学习模型对员工离职情况进行预测.在100次的实验中,相比于另外的7种组合模型方法,MV变量选择下的随机森林模型的平均分类准确率最高,达到95.43%.通过改变训练集与验证集的比例、抽取80%样本数据、增加随机扰动三种方式来验证上述实验结果,发现仍然是MV方法下的随机森林的平均分类准确率最高,且该组合模型具有较好的稳健性能.