摘要
在电信运营商领域,离网预测模型是企业决策者用来发现潜在离网用户(即停用运营商服务)的主要手段。目前离网预测模型都是基于逻辑回归、决策树、神经网络及随机森林等浅层机器学习算法,但是在大数据的背景下,这些浅层算法在预测问题上很难取得更高的精度。因此,提出了一种新型的深层结构模型——深度随机森林,通过将传统浅层随机森林堆积成深层结构模型,获得更高的预测精度。在运营商真实数据上进行了大量实验,结果证明深层随机森林模型比传统浅层机器学习算法在离网预测问题上可以得到更好的效果。同时,增大训练数据量可以进一步提升深层随机森林的预测能力,从而证明了在大数据环境下深层模型的潜力。
Churn prediction models help telecom operators identify potential ofbnetwork user. Most previous models adopt shallow machine learning algorithms such as logistic regression, decision tree, random forest and neural networks. This paper proposed a novel deep random forest algorithm, which is a multi-layer random forest with layer-wise training. In terms of telecom operators' real data, we confirmed that the proposed deep random forest performs better than previous shallow learning algorithms in churn prediction. Moreover, increasing the volume of training data can further improve the performance of deep random forest,which implies that big data make deep models advantageous over shallow models.
出处
《计算机科学》
CSCD
北大核心
2016年第6期208-213,共6页
Computer Science
基金
国家自然科学基金(61373092
61033013
61272449
61202029)
江苏省教育厅重大项目(12KJA520004)
江苏省科技支撑计划重点项目(BE2014005)
广东省重点实验室开放课题(SZU-GDPHPCL-2012-09)资助
关键词
离网预测
深层随机森林
Churn prediction,Deep random forest