针对借贷过程中的信息不对称问题,为更有效地整合不同的数据源和贷款违约预测模型,提出一种集成学习的训练方法,使用AUC(Area Under Curve)值和Q统计值对学习器的准确性和多样性进行度量,并实现了基于AUC和Q统计值的集成学习训练算法(TA...针对借贷过程中的信息不对称问题,为更有效地整合不同的数据源和贷款违约预测模型,提出一种集成学习的训练方法,使用AUC(Area Under Curve)值和Q统计值对学习器的准确性和多样性进行度量,并实现了基于AUC和Q统计值的集成学习训练算法(TABAQ)。基于个人对个(P2P)贷款数据进行实证分析,发现集成学习的效果与基学习器的准确性和多样性关系密切,而与所集成的基学习器数量相关性较低,并且各种集成学习方法中统计集成表现最好。实验还发现,通过融合借款人端和投资人端的信息,可以有效地降低贷款违约预测中的信息不对称性。TABAQ能有效发挥数据源融合和学习器集成两方面的优势,在保持预测准确性稳步提升的同时,预测的一类错误数量更是进一步下降了4.85%。展开更多
文摘针对借贷过程中的信息不对称问题,为更有效地整合不同的数据源和贷款违约预测模型,提出一种集成学习的训练方法,使用AUC(Area Under Curve)值和Q统计值对学习器的准确性和多样性进行度量,并实现了基于AUC和Q统计值的集成学习训练算法(TABAQ)。基于个人对个(P2P)贷款数据进行实证分析,发现集成学习的效果与基学习器的准确性和多样性关系密切,而与所集成的基学习器数量相关性较低,并且各种集成学习方法中统计集成表现最好。实验还发现,通过融合借款人端和投资人端的信息,可以有效地降低贷款违约预测中的信息不对称性。TABAQ能有效发挥数据源融合和学习器集成两方面的优势,在保持预测准确性稳步提升的同时,预测的一类错误数量更是进一步下降了4.85%。