摘要
分类是机器学习中最常见的决策问题,但实际应用中,分类过程却面临着数据类别信息量不均衡的问题,即不平衡问题。决策树作为分类问题中应用最广泛的算法,对不平衡数据中少数类的识别率较低。为提高决策树在不平衡数据上的分类效果,论文在香农熵的基础上提出了一种基于先验信息的比例先验熵,修正了传统香农熵在类别均等分布时取最大熵值,从而导致处理不平衡问题时会出现分类效果差的问题。进一步地,基于CART算法框架构建了一种使用比例先验熵作为不纯性度量的决策树算法。试验结果表明,基于比例先验熵的决策树比基于香农熵的决策树在不平衡数据上有更好的分类效果。除了分类效果的优势,基于比例先验熵的决策树在模型算法效率方面也优于基于香农熵的决策树。