摘要
针对传统机器学习算法在面对不平衡数据集进行分类时所导致的错误分类、召回率低等问题,提出了一种自适应Borderline-SMOTE过采样的LightGBM不平衡数据集分类算法。在Borderline-SMOTE的基础上,首先采用动态调整采样倍率来控制合成样本的数量,避免过度生成新样本。然后,随机选择边界样本的两个K近邻合成中间样本,用于线性插值生成新样本,一定程度上避免了样本重叠的问题。最后,使用某运营商新办宽带用户及其使用情况数据集,在自适应Borderline-SMOTE过采样方法前提下,验证了LightGBM比KNN和RF有更好的效果。在数据集上与其他流行过采样方法进行实验比较,结果显示,所提出的算法有效地提高了不平衡数据的分类性能。
作者
刘婧怡
卢胜男
LIU Jingyi;LU Shengnan
出处
《信息技术与信息化》
2024年第6期205-208,共4页
Information Technology and Informatization