-
题名针对不平衡数据分类的改进GBDT算法
- 1
-
-
作者
李长洪
郑凯
林博宇
-
机构
华南师范大学计算机学院
华南师范大学网络中心
-
出处
《计算机与数字工程》
2024年第7期1932-1937,1943,共7页
-
基金
中国高校产学研创新基金(编号:2020ITA05033)资助。
-
文摘
许多传统的分类算法在处理不平衡数据时,训练出的分类器对多数类别样本预测准确率较高,而对少数类别样本的预测准确率较低。针对这一问题,提出一种改进的梯度提升决策树(GBDT)算法用于处理不平衡数据的二分类问题。数据层面,用自适应综合过采样(Adaptive Synthetic Sampling)技术增加少数类的样本数量。算法层面,将焦点损失函数(Focal Loss)引入到GBDT二分类算法中,增加模型对少数类样本的关注度。并且通过平衡化GBDT内部迭代时的每一次随机子采样,使基分类器的性能更稳定。在10组KEEL不平衡数据集上进行对比实验,实验结果验证了改进的可行性。并且用提出的改进算法与SMOTEBoost、RUSBoost、CUSBoost这三种流行的不平衡数据分类算法进行比较,实验结果表明所提改进算法在其中7组数据集上F1-measure值取得最高,其中6组数据集上G-mean值取得最高,验证了所提改进算法在处理不平衡数据的二分类问题时具有较好的效果。
-
关键词
不平衡数据
梯度提升决策树
自适应综合过采样
焦点损失函数
随机子采样
-
Keywords
unbalanced data
gradient goosting gecision tree
adaptive synthetic sampling
focal foss
random subsampling
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-