-
题名不平衡数据分类研究综述
被引量:47
- 1
-
-
作者
赵楠
张小芳
张利军
-
机构
西北工业大学计算机学院
-
出处
《计算机科学》
CSCD
北大核心
2018年第B06期22-27,57,共7页
-
基金
中央高校基本科研业务费专项资金(3102015JSJ0004)
国家高技术研究发展计划(863)项目(2015AA015307)
国家自然科学基金(61402370)资助
-
文摘
在很多应用领域中,数据的类别分布不平衡,如何对其正确分类是数据挖掘和机器学习领域中的研究热点。经典的数据分类算法未考虑数据类别的不平衡性,认为类别之间的误分类代价相同,导致不平衡数据分类的效果不理想。针对数据分类的各个步骤,相继提出了不同的不平衡数据分类处理方法。对多年来的相关研究成果进行归类分析,从特征选择、数据分布调整、分类算法、分类结果评估等几个方面系统地介绍了相关方法,并探讨了进一步的探索方向。
-
关键词
不平衡数据分类
不平衡数据的特征选择
不平衡分类评估
数据分布调整
不平衡数据分类算法
-
Keywords
Imbalanced data classification
Feature selection for imbalanced data
lmbalanced classification assessment
Adjustment of data distribution
Classification algorithm for imbalanced data
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名应用于不平衡多分类问题的损失平衡函数
被引量:8
- 2
-
-
作者
黄庆康
宋恺涛
陆建峰
-
机构
南京理工大学计算机科学与工程学院
-
出处
《智能系统学报》
CSCD
北大核心
2019年第5期953-958,共6页
-
文摘
传统分类算法一般要求数据集类别分布平衡,然而在实际情况中往往面临的是不平衡的类别分布。目前存在的数据层面和模型层面算法试图从不同角度解决该问题,但面临着参数选择以及重复采样产生的额外计算等问题。针对此问题,提出了一种在小批量内样本损失自适应均衡化的方法。该算法采用了一种动态学习损失函数的方式,根据小批量内样本标签信息调整各样本损失权重,从而实现在小批量内各类别样本总损失的平衡性。通过在caltech101和ILSVRC2014数据集上的实验表明,该算法能够有效地减少计算成本并提高分类精度,且一定程度上避免了过采样方法所带来的模型过拟合风险。
-
关键词
不平衡学习
不平衡数据分类
多分类不平衡
损失平衡
不平衡数据分类算法
不平衡数据集
F1调和平均
卷积神经网络
深度学习
-
Keywords
imbalanced learning
imbalanced data classification
imbalanced multi-classification
loss balance
classificationalgorithm for imbalanced data
imbalanced dataset
F1 measure
convolutional neural networks
deep learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-