-
题名基于异常检测的标签噪声过滤框架
- 1
-
-
作者
许茂龙
姜高霞
王文剑
-
机构
山西大学计算机与信息技术学院
计算智能与中文信息处理教育部重点实验室(山西大学)
-
出处
《计算机科学》
CSCD
北大核心
2024年第2期87-99,共13页
-
基金
国家自然科学基金(U21A20513,62076154,61906113)
山西省高等学校科技创新项目(2020L0007)。
-
文摘
噪声是影响机器学习模型可靠性的重要因素,而标签噪声相比特征噪声对模型训练更具决定性的影响。噪声过滤是处理标签噪声的一种有效方法,它不需要估计噪声率,也不需要依赖任何损失函数,然而目前大多数标签噪声过滤算法都会面临过度清洗问题。针对此问题,文中提出了基于异常检测的标签噪声过滤框架,并在此框架下给出了一种自适应近邻聚类的标签噪声过滤算法AdNN(Label Noise Filtering via Adaptive Nearest Neighbor Clustering)。该算法分别考虑分类问题中的每一个类别,把标签噪声检测问题转化成离群点检测问题,识别出每一个类别的离群点,然后根据相对密度去除离群点中的非噪声样本,得到噪声备选集,最后通过噪声因子对噪声备选集中的离群点进行噪声识别和过滤。实验结果表明,在合成数据集和公开数据集上,所提噪声过滤方法可以减轻过度清洗现象,同时能够得到很好的噪声过滤效果和分类预测性能。
-
关键词
标签噪声过滤
离群点检测
自适应k近邻
相对密度
噪声因子
-
Keywords
Label noise filtering
Outlier detection
Adaptive k-nearest neighbors
Relative density
Noise factor
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-