-
题名基于异常检测的标签噪声过滤框架
- 1
-
-
作者
许茂龙
姜高霞
王文剑
-
机构
山西大学计算机与信息技术学院
计算智能与中文信息处理教育部重点实验室(山西大学)
-
出处
《计算机科学》
CSCD
北大核心
2024年第2期87-99,共13页
-
基金
国家自然科学基金(U21A20513,62076154,61906113)
山西省高等学校科技创新项目(2020L0007)。
-
文摘
噪声是影响机器学习模型可靠性的重要因素,而标签噪声相比特征噪声对模型训练更具决定性的影响。噪声过滤是处理标签噪声的一种有效方法,它不需要估计噪声率,也不需要依赖任何损失函数,然而目前大多数标签噪声过滤算法都会面临过度清洗问题。针对此问题,文中提出了基于异常检测的标签噪声过滤框架,并在此框架下给出了一种自适应近邻聚类的标签噪声过滤算法AdNN(Label Noise Filtering via Adaptive Nearest Neighbor Clustering)。该算法分别考虑分类问题中的每一个类别,把标签噪声检测问题转化成离群点检测问题,识别出每一个类别的离群点,然后根据相对密度去除离群点中的非噪声样本,得到噪声备选集,最后通过噪声因子对噪声备选集中的离群点进行噪声识别和过滤。实验结果表明,在合成数据集和公开数据集上,所提噪声过滤方法可以减轻过度清洗现象,同时能够得到很好的噪声过滤效果和分类预测性能。
-
关键词
标签噪声过滤
离群点检测
自适应k近邻
相对密度
噪声因子
-
Keywords
Label noise filtering
Outlier detection
Adaptive k-nearest neighbors
Relative density
Noise factor
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名近邻感知的标签噪声过滤算法
被引量:7
- 2
-
-
作者
姜高霞
樊瑞宣
王文剑
-
机构
山西大学计算机与信息技术学院
山西大学计算智能与中文信息处理教育部重点实验室
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2020年第6期518-529,共12页
-
基金
国家自然科学基金项目(No.61673249,U1805263,61906113)
山西省国际合作重点研发计划项目(No.201903D421050)
山西省高等学校科技创新项目(No.2020L0007)资助。
-
文摘
基于k近邻的标签噪声过滤对近邻参数k的选取较敏感.针对此问题,文中提出近邻感知的标签噪声过滤算法,可有效解决二分类数据集的类内标签噪声的问题.算法分开考虑正类样本和负类样本,使分类问题中的标签噪声检测问题转化为两个单类别数据的离群点检测问题.首先通过近邻感知策略自动确定每个样本的个性化近邻参数,避免近邻参数敏感的问题.然后根据噪声因子将样本分为核心样本与非核心样本,并把非核心样本作为标签噪声候选集.最后结合候选样本的近邻标签信息,进行噪声的识别与过滤.实验表明,文中方法的噪声过滤效果和分类预测性能均较优.
-
关键词
标签噪声过滤
近邻感知
个性化k近邻
离群点检测
噪声因子
-
Keywords
Label Noise Filtering
Perception of Nearest Neighbors
Personalized k-Nearest Neighbor
Outlier Detection
Noise Factor
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于KNN-CatBoost的叶丝含水率预测
- 3
-
-
作者
袁维鑫
欧阳寅
王积智
杨文超
-
机构
上海烟草集团有限责任公司上海卷烟厂
-
出处
《今日制造与升级》
2023年第12期40-42,共3页
-
文摘
针对烟草生产过程中叶丝干燥工序的含水率波动较大、人工干预强度大等问题,提出了一种基于机器学习的叶丝含水率预测模型。由于生产过程中存在数据失去时序对应关系和数采不完整,导致模型准确度较低,为解决此问题,基于k近邻思想进行标签噪声过滤,剔除受到不可控因素影响的数据,然后利用CatBoost回归模型对叶丝干燥工序之前的叶丝膨胀工序入口含水率进行预测。实验结果表明,该模型能够有效地预测叶丝膨胀入口含水率,辅助提前修正后续工序相关参数,减少后续叶丝干燥工序的人为操作,可提高生产效率,降低品质波动。文中的方法具有一定的实用性和推广价值。
-
关键词
机器学习
数值型标签噪声
标签噪声过滤
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-