期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
一种基于自训练的众包标记噪声纠正算法
1
作者 杨艺 蒋良孝 李超群 《自动化学报》 EI CAS CSCD 北大核心 2023年第4期830-844,共15页
针对众包标记经过标记集成后仍然存在噪声的问题,提出了一种基于自训练的众包标记噪声纠正算法(Selftraining-based label noise correction,STLNC).STLNC整体分为3个阶段:第1阶段利用过滤器将带集成标记的众包数据集分为噪声集和干净集... 针对众包标记经过标记集成后仍然存在噪声的问题,提出了一种基于自训练的众包标记噪声纠正算法(Selftraining-based label noise correction,STLNC).STLNC整体分为3个阶段:第1阶段利用过滤器将带集成标记的众包数据集分为噪声集和干净集.第2阶段利用加权密度峰值聚类算法构建数据集中低密度实例指向高密度实例的空间结构关系.第3阶段首先根据发现的空间结构关系设计噪声实例选择策略;然后利用在干净集上训练的集成分类器对选择的噪声实例按照设计的实例纠正策略进行纠正,并将纠正后的实例加入到干净集,再重新训练集成分类器;重复实例选择与纠正过程直到噪声集中所有的实例被纠正;最后用最后一轮训练得到的集成分类器对所有实例进行纠正.在仿真标准数据集和真实众包数据集上的实验结果表明STLNC比其他5种最先进的噪声纠正算法在噪声比和模型质量两个度量指标上表现更优. 展开更多
关键词 众包学习 自训练 集成标记 标记噪声 噪声纠正
下载PDF
面向特征演变环境的标记噪声鲁棒学习算法
2
作者 张震宇 姜远 《计算机研究与发展》 EI CSCD 北大核心 2023年第8期1740-1753,共14页
在现实应用中,数据通常以流的形式不断积聚,数据的特征可能随时间而演变.例如,在环境监测任务中,由于旧传感器达到使用寿命和新传感器的部署,数据特征可能会动态地消失或增加.此外,除了可演变的特征空间,数据标记可能存在噪声.当特征空... 在现实应用中,数据通常以流的形式不断积聚,数据的特征可能随时间而演变.例如,在环境监测任务中,由于旧传感器达到使用寿命和新传感器的部署,数据特征可能会动态地消失或增加.此外,除了可演变的特征空间,数据标记可能存在噪声.当特征空间演变和数据标记带噪同时发生时,设计具有理论保障的学习算法,尤其是具备对算法泛化能力的理解是非常具有挑战性的.为了应对这一挑战,提出了一种在特征演变环境中针对标记带噪数据的差异度量方法,称为容忍标记噪声的演变差异.该差异度量启发了泛化误差分析,并根据泛化误差的理论分析设计了一种基于深度神经网络实现的学习算法.合成数据上的实证研究验证了所提差异度量的合理性,而在现实应用任务上的实验则验证了所提算法的有效性. 展开更多
关键词 标记噪声 特征演变环境 弱监督学习 开放环境 鲁棒学习
下载PDF
一种基于Tri-training的众包标记噪声纠正算法 被引量:1
3
作者 杨艺 蒋良孝 +1 位作者 李超群 李宏伟 《电子学报》 EI CAS CSCD 北大核心 2021年第3期424-434,共11页
在众包学习中,使用标记集成算法得到的集成标记中仍然存在一定程度的标记噪声.本文受三重训练思想的启发,提出了一种基于tri-training的众包标记噪声纠正算法(Tri-Training-based Label Noise Correction,TTLNC).TTLNC首先使用过滤器获... 在众包学习中,使用标记集成算法得到的集成标记中仍然存在一定程度的标记噪声.本文受三重训练思想的启发,提出了一种基于tri-training的众包标记噪声纠正算法(Tri-Training-based Label Noise Correction,TTLNC).TTLNC首先使用过滤器获得干净集和噪声集,然后在干净集上进行bagging分别训练三个不同的分类器,并通过这些分类器重新标注噪声集中的实例,同时按照实例分配策略将实例分配给相应的训练集.最后在新训练集上重新训练三个不同的分类器,并用新分类器的分类结果重新标注所有实例.在仿真标准数据和真实众包数据集上的实验结果表明TTLNC比其他四种最先进的噪声纠正算法在噪声比和模型质量两个度量指标上表现更优. 展开更多
关键词 众包学习 三重训练 集成标记 标记噪声 噪声纠正 噪声过滤
下载PDF
基于负学习的样本重加权鲁棒学习方法
4
作者 邹博士 杨铭 +2 位作者 宗辰辰 谢明昆 黄圣君 《计算机应用》 CSCD 北大核心 2024年第5期1479-1484,共6页
噪声标记学习方法能够有效利用含有噪声标记的数据训练模型,显著降低大规模数据集的标注成本。现有的噪声标记学习方法通常假设数据集中各个类别的样本数目是平衡的,但许多真实场景下的数据往往存在噪声标记,且数据的真实分布具有长尾现... 噪声标记学习方法能够有效利用含有噪声标记的数据训练模型,显著降低大规模数据集的标注成本。现有的噪声标记学习方法通常假设数据集中各个类别的样本数目是平衡的,但许多真实场景下的数据往往存在噪声标记,且数据的真实分布具有长尾现象,这导致现有方法难以设计有效的指标,如训练损失或置信度区分尾部类别中的干净样本和噪声样本。为了解决噪声长尾学习问题,提出一种基于负学习的样本重加权鲁棒学习(NLRW)方法。具体来说,根据模型对头部类别和尾部类别样本的输出分布,提出一种新的样本权重计算方法,能够使干净样本的权重接近1,噪声样本的权重接近0。为了保证模型对样本的输出准确,结合负学习和交叉熵损失使用样本加权的损失函数训练模型。实验结果表明,在多种不平衡率和噪声率的CIFAR-10以及CIFAR-100数据集上,NLRW方法相较于噪声长尾分类的最优基线模型TBSS(Two stage Bi-dimensional Sample Selection),平均准确率分别提升4.79%和3.46%。 展开更多
关键词 噪声标记学习 长尾学习 噪声长尾学习 样本重加权 负学习
下载PDF
噪声标注下的改进TSVM学习算法 被引量:2
5
作者 何丽 刘颖 韩克平 《计算机工程与应用》 CSCD 北大核心 2019年第17期44-50,共7页
深度学习的迅速发展需要大量有标记数据的支持,而实际数据中往往带有未知比例的噪声标记,会直接影响分类器的最终结果。针对数据集中错误标记的存在,提出了一种噪声标注下的TSVM改进算法,该方法利用聚类筛选出错分率较高的簇,通过交换... 深度学习的迅速发展需要大量有标记数据的支持,而实际数据中往往带有未知比例的噪声标记,会直接影响分类器的最终结果。针对数据集中错误标记的存在,提出了一种噪声标注下的TSVM改进算法,该方法利用聚类筛选出错分率较高的簇,通过交换错分率较高的两个簇的标签,减少TSVM算法中噪声标记的传递和累加,能够有效地提高标记准确率,增强TSVM分类器对不同比例噪声的鲁棒性。为了验证提出算法的有效性,通过在选取的UCI数据集上加入不同比例的噪声标签对算法进行了实验。实验结果表明,该算法在含有不同噪声标记比例的数据集上的鲁棒性均优于SVM和TSVM算法。 展开更多
关键词 噪声标记 直推式支持向量机 聚类算法 鲁棒性
下载PDF
基于HTML结构特征的网页信息提取 被引量:5
6
作者 胡瑜 王立志 《辽宁石油化工大学学报》 CAS 2009年第3期65-69,共5页
Web上的信息很多存储在HTML页面上,传统的网页数据抽取方法是使用包装器(Wrapper)来抽取网页中感兴趣的数据。包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。避开了使用Wrapper,针对新闻类网页的结构特点,从... Web上的信息很多存储在HTML页面上,传统的网页数据抽取方法是使用包装器(Wrapper)来抽取网页中感兴趣的数据。包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。避开了使用Wrapper,针对新闻类网页的结构特点,从视觉角度对网页页面空间的构成进行了噪声与信息实体的划分与判断。讨论了一种根据新闻类网页层次结构和各层节点统计信息进行新闻主体提取的方法。改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,并对其节点添加了统计信息,利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反向降噪抽取新闻类网页得到结构化数据的方法。实验结果表明,用这种方法进行新闻类网页主体信息提取的有效性。 展开更多
关键词 信息提取 DOM LA-DOM HTML解析 噪声标记
下载PDF
一种抽取新闻网页结构化数据的方法 被引量:1
7
作者 陈爽 李先国 +1 位作者 陈福 李素 《燕山大学学报》 CAS 2007年第6期485-488,共4页
根据统计结果,从阅读角度对网页页面空间的构成进行了噪声与信息实体的划分与判断,改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,逐级降噪,并利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反... 根据统计结果,从阅读角度对网页页面空间的构成进行了噪声与信息实体的划分与判断,改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,逐级降噪,并利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反向过滤降噪抽取新闻网页得到结构化数据的方法,并使用这种方法进行了大范围的效果验证。验证结果表明:这种方法信息抽取准确率高,对中英文新闻网页都有良好的适用性。 展开更多
关键词 信息抽取 HTML解析 DOM 标签补偿 噪声标记
下载PDF
Logistic回归算法研究与实现 被引量:1
8
作者 滕文 《信息技术》 2018年第5期133-138,共6页
针对目前标记噪声普遍在数据集中出现的这一现象,研究了一种新的模型,称为鲁棒逻辑回归模型。该模型以传统的贝叶斯逻辑回归模型为基础,在分类器中加入标记转换概率来应对可能出现的标记噪声。同时在模型中运用了正则化的方法,使分类器... 针对目前标记噪声普遍在数据集中出现的这一现象,研究了一种新的模型,称为鲁棒逻辑回归模型。该模型以传统的贝叶斯逻辑回归模型为基础,在分类器中加入标记转换概率来应对可能出现的标记噪声。同时在模型中运用了正则化的方法,使分类器在拟合数据与变量选择间保持平衡。实验中分别用到了合成数据集和真实的数据集,从而对鲁棒逻辑回归模型在分类问题中具有的预测能力和变量选择能力以及对标记噪声的鲁棒性进行验证,再与传统的模型进行比较。结果表明在面对含有标记噪声的数据时,由鲁棒逻辑回归模型训练产生的分类器有更低的误分类率,在变量选择方面也更准确。 展开更多
关键词 LOGISTIC回归 标记噪声 稀疏性 鲁棒性
下载PDF
1种农产品图像混合滤波算法的应用
9
作者 张凡 《江苏农业科学》 北大核心 2015年第5期419-421,共3页
针对农产品图像中的混合噪声,提出了1种有效的滤波算法。首先从噪声检测和标记方法、自适应加权滤波等环节对中值滤波算法进行适当改进,从而提出了1种改进自适应加权中值滤波算法对混合农产品噪声图像进行第1阶段滤波;然后对滤波后图像... 针对农产品图像中的混合噪声,提出了1种有效的滤波算法。首先从噪声检测和标记方法、自适应加权滤波等环节对中值滤波算法进行适当改进,从而提出了1种改进自适应加权中值滤波算法对混合农产品噪声图像进行第1阶段滤波;然后对滤波后图像分别采用3×3滤波窗口、5×5滤波窗口的均值滤波算法进行第2阶段滤波;最后对均值滤波后的图像进行等权融合处理。分别将研究的滤波算法与中值滤波、加权中值滤波、极值中值滤波、均值滤波等算法进行试验仿真对比,结果表明,经过研究的算法滤波后图像清晰度明显高于其余算法且噪声残留程度明显低于其余算法,这对于农产品的高效处理具有一定的借鉴价值。 展开更多
关键词 农产品图像处理 混合噪声 噪声检测与标记 中值滤波算法 改进自适应加权中值滤波算法 均值滤波算法
下载PDF
基于迭代高斯模型的干涉DEM滤波算法 被引量:1
10
作者 王峰 尤红建 傅兴玉 《遥感技术与应用》 CSCD 北大核心 2013年第2期258-262,共5页
提出了一种基于迭代高斯模型的干涉DEM滤波算法。该算法首先对含有噪声的干涉SAR高程数据进行噪声检测,对不符合高斯模型分布的数据,标记为噪声点,建立噪声标记矩阵;然后对标记为噪声的点,依据其邻域窗口内数据的统计特性,采用曲面拟合... 提出了一种基于迭代高斯模型的干涉DEM滤波算法。该算法首先对含有噪声的干涉SAR高程数据进行噪声检测,对不符合高斯模型分布的数据,标记为噪声点,建立噪声标记矩阵;然后对标记为噪声的点,依据其邻域窗口内数据的统计特性,采用曲面拟合算法估计得出噪声点处的真实高程值。通过实际DEM的实验结果表明:该算法在有效消除噪声点的同时,可以较好地保持地面的高程值;与传统的低通滤波、中值滤波、Sigma滤波的实验结果相比,该算法的滤波结果较为理想。 展开更多
关键词 干涉DEM滤波 噪声标记矩阵 迭代高斯模型 曲面拟合
原文传递
元自步学习 被引量:6
11
作者 束俊 孟德宇 徐宗本 《中国科学:信息科学》 CSCD 北大核心 2020年第6期781-793,共13页
自步学习是近年来机器学习领域提出的一种启发于人和动物"由易到难"学习过程的学习机制.尽管自步学习已取得可喜的理论与应用进展,但是当前的自步学习算法仍存在超参数选择的瓶颈问题.针对该问题当前主要采用一些启发式的手... 自步学习是近年来机器学习领域提出的一种启发于人和动物"由易到难"学习过程的学习机制.尽管自步学习已取得可喜的理论与应用进展,但是当前的自步学习算法仍存在超参数选择的瓶颈问题.针对该问题当前主要采用一些启发式的手工设计方法或者交叉验证方法,然而此类方法效率很低,缺乏理论性指导,难以推广应用到广泛的实践问题中.针对这一挑战性问题,本文提出一种基于元学习机理的自步学习算法,该方法能使自步学习中涉及的超参数以数据驱动的方式自动习得,从而大大减弱了自步学习的这一核心问题.特别地,我们针对3种典型的自步学习实现格式,将所提元学习策略实质性嵌入,通过回归和分类实验验证了所提算法的准确性和泛化性,特别验证了相比于传统超参设置方法的显著优越性. 展开更多
关键词 自步学习 元学习 样本加权 噪声标记下学习 超参数选择
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部