-
题名基于伪标注样本融合的领域分词方法
被引量:1
- 1
-
-
作者
胡潇涛
吴浩
杨亮
顾小平
宋弘
-
机构
四川轻化工大学自动化与信息工程学院
人工智能四川省重点实验室
-
出处
《四川轻化工大学学报(自然科学版)》
CAS
2021年第1期48-55,共8页
-
基金
人工智能四川省重点实验室项目(2019RYY01)
四川理工学院四川省院士(专家)工作站项目(2018YSGZZ04)
+1 种基金
四川理工学院人才引进项目(2017RCL53)
企业信息化与物联网测控技术四川省高校重点实验室项目(2019WZY02)。
-
文摘
目前常用的神经网络分词模型,均需要大量的标注语料才可得到较好的泛化效果,但在面对领域标注语料稀缺的场景时,不能很好的适应。为解决这一问题,该文提出了一种基于伪标注样本融合的领域分词方法。该方法从领域专业辞典、电商及百科网站等数据源收集相关词汇组成领域词典,并从中随机抽取词汇生成伪标注样本。将伪标注样本与通用语料融合为训练样本,即将领域词典信息融合至模型训练当中。网络模型方面,该方法选用双向门限循环神经网络(Bidirectional Gate Recurrent Unit,BiGRU)作为主网络层,联合一维卷积(One-dimensional convolutional neural network,Conv1D)获取更多局部上下文信息,最终由条件随机场(Conditional random field,CRF)解码输出。通过实验证明,该文的方法可以有效提高模型的领域分词性能,与未使用伪样本的模型相比可提升F1值约6.67%。
-
关键词
领域词典
伪标注
样本融合
领域分词
-
Keywords
domain dictionary
pseudo-labeling
sample fusion
domain word segmentation
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名稳健选择伪标注的混合式半监督学习
- 2
-
-
作者
郭兰哲
李宇峰
-
机构
计算机软件新技术国家重点实验室(南京大学)
-
出处
《中国科学:信息科学》
CSCD
北大核心
2024年第3期623-637,共15页
-
基金
国家自然科学基金(批准号:62176118,61921006)
中国人工智能学会-华为MindSpore学术奖励基金资助项目。
-
文摘
半监督学习旨在数据标注缺乏的情形下利用无标注数据提升学习性能,是重要的机器学习范式.尽管不少研究报道表明半监督学习取得了优异的性能表现,然而其在面临诸多实践任务时仍存在伪标注质量判断困难、超参数选择敏感、理论指导缺乏等瓶颈.针对上述挑战,本文提出一种稳健选择伪标注的混合式半监督学习方法,通过综合利用模型预测结果之间的分歧自适应地判断伪标注质量,无需预设超参数,显著提升了半监督学习的稳健性.本文在理论上证明了新方法的错误率随训练轮数的增加而显著下降.实验验证了本文方法较主流技术取得了明显的性能提升,例如,相较于在CIFAR-10数据集中表现最优的半监督学习技术FixMatch,新方法的分类错误率下降了11%以上,在更具挑战的STL-10数据集中分类错误率下降了18.8%.
-
关键词
机器学习
深度学习
半监督学习
伪标注
稳健性
-
Keywords
machine learning
deep learning
semi-supervised learning
pseudo-label
robust
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于显著图的弱监督实时目标检测
被引量:4
- 3
-
-
作者
李阳
王璞
刘扬
刘国军
王春宇
刘晓燕
郭茂祖
-
机构
哈尔滨工业大学计算机科学与技术学院
北京建筑大学电气与信息工程学院
建筑大数据智能处理方法研究北京重点实验室
-
出处
《自动化学报》
EI
CSCD
北大核心
2020年第2期242-255,共14页
-
基金
国家重点基础研究发展计划(2016YFC0901902)
国家自然科学基金(61671188,61571164,61976071,61871020)资助~~
-
文摘
深度卷积神经网络(Deep convolutional neural network,DCNN)在目标检测任务上使用目标的全标注来训练网络参数,其检测准确率也得到了大幅度的提升.然而,获取目标的边界框(Bounding-box)标注是一项耗时且代价高的工作.此外,目标检测的实时性是制约其实用性的另一个重要问题.为了克服这两个问题,本文提出一种基于图像级标注的弱监督实时目标检测方法.该方法分为三个子模块:1)首先应用分类网络和反向传递过程生成类别显著图,该显著图提供了目标在图像中的位置信息;2)根据类别显著图生成目标的伪标注(Pseudo-bounding-box);3)最后将伪标注看作真实标注并优化实时目标检测网络的参数.不同于其他弱监督目标检测方法,本文方法无需目标候选集合获取过程,并且对于测试图像仅通过网络的前向传递过程就可以获取检测结果,因此极大地加快了检测的速率(实时性).此外,该方法简单易用;针对未知类别的目标检测,只需要训练目标类别的分类网络和检测网络.因此本框架具有较强的泛化能力,为解决弱监督实时检测问题提供了新的研究思路.在PASCAL VOC 2007数据集上的实验表明:1)本文方法在检测的准确率上取得了较好的提升;2)实现了弱监督条件下的实时检测.
-
关键词
弱监督
实时目标检测
显著图
伪标注
深度卷积神经网络
-
Keywords
Weakly supervised
real-time object detection
saliency map
pseudo-annotations
deep convolutional neural network(DCNN)
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-