-
题名标签语义增强的弱监督文本分类模型
被引量:3
- 1
-
-
作者
林呈宇
王雷
薛聪
-
机构
中国科学院信息工程研究所
中国科学院大学网络空间安全学院
-
出处
《计算机应用》
CSCD
北大核心
2023年第2期335-342,共8页
-
基金
国家自然科学基金重点项目(U1636220)。
-
文摘
针对弱监督文本分类任务中存在的类别词表噪声和标签噪声问题,提出了一种标签语义增强的弱监督文本分类模型。首先,基于单词上下文语义表示对类别词表去噪,从而构建高度准确的类别词表;然后,构建基于MASK机制的词类别预测任务对预训练模型BERT进行微调,以学习单词与类别的关系;最后,利用引入标签语义的自训练模块来充分利用所有数据信息并减少标签噪声的影响,以实现词级到句子级语义的转换,从而准确预测文本序列类别。实验结果表明,与目前最先进的弱监督文本分类模型LOTClass相比,所提方法在THUCNews、AG News和IMDB公开数据集上,分类准确率分别提高了5.29、1.41和1.86个百分点。
-
关键词
弱监督文本分类
BERT
MASK机制
标签语义
标签噪声
自训练
-
Keywords
weakly-supervised text classification
BERT(Bidirectional Encoder Representations from Transformers)
MASK mechanism
label semantics
label noise
self-training
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-