-
题名生成式标签对抗的文本分类模型
- 1
-
-
作者
姚迅
秦忠正
杨捷
-
机构
武汉纺织大学计算机与人工智能学院
伍伦贡大学计算机与信息技术学院
-
出处
《计算机应用》
CSCD
北大核心
2024年第6期1781-1785,共5页
-
文摘
文本分类是自然语言处理(NLP)中的一项基础任务,目的是将文本数据分配至预先定义的类别。图卷积神经网络(GCN)与大规模的预训练模型BERT(Bidirectional Encoder Representations from Transformer)的结合在文本分类任务中取得了良好的效果。大规模异构图中GCN的无向的信息传递产生信息噪声影响模型的判断,造成模型分类能力下降,针对这一问题,提出一种生成式标签对抗模型,即类对抗图卷积网络(CAGCN)模型,以降低分类时无关信息的干扰,提升模型的分类性能。首先,采用TextGCN(Text Graph Convolutional Network)中的构图法构建邻接矩阵,结合GCN和BERT模型作为类生成器(CG);其次,在模型训练时采用伪标签特征训练法,并构建聚类器与类生成器联合训练;最后,在多个广泛使用的数据集上进行实验。实验结果表明,在泛用的分类数据集20NG、R8、R52、Ohsumed和MR上,CAGCN模型的分类准确率比RoBERTaGCN模型分别提高了1.2、0.1、0.5、1.7和0.5个百分点。
-
关键词
文本分类
图卷积神经网络
BERT
伪标签
异构图
-
Keywords
text classification
Graph Convolutional neural Network(GCN)
BERT(Bidirectional Encoder Representations from Transformer)
pseudo-label
heterogeneous graph
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-