-
题名基于关系挖掘和对抗训练的多标签文本分类
- 1
-
-
作者
杨冬菊
程伟飞
-
机构
北方工业大学信息学院
大规模流数据集成与分析技术北京市重点实验室(北方工业大学)
-
出处
《计算机与数字工程》
2024年第1期18-22,42,共6页
-
基金
国家自然科学基金重点项目(编号:61832004)
广州市科技计划项目-重点研发计划(编号:202206030009)资助。
-
文摘
传统的多标签文本分类方法存在忽略标签语义、没有充分利用文本与标签以及标签与标签之间的关系等问题。为了解决以上问题,论文提出了一种基于关系挖掘和对抗训练的多标签文本分类模型。该模型利用了BERT模型和图注意力网络(GAT)分别提取文本的语义信息和挖掘标签之间的关系。首先,通过BERT模型对文本进行编码,以获取文本的语义信息。然后,使用图注意力网络(GAT)来挖掘标签之间的关系,以更好地理解标签之间的依赖关系。为了进一步挖掘文本与可学习的标签嵌入之间的关系,该模型采用了多头自注意力机制。此外,为了提高模型的鲁棒性,论文采用了R-drop策略进行模型训练。实验结果表明,在AAPD和RCV1数据集上,所提出的模型相比当前一些主流的多标签文本分类模型,不仅能够关注文本信息,还能够有效捕捉文本与标签之间的依赖关系以及标签与标签之间的关系,从而取得更好的性能。
-
关键词
BERT
注意力机制
R-drop
图注意网络
归一化
-
Keywords
BERT
attention mechanism
R-drop
graph attention network
normalization
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-