-
题名基于图嵌入和区域注意力的多标签文本分类
被引量:14
- 1
-
-
作者
王进
徐巍
丁一
孙开伟
王利蕾
-
机构
重庆邮电大学数据工程与可视计算重点实验室
南京大学电子科学与工程学院
-
出处
《江苏大学学报(自然科学版)》
CAS
北大核心
2022年第3期310-318,共9页
-
基金
国家自然科学基金青年科学基金资助项目(61806033)
重庆市自然科学基金资助面上项目(cstc2019jcyj-msxmX0021)。
-
文摘
针对传统多标签文本分类模型未考虑标签之间以及标签与文本各个部分之间的相关性、低频标签预测效果不佳的问题,使用图嵌入和区域注意力技术来挖掘标签之间以及标签和文本之间的关系,提出了编码器图嵌入和区域注意力机制解码器模型来处理多标签分类任务.采用Bi-LSTM作为编码器,使用图嵌入技术生成标签嵌入矩阵;利用区域注意力机制结合单词级别与区域级别的信息,使得模型在预测每个标签时考虑文本不同部分的信息,挖掘了文本与标签之间的潜在关联;使用循环神经网络和多层感知机作为解码器结合随机策略梯度算法,减少训练损失,改善多标签分类效果.在AAPD和RCV1-V2多标签文本分类数据集上进行试验,根据数据集特征设置相关参数,以micro-F1和Hamming Loss作为评价指标,对比所提出模型与LP、卷积神经网络等9个经典模型.结果表明,所提出模型能够根据高频标签预测出低频标签,在2个数据集上的micro-F1和Hamming Loss均优于经典模型.
-
关键词
多标签
文本分类
序列到序列模型
图嵌入
区域注意力
循环神经网络
-
Keywords
multi-label
text classification
Seq2Seq model
graph embedding
region attention
RNN
-
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
-