基于BERT-GAT-CorNet多标签中文短文本分类方法被引量：2

Multi-label Chinese short text classification method based on BERT-GAT-CorNet

下载PDF

导出

摘要多标签文本分类问题是多标签分类的一个重要内容,传统的多标签文本分类算法往往只关注文本本身的信息而无法理解深层语义信息,也未考虑标签之间的关系。为了解决这些问题,提出了融合BERT(Bidirectional Encoder Representation from Transformers)-GAT(Graph Attention neTwork)-CorNet(Correlation Network)的多标签文本分类模型。首先,通过预训练模型BERT表示文本的特征向量,并用生成的特征向量建立图结构数据;接着,用GAT来为不同节点分配不同的权重;最后,通过Softmax-CorNet学习标签相关性增强预测并分类。所提模型在今日头条子数据集(TNEWS)和KUAKE-QIC数据集上的准确率分别为93.3%和83.2%,通过对比实验表明,所提模型在多标签文本分类任务上性能得到了有效提升。 Multi-label text classification is an important part of multi-label classification.Traditional multi-label text classification algorithms often only focus on the information of the text itself but cannot understand the deep semantic information,and do not consider the relationship between labels.To address these issues,a multi-label text classification model integrating BERT(Bidirectional Encoder Representation from Transformers)-GAT(Graph Attention neTwork)-CorNet(Correlation Network)was proposed.Firstly,the feature vectors of the text were represented by the pre-trained model BERT,and the generated feature vectors were used to establish graph structure data.At the same time,GAT was used to assign different weights to different nodes.Finally,Softmax CorNet was applied to learn label correlation and then to enhance prediction and classification.The proposed model achieves accuracies of 93.3% and 83.2% on TNEWS and KUAKE-QIC datasets,respectively.Compared with the existing models,the proposed model achieves effective improvements in multi-label text classification tasks.

作者刘新忠赵澳庆谢文武杨志和 LIU Xinzhong;ZHAO Aoqing;XIE Wenwu;YANG Zhihe(College of Information Science and Engineering,Hunan Institute of Science and Technology,Yueyang Hunan 414000,China)

机构地区湖南理工学院信息科学与工程学院

出处《计算机应用》 CSCD 北大核心 2023年第S02期18-21,共4页 journal of Computer Applications

基金湖南省自然科学基金资助项目(2023JJ50045,2023JJ50046)。

关键词多标签文本分类预训练模型图结构数据标签相关性 BERT 图注意网络 CorNet multi-label text classification pre-trained model graph structure data label correlation Bidirectional Encoder Representation from Transformers(BERT) Graph Attention Network(GAT) Correlation Networks(CorNet)

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1刘津,乔宝榆,朱腾翌,宋钰龙,张光,郝敬乾,林莉芳,董豪晨.基于BERT-GAT的科技论文审稿专家推荐算法研究[J].电力信息与通信技术,2022,20(7):75-82. 被引量：6
2QIU XiPeng,SUN TianXiang,XU YiGe,SHAO YunFan,DAI Ning,HUANG XuanJing.Pre-trained models for natural language processing: A survey[J].Science China(Technological Sciences),2020,63(10):1872-1897. 被引量：155
3郑创伟,王泳,邢谷涛,谢志成,陈义飞.基于深度神经网络的中文新闻文本分类方法[J].中国传媒科技,2023(3):147-151. 被引量：1
4王进,陈重元,邓欣,孙开伟.多状态图神经网络文本分类算法[J].重庆邮电大学学报（自然科学版）,2023,35(2):193-201. 被引量：2
5郝超,裘杭萍,孙毅.融合BERT和图注意力网络的多标签文本分类[J].计算机系统应用,2022,31(6):167-174. 被引量：2
6查云杰,汪洋.基于BERT和GCN的引文推荐模型[J].计算机应用与软件,2021,38(1):41-45. 被引量：4

二级参考文献24

1张玉连,袁伟.隐语义模型下的科技论文推荐[J].计算机应用与软件,2015,32(2):37-40. 被引量：9
2谢玮,沈一,马永征.基于图计算的论文审稿自动推荐系统[J].计算机应用研究,2016,33(3):798-801. 被引量：21
3汤志康,李春英,汤庸,黄泳航,蔡奕彬.学术社交平台论文推荐方法[J].计算机与数字工程,2017,45(2):221-225. 被引量：7
4何明,刘毅,常盟盟,吴小飞.基于上下文项目评分分裂的协同过滤推荐[J].计算机科学,2017,44(3):247-253. 被引量：3
5李响,谭静.融合相关性与多样性的学术论文推荐方法研究[J].情报理论与实践,2017,40(6):99-103. 被引量：8
6李薛剑,刘梦雅,海健强,吴雪扬,余雪莉.基于时间效应与隐语义模型的高校图书馆的个性化推荐研究[J].计算机应用与软件,2018,35(5):130-134. 被引量：8
7李泽魁,孙霏,陈珺.新闻媒体领域中文语义分析技术智能化、知识化之路的研究与探索[J].中国传媒科技,2018,0(8):35-37. 被引量：2
8谭辛.政策解读大数据分析应用的实践探究[J].中国传媒科技,2019(3):22-23. 被引量：2
9江虎军,郝艳妮,徐岩英,孙瑞娟.国家自然科学基金项目同行评议的智能化探讨[J].中国科学基金,2019,33(2):149-153. 被引量：21
10潘峰,怀丽波,崔荣一.基于分布式图计算的学术论文推荐算法[J].计算机应用研究,2019,36(6):1629-1632. 被引量：6

共引文献163

1王伟,阮文翰,孟祥福.融合对抗训练的中文GPT对话模型研究[J].辽宁工程技术大学学报（自然科学版）,2023(3):378-384.
2邱凯锋,王则远,何志超,付凯利,梅童霖,关英杰,高飞,伍俊妍.人工智能技术在超说明书用药循证中的应用研究[J].中华临床医师杂志（电子版）,2023,17(12):1212-1218.
3余同瑞,金冉,韩晓臻,李家辉,郁婷.自然语言处理预训练模型的研究综述[J].计算机工程与应用,2020,56(23):12-22. 被引量：49
4Yi HAN,Linbo QIAO,Jianming ZHENG,Hefeng WU,Dongsheng LI,Xiangke LIAO.A survey of script learning[J].Frontiers of Information Technology & Electronic Engineering,2021,22(3):341-373.
5郝超,裘杭萍,孙毅,张超然.多标签文本分类研究进展[J].计算机工程与应用,2021,57(10):48-56. 被引量：25
6邱石贵,章化奥,段湘煜,张民.神经机器翻译的词级别正则化[J].厦门大学学报（自然科学版）,2021,60(4):662-669.
7王涛,刘超辉,郑青青,黄嘉曦.基于单向Transformer和孪生网络的多轮任务型对话技术[J].计算机工程,2021,47(7):55-58.
8陈晓玲,唐丽玉,胡颖,江锋,彭巍,冯先超.基于ALBERT模型的园林植物知识实体与关系抽取方法[J].地球信息科学学报,2021,23(7):1208-1220. 被引量：6
9王永鹏,周晓磊,马慧敏,曹吉龙,无.联合知识的融合训练模型[J].计算机系统应用,2021,30(7):50-56. 被引量：1
10杨修远,彭韬,杨亮,林鸿飞.基于知识蒸馏的自适应多领域情感分析[J].山东大学学报（工学版）,2021,51(3):15-21. 被引量：1

同被引文献20

1张政馗,庞为光,谢文静,吕鸣松,王义.面向实时应用的深度学习研究综述[J].软件学报,2020(9):2654-2677. 被引量：36
2张雪英,叶鹏,王曙,杜咪.基于深度信念网络的地质实体识别方法[J].岩石学报,2018,34(2):343-351. 被引量：38
3赵鹏大.地质大数据特点及其合理开发利用[J].地学前缘,2019,26(4):1-5. 被引量：46
4杜晓敏,潘晓.基于BERT深度学习模型的地质资料目录自动分类研究[J].中国矿业,2021,30(S02):143-148. 被引量：3
5马雨萌,黄金霞,王昉,芮啸.融合BERT与多尺度CNN的科技政策内容多标签分类研究[J].情报杂志,2022,41(11):157-163. 被引量：8
6杨春霞,马文文,陈启岗,桂强.融合CNN-SAM与GAT的多标签文本分类模型[J].计算机工程与应用,2023,59(5):106-114. 被引量：5
7张雪英,张春菊,汪陈,刘文聪,叶鹏,鲁艳旭.面向中文文本的地质语义信息标注与语料库构建[J].高校地质学报,2023,29(3):429-438. 被引量：4
8王宣军,于虹,祁兵,李彬.基于注意力机制的混合神经网络电力设备缺陷文本挖掘方法[J].电力信息与通信技术,2023,21(9):44-51. 被引量：13
9张文峰,奚雪峰,崔志明,邹逸晨,栾进权.多标签文本分类研究回顾与展望[J].计算机工程与应用,2023,59(18):28-48. 被引量：3
10杨兴锐,赵寿为,张如学,陶叶辉,杨兴俊.改进BERT词向量的BiLSTM-Attention文本分类模型[J].传感器与微系统,2023,42(10):160-164. 被引量：6

引证文献2

1张鸿彦.基于特征聚类与降维的新闻文本智能分类算法[J].信息技术与信息化,2024(4):106-109.
2赵锴,叶丹.基于机器学习的矿床描述文本多标签分类[J].中国矿业,2024,33(10):153-161.

1Yuzhe Sun,Zhen Hefu,Benchao Li,Wang Lifang,Song Zhijie,Li Zhou,Yan Deng,Liu Zhili,Jiahong Ding,Tao Li,Wenwei Zhang,Nie Chao,Shuang Rong.Plasma Extracellular Vesicle MicroRNA Analysis of Alzheimer’s Disease Reveals Dysfunction of a Neural Correlation Network[J].Research,2023(4):689-699. 被引量：1
2LIU Jian-jun,LIU He.Structural characteristics and influencing factors of spatial correlation network for regional high-quality development in China[J].Ecological Economy,2023,19(4):329-343.

计算机应用

2023年第S02期

浏览历史

内容加载中请稍等...

基于BERT-GAT-CorNet多标签中文短文本分类方法被引量：2

参考文献6

二级参考文献24

共引文献163

同被引文献20

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于BERT-GAT-CorNet多标签中文短文本分类方法 被引量：2

参考文献6

二级参考文献24

共引文献163

同被引文献20

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于BERT-GAT-CorNet多标签中文短文本分类方法被引量：2