基于对比学习和注意力机制的文本分类方法

Text Classification Method Based on Contrastive Learning and Attention Mechanism

下载PDF

导出

摘要文本分类作为自然语言处理领域的基本任务,在信息检索、机器翻译和情感分析等应用中发挥着重要作用。然而大多数深度模型在预测时未充分考虑训练实例的丰富信息,导致学到的文本特征不够全面。为了充分利用训练实例信息,提出一种基于对比学习和注意力机制的文本分类方法。首先,设计一种有监督对比学习训练策略,旨在优化模型对文本向量表征的检索,提高模型在推理过程中检索到的训练实例的质量;然后,构建注意力机制,对获取的训练文本特征进行注意力分布学习,聚焦关联性更强的相邻实例信息,获得更多隐含的相似特征;最后,将注意力机制与模型网络相结合,融合相邻的训练实例信息,增强模型提取多样性特征的能力,实现全局特征和局部特征的提取。实验结果表明,所提方法在卷积神经网络(CNN)、双向长短期记忆网络(Bi LSTM)、图卷积网络(GCN)、BERT和Ro BERTa等多个模型上都取得了显著的性能提升。以CNN模型为例,其在THUCNews数据集、今日头条数据集和搜狗数据集上宏F1值分别提高了4.15、6.2和1.92个百分点。因此,该方法也为文本分类任务提供了一种有效的解决方案。 Text classification is a basic task in the field of natural language processing and plays an important role in information retrieval,machine translation,sentiment analysis,and other applications.However,most deep learning models do not fully consider the rich information in training instances during inference,resulting in inadequate text feature learning.To leverage training instance information fully,this paper proposes a text classification method based on contrastive learning and attention mechanism.First,a supervised contrastive learning training strategy is designed to optimize the retrieval of text vector representations,thereby improving the quality of the retrieved training instances during the inference process.Second,an attention mechanism is constructed to learn the attention distribution of the obtained training text features,focusing on adjacent instance information with stronger relevance and capturing more implicit similarity features.Finally,the attention mechanism is combined with the model network,fusing information from adjacent training instances to enhance the ability of the model to extract diverse features and achieve global and local feature extraction.The experimental results demonstrate that this method achieves significant improvements on various models,including Convolutional Neural Network(CNN),Bidirectional Long Short-Term Memory(BiLSTM),Graph Convolutional Network(GCN),Bidirectional Encoder Representations from Transformers(BERT),and RoBERTa.For the CNN model,the macro F1 value is increased by 4.15,6.2,and 1.92 percentage points for the THUCNews,Toutiao,and Sogou datasets,respectively.Therefore,this method provides an effective solution for text classification tasks.

作者钱来赵卫伟 QIAN Lai;ZHAO Weiwei(School of Information and Communication,National University of Defense Technology,Wuhan 430010,Hubei,China)

机构地区国防科技大学信息通信学院

出处《计算机工程》 CAS CSCD 北大核心 2024年第7期104-111,共8页 Computer Engineering

基金国家部委基金。

关键词文本分类深度模型对比学习近似最近邻算法注意力机制 text classification deep model contrastive learning approximate nearest neighbor algorithm attention mechanism

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1郭丽丽,丁世飞.深度学习研究进展[J].计算机科学,2015,42(5):28-33. 被引量：199
2万齐斌,董方敏,孙水发.基于BiLSTM-Attention-CNN混合神经网络的文本分类方法[J].计算机应用与软件,2020,37(9):94-98. 被引量：20
3陈立潮,秦杰,陆望东,潘理虎,张睿.自注意力机制的短文本分类方法[J].计算机工程与设计,2022,43(3):728-734. 被引量：11
4石磊,王明宇,宋哲理,陶永才,卫琳,高宇飞,范雨欣.自注意力机制和BiGRU相结合的文本分类研究[J].小型微型计算机系统,2022,43(12):2541-2548. 被引量：3
5殷亚博,杨文忠,杨慧婷,许超英.基于卷积神经网络和KNN的短文本分类算法研究[J].计算机工程,2018,44(7):193-198. 被引量：41
6王坤,段湘煜.倾向近邻关联的神经机器翻译[J].计算机科学,2019,46(5):198-202. 被引量：5
7朱烨,陈世平.最近邻注意力和卷积神经网络的文本分类模型[J].小型微型计算机系统,2020,41(2):375-380. 被引量：5
8关紫微,吕钊,滕金保.基于最近邻注意力与卷积神经网络的服装分类模型[J].毛纺科技,2023,51(8):105-111. 被引量：1
9朱璐,陈世平.融合情感增强与注意力的文本情感分析模型[J].小型微型计算机系统,2022,43(5):957-963. 被引量：3
10高怡,纪焘,吴苑斌,牟小峰,王椗.基于标签增强和对比学习的鲁棒小样本事件检测[J].中文信息学报,2023,37(4):98-108. 被引量：2

二级参考文献95

1张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
2张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：120
3史忠值.神经网络[M].北京:高等教育出版社,2009.
4李彦宏.2012百度年会主题报告:相信技术的力量[R].北京:百度,2013.
5Rumelhart D,Hinton G,Williams R.Learning representationsby back-propagating errors[J].Nature,1986,323(6088):533-536.
6Hinton G,Salakhutdinov R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.
7Ding Shi-fei,Zhang Yan-an,Chen Jin-rong,et al.Research onUsing Genetic Algorithms to Optimize Elman Neural Networks[J].Neural Computing and Applications,2013,23(2):293-297.
8Ding Shi-fei,Jia Wei-kuan,Su Chun-yang,et al.Research ofNeural Network Algorithm Based on Factor Analysis and Cluster Analysis[J].Neural Computing and Applications,2011,20(2):297-302.
9Lee T S,Mumford D.Hierarchical Bayesian inference in the vi-sual cortex[J].Optical Society of America,2003,20(7):1434-1448.
10Serre T,Wolf L,Bileschi S,et al.Robust object recognition with cortex-like mechanisms[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2007,29(3):411-426.

共引文献288

1李雪松,张骁,管震,陈硕,王建华.基于图像识别技术的钻井井漏溢流智能报警系统开发[J].世界石油工业,2021,28(1):48-54. 被引量：3
2袁丽莉,侯磊,张正平.LDA最大概率填充与BiLSTM模型的文本分类研究[J].智能计算机与应用,2021,11(12):32-36. 被引量：1
3鞠维欣,赵希梅,魏宾,王国栋.基于深度学习的肝硬化识别[J].青岛大学学报（自然科学版）,2018,31(4):54-61. 被引量：5
4陈星沅,姜文博,张培楠.深度学习和机器学习及模式识别的研究[J].科技资讯,2015,13(31):12-13. 被引量：11
5周文杰,杨璐,严建峰.大数据驱动的投诉预测模型[J].计算机科学,2016,43(7):217-223. 被引量：12
6程忱,郭浩,陈俊杰.多节点规模下的抑郁症功能脑网络分类研究[J].计算机科学,2016,43(7):265-267.
7曾安,郑齐弥.基于MIC的深度置信网络研究[J].计算机科学,2016,43(8):249-253. 被引量：2
8朱丰,胡晓峰.基于深度学习的战场态势评估综述与研究展望[J].军事运筹与系统工程,2016,30(3):22-27. 被引量：39
9阚希,张永宏,曹庭,王剑庚,田伟.利用多光谱卫星遥感和深度学习方法进行青藏高原积雪判识[J].测绘学报,2016,45(10):1210-1221. 被引量：22
10刘帅师,程曦,郭文燕,陈奇.深度学习方法研究新进展[J].智能系统学报,2016,11(5):567-577. 被引量：28

1刘恒,林虹宇,吴涛.卷烟厂卷包车间工人违规作业行为检测方法[J].计算机科学,2024,51(S01):541-548.
2荣奕,黄成湘.神经网络机器翻译问题及对策研究——以有道、DeepL、搜狗、百度翻译为中心[J].现代语言学,2024,12(6):218-225.
3刘渠.“宕渠”县名涵义与文化记忆[J].巴蜀史志,2024(2):104-107.
4周艳平,袁绍正.退役军人领域问答库自动构建方法[J].计算机与数字工程,2024,52(4):1033-1038.

计算机工程

2024年第7期

浏览历史

内容加载中请稍等...

基于对比学习和注意力机制的文本分类方法

参考文献14

二级参考文献95

共引文献288

相关作者

相关机构

相关主题

浏览历史