用于短文本分类的DC-BiGRU_CNN模型被引量：15

DC-BiGRU_CNN Model for Short-text Classification

下载PDF

导出

摘要文本分类是自然语言处理中一项比较基础的任务,如今深度学习技术被广泛用于处理文本分类任务。在处理文本序列时,卷积神经网络可以提取局部特征,循环神经网络可以提取全局特征,它们都表现出了不错的效果。但是,卷积神经网络不能很好地捕获文本的上下文相关语义信息,循环神经网路对语义的关键信息不敏感。另外,利用更深层次的网络虽然可以更好地提取特征,但是容易产生梯度消失或梯度爆炸问题。针对以上问题,文中提出了一种基于密集连接循环门控单元卷积网络的混合模型(DC-BiGRU_CNN)。该模型首先用一个标准的卷积神经网络训练出字符级词向量,然后将其与词级词向量进行拼接并作为网络输入层。受密集连接卷积网络的启发,在对文本进行高级语义建模阶段时,采用文中提出的密集连接双向门控循环单元,其可以弥补梯度消失或梯度爆炸的缺陷,并且加强了每一层特征之间的传递,实现了特征复用;对前面提取的深层高级语义表示进行卷积和池化操作以获得最终的语义特征表示,再将其输入到softmax层,实现对文本的分类。在多个公开数据集上的研究结果表明,DC-BiGRU_CNN模型在执行文本分类任务时准确率有显著提升。此外,通过实验分析了模型的不同部件对性能提升的作用,研究了句子的最大长度值、网络的层数、卷积核的大小等参数对模型效果的影响。 Text classification is a basic task in natural language processing.Nowadays,it is more and more popular to use deep learning technology to deal with text classification tasks.When processing text sequences,convolutional neural networks can extract local features,and recurrent neural networks can extract global features,all of which show good effect.However,convolutional neural networks can not capture the context-related semantic information of text very well,and recurrent networks are not sensitive to the key semantic information.In addition,although deeper networks can better extract features,they are prone to gradient disappearance or gradient explosion.To solve these problems,this paper proposed a hybrid model based on densely connected gated recurrent unit convolutional networks(DC-BiGRU_CNN).Firstly,a standard convolutional neural network is used to train the character-level word vector,and then the character-level word vector is spliced with the word-level word vector to form the network input layer.Inspired by the densely connected convolutional network,a proposed densely connected bidirectional gated recurrent unit is used in the stage of high-level semantic modeling of text,which can alleviate the defect of gradient disappearance or gradient explosion and enhance the transfer between features of each layer,thus achieving feature reuse.Next,the convolution and pooling operation are conducted for the deep high-level semantic representation to obtain the final semantic feature representation,which is then input to the softmax layer to complete text classification task.The experimental results on several public datasets show that DC-BiGRU_CNN has a significant performance improvement in terms of the accuracy for text classification tasks.In addition,this paper analyzed the effect of different components of the model on perfor-mance improvement,and studied the effect of parameters such as the maximum length of sentence,the number of layers of the network and the size of the convolution kernel on the model.

作者郑诚薛满意洪彤彤宋飞豹 ZHENG Cheng;XUE Man-yi;HONG Tong-tong;SONG Fei-bao(School of Computer Science and Technology,Anhui University,Hefei 230601,China;Key Laboratory of Intelligent Computing&Signal Processing,Ministry of Education,Hefei 230601,China)

机构地区安徽大学计算机科学与技术学院计算智能与信号处理教育部重点实验室

出处《计算机科学》 CSCD 北大核心 2019年第11期186-192,共7页 Computer Science

关键词字符级词向量双向门控循环单元密集连接卷积神经网络文本分类 Character-level word vector Bi-directional gated recurrent unit Dense connection Convolutional neural network Text classification

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1刘龙飞,杨亮,张绍武,林鸿飞.基于卷积神经网络的微博情感倾向性分析[J].中文信息学报,2015,29(6):159-165. 被引量：95

二级参考文献19

1Pang B, Lee L. Seeing stars: Exploiting class relation- ships for sentiment categorization with respect to rating scales[C]//Proceedings o~ the 43rd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2005: 115-124.
2LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition [C]//Pro- ceedings of the IEEE, 1998, 86(11) : 2278-2324.
3Yih W, He X, Meek C. Semantic parsing for single-rela- tion question answering[C]//Proceedings of ACL 2014.
4Shen Y, He X, Gao J, et al. Learning semantic repre- sentations using convolutional neural networks for web search[C]//Proceedings of the companion publication of the 23rd international conference on World wide web companion. International World Wide Web Confer- ences Steering Committee, 2014: 373-374.
5Blunsom P, Grefenstette E, Kalehbrenner N. A conv- olutional neural network for modelling sentences[C]// Proceedings of the 52nd Annual Meeting of the Associ- ation for Computational Linguistics. 2014.
6Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch[J].The Journal of Ma- chine Learning Research, 2011, 12: 2493-2537.
7dos Santos C N, Gatti M. Deep convolutional neural networks for sentiment analysis of short texts[C]// Proceedings of the 25th International Conference on Computational Linguistics (COLING). Dublin, Ire-land. 2014.
8Kim Y. Convolutional neural networks for sentence classification[C]//Proceedings of the EMNLP,2014.
9Turney P D. Thumbs up or thumbs down? : semantic orientation applied to Unsupervised classification of reviews[C]//Proceedings of the 40th annual meeting on association for computational linguistics. Associa- tion for Computational Linguistics, 2002: 417-424.
10Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks [C]//Advances in neural information processing sys- tems. 2012: 1097-1105.

共引文献94

1刘建友.基于神经网络的搜索引擎模型构建研究[J].网络安全技术与应用,2020,0(2):39-40.
2欧阳焱,刘光大,杨昌智.空调水泵节能运行设计探讨[J].工程设计与研究（长沙）,2000(1):25-28. 被引量：1
3闫龙川,白东霞,刘万涛,刘殷,李莉敏.人工智能技术在云计算数据中心能量管理中的应用与展望[J].中国电机工程学报,2019,39(1):31-42. 被引量：37
4王林,李昀泽.情感倾向分析在舆情监控方面的研究[J].微型机与应用,2017,36(5):11-13. 被引量：3
5黄发良,冯时,王大玲,于戈.基于多特征融合的微博主题情感挖掘[J].计算机学报,2017,40(4):872-888. 被引量：60
6顾斌,彭涛,车伟.基于词典扩充的电力客服工单情感倾向性分析[J].现代电子技术,2017,40(11):163-166. 被引量：6
7安璐,吴林.融合主题与情感特征的突发事件微博舆情演化分析[J].图书情报工作,2017,61(15):120-129. 被引量：109
8朱岩,刘扬,李丹丹,时鹏.面向舆情的社交媒体文本倾向性分析[J].信息安全研究,2017,3(9):781-794.
9奠雨洁,金琴,吴慧敏.基于多文本特征融合的中文微博的立场检测[J].计算机工程与应用,2017,53(21):77-84. 被引量：23
10谢晓晖,王超,刘奕群,张敏,马少平.基于深度神经网络的搜索引擎点击模型构建[J].中文信息学报,2017,31(5):146-155. 被引量：3

同被引文献130

1陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
2余本功,许庆堂,张培行.基于MAC-LSTM的问题分类研究[J].计算机应用研究,2020,37(1):40-43. 被引量：15
3胡泽文,王效岳,白如江.国内外文本分类研究计量分析与综述[J].图书情报工作,2011,55(6):78-81. 被引量：16
4薛春香,张玉芳.面向新闻领域的中文文本分类研究综述[J].图书情报工作,2013,57(14):134-139. 被引量：24
5申超.反垃圾邮件新技术在新华网电子邮局中的应用研究[J].中国传媒科技,2013(8):58-61. 被引量：1
6张涛,杨剑,宋文爱,宋超峰.关于改进的激活函数TReLU的研究[J].小型微型计算机系统,2019,40(1):58-63. 被引量：9
7赵虹,王西成,胡卫国,曹廷杰,李博.黄淮南片麦区小麦倒春寒冻害成因及预防措施[J].河南农业科学,2014,43(8):34-38. 被引量：68
8路永和,王鸿滨.文本分类中受词性影响的特征权重计算方法[J].现代图书情报技术,2015(4):18-25. 被引量：9
9樊存佳,汪友生,边航.一种改进的KNN文本分类算法[J].国外电子测量技术,2015,34(12):39-43. 被引量：25
10刘龙飞,杨亮,张绍武,林鸿飞.基于卷积神经网络的微博情感倾向性分析[J].中文信息学报,2015,29(6):159-165. 被引量：95

引证文献15

1熊漩,严佩敏.融合多头自注意力机制的中文分类方法[J].电子测量技术,2020(10):125-130. 被引量：7
2王景田,杨赴云,张月英.单胺氧化酶抑制剂及其相互作用[J].中国药学杂志,2000,35(5):351-353. 被引量：16
3吴汉瑜,严江,黄少滨,李熔盛,姜梦奇.用于文本分类的CNN_BiLSTM_Attention混合模型[J].计算机科学,2020,47(S02):23-27. 被引量：24
4方晓东,刘昌辉,王丽亚,殷兴.基于BERT的复合网络模型的中文文本分类[J].武汉工程大学学报,2020,42(6):688-692. 被引量：7
5陈欣,杨小兵,姚雨虹.字词融合的双通道混合神经网络情感分析模型[J].小型微型计算机系统,2021,42(2):279-284. 被引量：6
6胡玉兰,赵青杉,牛永洁,陈莉.基于分层Attention机制的Bi-GRU中文文本分类模型[J].长春师范大学学报,2021,40(2):39-45. 被引量：1
7赵宇轩,胡怀湘.基于BiGRU-Attention-CNN模型的垃圾邮件检测方法[J].计算机与现代化,2021(4):122-126. 被引量：5
8马建红,刘亚培,刘言东,陶永才,石磊,卫琳.CGGA:一种CNN与并行门控机制混合的文本分类模型[J].小型微型计算机系统,2021,42(3):516-521. 被引量：4
9曹迪龙,杨文晖,苗放.基于区块链的数字作品交易系统的研究[J].计算机技术与发展,2021,31(4):192-197.
10齐佳琪,迟呈英,战学刚.ERNIE-CNN文本分类模型[J].辽宁科技大学学报,2021,44(1):56-61. 被引量：4

二级引证文献93

1安胜彪,娄慧儒,白宇.一种改进YOLOv4的半导体芯片表面字符识别算法[J].国外电子测量技术,2022,41(4):77-82. 被引量：5
2胡丰林,丁晓娟,杨成,李增智,樊美珍.一种白僵菌中MAO抑制剂的分离纯化和结构鉴定[J].菌物学报,2006,25(2):273-277. 被引量：7
3吴洪,黄真珠,陈秀娟,黄增平,郑勇.肼基单胺氧化酶抑制剂活性与电子结构构效关系的计算分析[J].中国生物化学与分子生物学报,2007,23(11):959-962. 被引量：1
4龙项,李浩,湛延风,冯默.中西药物相互作用探讨[J].中国中西医结合杂志,2009,29(5):457-460. 被引量：22
5左申存.探讨中心摆药过程中存在的问题和改进方向[J].安徽医药,2009,13(11):1434-1435. 被引量：5
6冯超英,陈点点.单胺氧化酶抑制剂与药物及食物间的相互作用及其配伍[J].临床误诊误治,2010,23(4):384-385. 被引量：8
7刘江,张小琴,韩隽,刘俊彪,黄锋,马彬彬,王宇光.香豆素类荧光探针在检测方面的研究进展[J].浙江化工,2010,41(9):27-31. 被引量：5
8魏宏强,康瑞,李爱玲,赵秀娟.阿立哌唑辅助氟伏沙明治疗强迫障碍的临床观察[J].中国医学创新,2013,10(11):7-9. 被引量：3
9裴英,杨中铎,李志忠,舒宗美,师音.药用植物内生真菌的分离及其次生代谢产物生物活性研究[J].中国食品工业,2013(12):64-66.
10冯建芳,王艳飞,范丽丽,张琦.储藏温度对低温发酵乳口感的影响研究[J].中国食品工业,2013(12):67-68. 被引量：1

1本刊编辑部.本刊各栏目撰写要求[J].中华眼外伤职业眼病杂志,2019,41(10):748-748.
2胡琼.基于深度卷积神经网络的遥感图像目标识别与检测[J].宁夏师范学院学报,2019,40(10):75-79. 被引量：3
3黄为,李永刚,胡上成,汪毅.基于循环神经网络的船摇数据实时预测[J].科学技术与工程,2019,19(31):222-226. 被引量：7
4段丽华.浅谈小学语文教学中学生阅读能力的培养[J].下一代,2019(9):0127-0127.
5马思丹,刘东苏.基于加权Word2vec的文本分类方法研究[J].情报科学,2019,37(11):38-42. 被引量：23
6李红,臧晶.基于深度学习的人体行为识别技术研究[J].科技资讯,2019,17(29):23-23. 被引量：1
7胡春涛,秦锦康,陈静梅,张亮.基于BERT模型的舆情分类应用研究[J].网络安全技术与应用,2019,0(11):41-44. 被引量：12
8仲会娟,谢朝和,刘文武,刘大茂.基于CNN的多尺度特征在手写数字识别中的应用[J].绵阳师范学院学报,2019,38(11):22-26. 被引量：4
9柳亦婷,李培峰.基于局部实体特征的事件触发词抽取[J].计算机工程,2019,45(11):213-217. 被引量：2
10曲琦,张正凯,许胜之.基于LSTM-ICNN的网络情报信息技术研究[J].电子测量技术,2019,42(18):144-148. 被引量：7

计算机科学

2019年第11期

浏览历史

内容加载中请稍等...

用于短文本分类的DC-BiGRU_CNN模型被引量：15

参考文献1

二级参考文献19

共引文献94

同被引文献130

引证文献15

二级引证文献93

相关作者

相关机构

相关主题

浏览历史

用于短文本分类的DC-BiGRU_CNN模型 被引量：15

参考文献1

二级参考文献19

共引文献94

同被引文献130

引证文献15

二级引证文献93

相关作者

相关机构

相关主题

浏览历史

用于短文本分类的DC-BiGRU_CNN模型被引量：15