池化和注意力相结合的新闻文本分类方法被引量：4

Method of News Text Classification Combining Pooling and Attention Mechanism

下载PDF

导出

摘要信息时代互联网上产生了海量的文本数据,它们蕴含着巨大的商业和科研价值,由此文本分类技术得到了广泛的关注.文本分类在信息检索等应用领域占据着重要地位,同时也是自然语言处理等研究的关键技术.本文针对新闻文本的特点以及深度学习分类方法训练时间长的问题,提出了一种池化和注意力相结合的模型,并将其应用于中文新闻文本分类.该模型首先利用最大池化和平均池化提取出文本特征,然后利用注意力机制为句子生成权重,使用两者的拼接结果进行分类.模型在NLPCC2014新闻文本分类的数据集上进行了实验,一级类别的分类正确率达到了83. 96%,接近该数据集上的最优结果,而且比标准深度学习算法的收敛时间更短. In the information age,a large amount of text data has been generated on the Internet,which contains great commercial and scientific value. Therefore,text classification technology has been widely concerned. Text classification plays an important role in application fields such as information retrieval,and it is also a common task in scientific research such as natural language processing. Aiming at the characteristics of news text and the long training time of deep learning classification method,this paper proposes a model combining pooling and attention,and applies it to the task of Chinese news text classification. The model first extracts text features by max-pooling and average pooling,then generates weights for sentences by attention mechanism,and classifies texts using the splicing results of the two. The model is conducted on the data set of NLPCC2014 news text classification. The classification accuracy of the first-level category reaches to83. 96%,closing to the optimal result of the data set,and the convergence time of the model is much shorter than that of the standard deep learning algorithm.

作者陶永才杨朝阳石磊卫琳 TAO Yong-cai;YANG Zhao-yang;SHI Lei;WEI Lin(School of Information Engineering,Zhengzhou University,Zhengzhou 450001,China;School of Software,Zhengzhou University,Zhengzhou 450002,China)

机构地区郑州大学信息工程学院郑州大学软件技术学院

出处《小型微型计算机系统》 CSCD 北大核心 2019年第11期2393-2397,共5页 Journal of Chinese Computer Systems

基金河南省高等学校重点科研项目(16A520027)资助

关键词文本分类注意力机制最大池化机器学习 text classification attention mechanism max pooling machine learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1周茜,赵明生,扈旻.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23. 被引量：165
2石磊,巴阳,陶永才,卫琳.基于MapReduce的改进CHI文本特征选择机制[J].小型微型计算机系统,2018,39(8):1799-1804. 被引量：4

二级参考文献12

1Yang Yiming,Pederson J O.A Comparative Study on Feature Selection in Text Categorization [A].Proceedings of the 14th International Conference on Machine learning[C].Nashville:Morgan Kaufmann,1997:412-420.
2Y.Yang.Noise reduction in a statistical approach to text categorization[A].Proceedings of the 18th Ann Int ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR95)[C].Seattle:ACM Press,1995:256-263.
3Thorsten Joachims,Text Categorization with Support Vector Machines:Learning with Many Relevant Features[A],In:European Conferrence on Machine Learning (ECML)[C].Berlin:Springer,1998,137-142.
4Mlademnic,D.,Grobelnik,M.Feature Selection for unbalanced class distribution and Nave Bayees[A].Proceedings of the Sixteenth International Conference on Machine Learning[C].Bled:Morgan Kaufmann,1999:258-267.
5梁久祯兰东俊扈旻.基于先验知识的网页特征压缩与线性分类器设计[A]..第十二届全国神经计算学术大会论文集[C].北京:人民邮电出版社,2002.494-501.
6王梦云,曹素青.基于字频向量的中文文本自动分类系统[J].情报学报,2000,19(6):644-649. 被引量：17
7范焱,郑诚,王清毅,蔡庆生,刘洁.用Naive Bayes方法协调分类Web网页[J].软件学报,2001,12(9):1386-1392. 被引量：53
8黄源,李茂,吕建成.一种基于开方检验的特征选择方法[J].计算机科学,2015,42(5):54-56. 被引量：8
9张辉宜,谢业名,袁志祥,孙国华.一种基于概率的卡方特征选择方法[J].计算机工程,2016,42(8):194-198. 被引量：9
10樊存佳,汪友生,王雨婷.一种改进的CHI文本特征选择方法[J].计算机与现代化,2016(11):7-11. 被引量：5

共引文献167

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
3黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国,2009(26):169-170.
4尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
5王荣荣.全局和局部特征提取相融合的中文文本特征提取方法研究[J].河北北方学院学报（自然科学版）,2013,29(3):35-38.
6常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
7翟东海,王佳君,聂洪玉,崔静静.基于互信息的热点词发现和突发性话题检测研究[J].西藏大学学报（社会科学版）,2013,28(4):82-87. 被引量：2
8赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
9陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
10廖莎莎,江铭虎.中文文本分类中基于概念屏蔽层的特征提取方法[J].中文信息学报,2006,20(3):22-28. 被引量：12

同被引文献23

1刘龙飞,杨亮,张绍武,林鸿飞.基于卷积神经网络的微博情感倾向性分析[J].中文信息学报,2015,29(6):159-165. 被引量：98
2ZHANG Yangsen,JIANG Yuru,TONG Yixuan.Study of Sentiment Classification for Chinese Microblog Based on Recurrent Neural Network[J].Chinese Journal of Electronics,2016,25(4):601-607. 被引量：30
3刘伍颖,王琳.面向垃圾短信过滤的亚文档集成学习[J].郑州大学学报（理学版）,2017,49(3):59-64. 被引量：1
4李然,林政,林海伦,王伟平,孟丹.文本情绪分析综述[J].计算机研究与发展,2018,55(1):30-52. 被引量：103
5张晓明,尹鸿峰.基于卷积神经网络和语义信息的场景分类[J].软件,2018,39(1):29-34. 被引量：20
6刘腾飞,于双元,张洪涛,尹鸿峰.基于循环和卷积神经网络的文本分类研究[J].软件,2018,39(1):64-69. 被引量：25
7张仰森,郑佳,黄改娟,蒋玉茹.基于双重注意力模型的微博情感分析方法[J].清华大学学报（自然科学版）,2018,58(2):122-130. 被引量：49
8吴亚熙,岑峰.基于卷积神经网络的多层级目标检测方法[J].软件,2018,39(4):164-169. 被引量：17
9冯兴杰,张志伟,史金钏.基于卷积神经网络和注意力模型的文本情感分析[J].计算机应用研究,2018,35(5):1434-1436. 被引量：63
10陈洁,邵志清,张欢欢,费佳慧.基于并行混合神经网络模型的短文本情感分析[J].计算机应用,2019,39(8):2192-2197. 被引量：16

引证文献4

1熊宽.一种基于嵌入式注意力机制的文本分类方法[J].软件,2020,41(6):171-176.
2陈欣,杨小兵,姚雨虹.字词融合的双通道混合神经网络情感分析模型[J].小型微型计算机系统,2021,42(2):279-284. 被引量：6
3陈立潮,秦杰,陆望东,潘理虎,张睿.自注意力机制的短文本分类方法[J].计算机工程与设计,2022,43(3):728-734. 被引量：13
4王乾,曾诚,何鹏,张海丰,余新言.基于RoBERTa-RCNN和注意力池化的新闻主题文本分类[J].郑州大学学报（理学版）,2024,56(2):43-50. 被引量：1

二级引证文献20

1徐新燕,张顺香.融合情感特征的卷积神经网络情感分类模型[J].阜阳师范大学学报（自然科学版）,2021,38(4):57-61. 被引量：2
2廖黾,刘德喜,万常选,刘喜平,廖国琼.目标语义与位置融合的方面意见词抽取[J].小型微型计算机系统,2022,43(9):1908-1917. 被引量：1
3蔡瑞初,尹婉,许柏炎.融合方向感知Transformer的目标情感分析[J].小型微型计算机系统,2022,43(11):2285-2292. 被引量：1
4王仁超,张毅伟,毛三军.水电工程施工安全隐患文本智能分类与知识挖掘[J].水力发电学报,2022,41(11):96-106. 被引量：15
5李治,孙锐,姚羽轩,李小欢.基于实时事件侦测的兴趣点推荐系统研究[J].数据分析与知识发现,2022,6(10):114-127. 被引量：1
6刘柏霆,管卫利,李陶深.基于XLNet+BiGRU+Att(Label)的文本分类模型[J].广西科学院学报,2022,38(4):412-419. 被引量：1
7淦亚婷,安建业,徐雪.基于深度学习的短文本分类方法研究综述[J].计算机工程与应用,2023,59(4):43-53. 被引量：17
8闫尚义,王靖亚,刘晓文,崔雨萌,陶知众,张晓帆.基于多头自注意力池化与多粒度特征交互融合的微博情感分析[J].数据分析与知识发现,2023,7(4):32-45. 被引量：1
9原明君,江开忠.结合双预训练语言模型的中文文本分类模型[J].智能计算机与应用,2023,13(7):1-6.
10周震震,宋云海,何宇浩,王黎伟,黄和燕,何珏,朱志航,闫云凤.基于分组查询注意力的可扩展电力人员行为分类方法[J].中国电力,2023,56(11):77-85. 被引量：1

1苏柳.基于“互联网+”背景下《泰语报刊选读》课程的创新与实践[J].才智,2019(28):194-195.
2方红,韩星煜,徐涛.改进型基于LSTM的股票预测方法[J].安徽大学学报（自然科学版）,2019,43(6):36-42. 被引量：8
3杨蓉,王雯,刘婷婷.大学治理、财务管理与价值增值关系研究[J].华东师范大学学报（教育科学版）,2019,37(6):83-93. 被引量：9
4顾海良.马克思主义在中国传播起始阶段的思想过程和文本特征——《马藏》第一部第一至五卷论要[J].教学与研究,2019,0(11):16-27. 被引量：5
5无.关于假冒杂志网站和邮箱的声明[J].公路与汽运,2019,0(6):57-57.
6易魁,王亚停,于丽霞.自媒体语境下电影趣缘社群特征解构及营销策略研究——以《哪吒之魔童降世》为例[J].出版广角,2019(20):88-90. 被引量：7
7张杰.《纽约时报》对中国青年报道的批评话语分析——基于费尔克拉夫话语分析模式[J].山东青年政治学院学报,2019,35(6):61-67. 被引量：8
8乌铁红,李猛,郝孝园.地方感视角下民族旅游城市的旅游要素感知分析——以内蒙古呼和浩特市为例[J].内蒙古大学学报（哲学社会科学版）,2019,51(5):32-39. 被引量：3
9刘均达.圈养鲸豚类血常规和血液生化指标数值测定研究[J].中文科技期刊数据库（全文版）农业科学,2019(5):135-138.
10杨宇敏,江桐,朱志杰.熄风通络头痛片中冰片包合工艺考察[J].人参研究,2019,31(5):35-37.

小型微型计算机系统

2019年第11期

浏览历史

内容加载中请稍等...

池化和注意力相结合的新闻文本分类方法被引量：4

参考文献2

二级参考文献12

共引文献167

同被引文献23

引证文献4

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

池化和注意力相结合的新闻文本分类方法 被引量：4

参考文献2

二级参考文献12

共引文献167

同被引文献23

引证文献4

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

池化和注意力相结合的新闻文本分类方法被引量：4