面向中文新闻文本分类的融合网络模型被引量：10

A Fusion Network for Chinese News Text Classification

下载PDF

导出

摘要针对神经网络文本分类模型随着层数的加深,在训练过程中发生梯度爆炸或消失以及学习到的词在文本中的语义信息不够全面的问题,该文提出了一种面向中文新闻文本分类的融合网络模型。该模型首先采用密集连接的双向门控循环神经网络学习文本的深层语义表示,然后将前一层学到的文本表示通过最大池化层降低特征词向量维度,同时保留其主要特征,并采用自注意力机制获取文本中更关键的特征信息,最后将所学习到的文本表示拼接后通过分类器对文本进行分类。实验结果表明:所提出的融合模型在中文新闻长文本分类数据集NLPCC2014上进行实验,其精度、召回率、F1-score指标均优于最新模型AC-BiLSTM。 To avoid the issue of gradient disappearance or gradient explosion associated with the deeper layers and better capture the word semantic information, this paper proposed a fusion network for Chinese news text classification. Firstly, this paper applies the densely connected bi-GRU to learn the deep semantic representation. Secondly, it applies max-pooling layer to reduce the key vector dimension. Thirdly, it adopted the self-attention mechanism to capture more important features. Finally, the learning representations are concatenated as the input of the classifier. The experimental results on NLPCC2014 dataset show that the proposed fusion model is better than the latest model AC-BiLSTM.

作者胡玉兰赵青杉陈莉牛永洁 HU Yulan;ZHAO Qingshan;CHEN Li;NIU Yongjie(Department of Computer,Xinzhou Teachers University,Xinzhou,Shanxi 034000,China;School of Information Science&Technology,Northwest University,Xi'an,Shaanxi 710127,China;School of Mathematics&Computer Science,Yan'an University,Yan'an,Shaanxi 716000,China)

机构地区忻州师范学院计算机系西北大学信息科学与技术学院延安大学数学与计算机科学学院

出处《中文信息学报》 CSCD 北大核心 2021年第3期107-114,共8页 Journal of Chinese Information Processing

基金国家重点研发项目(2017YFB402103-1)。

关键词文本分类密集连接双向门控循环神经网络最大池化自注意力机制 text classification dense connection bi-direction gated recurrent unit max pooling self-attention mechanism

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1吴小华,陈莉,魏甜甜,范婷婷.基于Self-Attention和Bi-LSTM的中文短文本情感分析[J].中文信息学报,2019,33(6):100-107. 被引量：51

二级参考文献7

1许云,樊孝忠,张锋.一种不需分词的中文文本分类方法[J].北京理工大学学报,2005,25(9):778-781. 被引量：5
2王仲远,程健鹏,王海勋,文继荣.短文本理解研究[J].计算机研究与发展,2016,53(2):262-269. 被引量：49
3刘龙飞,杨亮,张绍武,林鸿飞.基于卷积神经网络的微博情感倾向性分析[J].中文信息学报,2015,29(6):159-165. 被引量：95
4陈钊,徐睿峰,桂林,陆勤.结合卷积神经网络和词语情感序列特征的中文情感分析[J].中文信息学报,2015,29(6):172-178. 被引量：48
5江伟,金忠.基于短语注意机制的文本分类[J].中文信息学报,2018,32(2):102-109. 被引量：11
6赵勤鲁,蔡晓东,李波,吕璐.基于LSTM-Attention神经网络的文本特征提取方法[J].现代电子技术,2018,41(8):167-170. 被引量：29
7冯兴杰,张志伟,史金钏.基于卷积神经网络和注意力模型的文本情感分析[J].计算机应用研究,2018,35(5):1434-1436. 被引量：61

共引文献50

1李丽华,胡小龙.基于深度学习的文本情感分析[J].湖北大学学报（自然科学版）,2020,42(2):142-149. 被引量：2
2崔昕阳,龙华,熊新,邵玉斌,杜庆治.基于并行双向门控循环单元与自注意力机制的中文文本情感分类[J].北京化工大学学报（自然科学版）,2020,47(2):115-123. 被引量：4
3胡盛伟,李弼程,林孔杰,熊尧.MaskAE:基于无监督的短文本情感迁移方法[J].中文信息学报,2020,34(2):105-112. 被引量：2
4孙敏,李旸,庄正飞,钱涛.基于BGRU和自注意力机制的情感分析[J].江汉大学学报（自然科学版）,2020,48(4):80-89. 被引量：5
5陈欢,黄勃,朱翌民,俞雷,余宇新.结合LDA与Self-Attention的短文本情感分类方法[J].计算机工程与应用,2020,56(18):165-170. 被引量：7
6刘慧敏,甄佳奇,刘勇,解洪富,许文超.基于PCA-Attention-LSTM网络的土壤氮含量监测[J].中国农机化学报,2020,41(9):190-197. 被引量：1
7柴悦,赵彤洲,江逸琪,高佩东.基于Att-iBi-LSTM的新闻主题词提取方法研究[J].武汉工程大学学报,2020,42(5):575-580.
8程艳,尧磊波,张光河,唐天伟,项国雄,陈豪迈,冯悦,蔡壮.基于注意力机制的多通道CNN和BiGRU的文本情感倾向性分析[J].计算机研究与发展,2020,57(12):2583-2595. 被引量：42
9方晓东,刘昌辉,王丽亚,殷兴.基于BERT的复合网络模型的中文文本分类[J].武汉工程大学学报,2020,42(6):688-692. 被引量：7
10李磊,吴旭辉,刘继.融合关键对象识别与深层自注意力的Bi-LSTM情感分析模型[J].小型微型计算机系统,2021,42(3):504-509. 被引量：11

同被引文献103

1葛艳,郑利杰,杜军威,陈卓.基于BLSTM-Attention神经网络模型的化工事故分类[J].计算机系统应用,2020,29(10):205-210. 被引量：2
2冯超,黎海辉,赵洪雅,薛云,唐婧尧.基于层次注意力机制和门机制的属性级别情感分析[J].中文信息学报,2021,35(10):128-136. 被引量：5
3何宇虹,黄沛杰,杜泽峰,刘威,朱建恺,章锦川.结合特殊领域实体识别的远监督话语领域分类[J].中文信息学报,2020(5):10-18. 被引量：1
4赵筱媛,苏竣.基于政策工具的公共科技政策分析框架研究[J].科学学研究,2007,25(1):52-56. 被引量：351
5张永奎,李红娟.基于类别关键词的突发事件新闻文本分类方法[J].计算机应用,2008,28(B06):139-140. 被引量：11
6王勇.基于特征空间中样本选取与分离的SVM简化方法[J].长春工业大学学报,2008,29(5):486-491. 被引量：4
7施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
8吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35. 被引量：161
9夏华林,张仰森.基于规则与统计的Web突发事件新闻多层次分类[J].计算机应用,2012,32(2):392-394. 被引量：8
10庞观松,蒋盛益.文本自动分类技术研究综述[J].情报理论与实践,2012,35(2):123-128. 被引量：33

引证文献10

1加米拉·吾守尔,吴迪,王路路,古丽尼格尔·阿不都外力,买合木提·买买提,吐尔根·依布拉音.基于多卷积核DPCNN的维吾尔语文本分类联合模型[J].中文信息学报,2021,35(7):63-71. 被引量：7
2张丽杰,张甜甜,周威威.抽取式文本摘要新闻文本分类[J].长春工业大学学报,2021,42(6):558-564. 被引量：1
3沈自强,李晔,丁青艳,王金颖,白全民.基于BERT模型的科技政策文本分类研究[J].数字图书馆论坛,2022(1):10-16. 被引量：15
4熊伟,宫禹.基于元学习的不平衡少样本情况下的文本分类研究[J].中文信息学报,2022,36(1):104-116. 被引量：5
5陈果,叶潮.融合半监督学习与主动学习的细分领域新闻分类研究[J].数据分析与知识发现,2022,6(4):28-38. 被引量：1
6苗宇,金醒男,杜永萍.基于Multi-Aspect的融合网络用户画像生成方法[J].计算机技术与发展,2022,32(8):20-25. 被引量：2
7李志明,孙艳,何宜昊,申利民.融合类别特征扩展与N-gram子词过滤的fastText短文本分类[J].小型微型计算机系统,2022,43(8):1596-1601. 被引量：3
8马式琨,滕冲,李霏,姬东鸿.基于领域特征提纯的多领域文本分类[J].中文信息学报,2022,36(8):92-100. 被引量：1
9耿新青,王正欧.基于增量式模糊聚类算法的文本挖掘[J].南京理工大学学报,2022,46(5):579-585. 被引量：1
10於雯.基于机器学习的网上问政文本分类方法[J].电脑知识与技术,2023,19(6):22-24.

二级引证文献35

1宋冠谕,程登,张森,刘威,丁晓雯.基于BERT的语音文本二分类方法[J].计算机应用文摘,2022,38(18):96-98.
2王仁超,张毅伟,毛三军.水电工程施工安全隐患文本智能分类与知识挖掘[J].水力发电学报,2022,41(11):96-106. 被引量：9
3冯梦莹,白如江,张玉洁,王效岳,耿振东,王志民.面向数字人文的稷下思想自动分类研究[J].图书情报工作,2022,66(19):26-35. 被引量：1
4许文军,郑虹,郑肇谦.基于ALBERT预训练模型生成式文本摘要[J].长春工业大学学报,2022,43(6):719-725. 被引量：1
5陈寅,马佳斌.基于ERNIE-DPCNN模型的地址清洗匹配方法研究[J].地矿测绘,2022,38(4):7-11.
6李子成,常晓琴,李雅梦,李寿山,周国栋.基于联合学习的少样本多类别情感分类方法[J].北京大学学报（自然科学版）,2023,59(1):57-64.
7刘江峰,林立涛,刘畅,何洪旭,吴娜,沈思,王东波.深度学习驱动的海量人文社会科学学术文献学科分类研究[J].情报理论与实践,2023,46(2):71-81. 被引量：11
8陈浩,柴鹏鑫,卓嘎.常用藏语词汇语音评价关键技术研究和仿真实现[J].信息与电脑,2023,35(2):177-180.
9曹玲静,张志强.政策信息学视角下政策文本量化方法研究进展[J].图书与情报,2022(6):70-82. 被引量：13
10张博旭,蒲智,程曦.基于提示学习的维吾尔语文本分类研究[J].计算机工程,2023,49(6):292-299. 被引量：3

1罗玉杰,晏忠泰,杨科,彭德中.中文文本层次多标签分类算法研究[J].现代计算机,2021,27(9):8-14. 被引量：2

中文信息学报

2021年第3期

浏览历史

内容加载中请稍等...

面向中文新闻文本分类的融合网络模型被引量：10

参考文献1

二级参考文献7

共引文献50

同被引文献103

引证文献10

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

面向中文新闻文本分类的融合网络模型 被引量：10

参考文献1

二级参考文献7

共引文献50

同被引文献103

引证文献10

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

面向中文新闻文本分类的融合网络模型被引量：10