融合概率类别特征增强的短文本分类

Short text classification enhanced with probabilistic category features

下载PDF

导出

摘要对短文本所含信息量缺乏而导致分类准确度难以提升的问题进行研究,提出一种融合概率类别特征增强的短文本分类网络模型FT_BDCNN。将N-gram处理后产生的N元词典通过TF-IDF分离出具有概率类别区分度的特征信息(FT模块);将向量化表示后的文本信息输入到改进后的特征提取模块中;将两个模块的输出进行特征融合,完成文本分类。实验结果表明,所提模型在THUCNews数据集上的F1值达到91.91%。FT模块可以与现有分类模型进行融合,提升模型的分类性能。 The problem of difficulty in improving classification accuracy due to the lack of information contained in short text was studied,and a short text classification network model,FT_BDCNN,based on the enhancement of probability category features,was proposed.The N-gram was processed to generate an N-element dictionary,and then TF-IDF was used to separate out the feature information with probability category discrimination(FT module).The text information after vectorization representation was input into the improved feature extraction module.The outputs of the two modules were fused with features to complete the text classification.Experimental results show that the F 1 value of the proposed model on the THUCNews dataset reaches 91.91%.The FT module can be integrated with existing classification models to improve the classification performance of the model.

作者廖列法李奎姚秀 LIAO Lie-fa;LI Kui;YAO Xiu(School of Information Engineering,Jiangxi University of Science and Technology,Ganzhou 341000,China;Dean Office,Jiangxi Modern Polytechnic College,Nanchang 330095,China)

机构地区江西理工大学信息工程学院江西现代职业技术学院院长办公室

出处《计算机工程与设计》北大核心 2024年第7期2074-2081,共8页 Computer Engineering and Design

基金国家自然科学基金项目(71462018、71761018)。

关键词类别特征增强短文本双池化特征融合统计算法快速分类深度学习 category feature enhancement short text double pooling feature fusion statistical algorithms quick classification deep learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1王曙燕,原柯.基于RoBERTa-WWM的大学生论坛情感分析模型[J].计算机工程,2022,48(8):292-298. 被引量：14
2罗孝波,林佳瑜,梁祖红,王漳.针对低频词进行改进的中文短文本分类方法[J].计算机应用研究,2022,39(2):468-473. 被引量：3
3韩冲,王俊丽,吴雨茜,张超波.基于神经进化的深度学习模型研究综述[J].电子学报,2021,49(2):372-379. 被引量：16
4李志明,孙艳,何宜昊,申利民.融合类别特征扩展与N-gram子词过滤的fastText短文本分类[J].小型微型计算机系统,2022,43(8):1596-1601. 被引量：4
5王婉,张向先,卢恒,张莉曼.融合FastText模型和注意力机制的网络新闻文本分类模型[J].现代情报,2022,42(3):40-47. 被引量：8
6韩永鹏,陈彩,苏航,梁毅.融合通道特征的混合神经网络文本分类模型[J].中文信息学报,2021,35(2):78-88. 被引量：5
7张焱博,郭凯.基于Fasttext和多融合特征的文本分类模型[J].计算机仿真,2021,38(7):461-466. 被引量：5
8王金政,杨颖,余本功.基于多头协同注意力机制的客户投诉文本分类模型[J].数据分析与知识发现,2023,7(1):128-137. 被引量：2

二级参考文献73

1蒋梦莹,林小竹,柯岩,魏战红.基于权值分布的多模型分类算法研究[J].计算机应用研究,2020,37(1):313-316. 被引量：3
2李雄飞,王婧,张小利,范铁虎.基于SVM和窗口梯度的多焦距图像融合方法[J].吉林大学学报（工学版）,2020,50(1):227-236. 被引量：5
3翟林,刘亚军.支持向量机的中文文本分类研究[J].计算机与数字工程,2005,33(3):21-23. 被引量：14
4苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
5李荣艳,金鑫,王春辉,郑宁,别荣芳.一种新的中文文本分类算法[J].北京师范大学学报（自然科学版）,2006,42(5):501-505. 被引量：6
6林纲.网络新闻文本结构的语法特征[J].社会科学家,2010,25(7):155-157. 被引量：7
7毕凌燕,王腾宇,左文明.基于概率模型的微博热点主题识别实证研究[J].情报理论与实践,2014,37(2):112-116. 被引量：9
8丁兆云,贾焰,周斌.微博数据挖掘研究综述[J].计算机研究与发展,2014,51(4):691-706. 被引量：119
9路永和,王鸿滨.文本分类中受词性影响的特征权重计算方法[J].现代图书情报技术,2015(4):18-25. 被引量：9
10秦锋,王恒,郑啸,王修君.基于上下文语境的微博情感分析[J].计算机工程,2017,34(3):241-246. 被引量：10

共引文献49

1周俊,郑彭元,袁立存,戈为溪,梁静.基于改进CASREL的水稻施肥知识图谱信息抽取研究[J].农业机械学报,2022,53(11):314-322. 被引量：5
2Yuanzhi He,Biao Sheng,Hao Yin,Di Yan,Yingchao Zhang.Multi-Objective Deep Reinforcement Learning Based Time-Frequency Resource Allocation for Multi-Beam Satellite Communications[J].China Communications,2022,19(1):77-91. 被引量：2
3郭羽,林丽媛,刘玉良.基于BERT-GCN-ResNet的文献摘要自动分类方法[J].天津科技大学学报,2022,37(2):51-56.
4李慕梓,戴连君,万盛,张天舒,徐桂花.残疾人信息融合模式探索[J].人口与发展,2022,28(3):156-160. 被引量：1
5任伟建,刘圆圆,计妍,康朝海.基于RNN-LSTM新冠肺炎疫情下的微博舆情分析[J].吉林大学学报（信息科学版）,2022,40(4):581-588. 被引量：5
6杨冰.基于深度学习的英语短语译文智能校对系统[J].自动化与仪器仪表,2022(8):185-188. 被引量：1
7白子诚,周艳玲,张龑.GM-FastText多通道词向量短文本分类模型[J].计算机系统应用,2022,31(9):403-408. 被引量：1
8顾思思,王淼,于加晴.基于MobileNet的车位占用识别及智能停车引导策略研究[J].公路交通科技,2022,39(9):149-154. 被引量：3
9赵文生,方宇浩,王大伟,刘军.微波谐振式传感器研究进展[J].电子学报,2022,50(10):2530-2541.
10毛银,赵俊.基于BERT变种模型的情感分析实现[J].现代计算机,2022,28(18):52-56. 被引量：1

计算机工程与设计

2024年第7期

浏览历史

内容加载中请稍等...

融合概率类别特征增强的短文本分类

参考文献8

二级参考文献73

共引文献49

相关作者

相关机构

相关主题

浏览历史