基于TF-IDF特征词提取的不平衡文本分类被引量：1

Unbalanced text classification based on attention mechanism

下载PDF

导出

摘要在文本分类的过程中,文本类别分布不均衡会导致分类准确率下降。针对这个问题,本文提出了一种基于注意力机制的不平衡文本分类方法。首先,利用TF-IDF对每个类别的特征词进行词特征提取;其次,将提取到的词特征和原有的文本拼接进行注意力权重分配;最后,使用softmax分类。实验在复旦大学开源文本数据集上进行,结果表明本文提出的方法相对于其他对比方法更加稳定,准确率有所提高。 In the process of text classification,the unbalanced distribution of text categories will lead to the decline of classification accuracy.To solve this problem,this paper proposes an unbalanced text classification method based on attention mechanism.First,TF-IDF is used to extract the feature words of each category,and then the extracted feature and the original text are spliced to allocate the attention weight of the feature words.Finally,softmax is used for classification.The experiment is carried out on the open source text data set of Fudan University.The experiment shows that the method proposed in this paper is more stable and the accuracy is improved compared with other comparison methods.

作者陈欢王忠震 CHEN Huan;WANG Zhongzhen(School of Electrical and Electronic Engineering,Shanghai University of Engineering and Technology,Shanghai 201620,China)

机构地区上海工程技术大学

出处《智能计算机与应用》 2020年第9期73-76,共4页 Intelligent Computer and Applications

关键词注意力机制不平衡文本分类 TF-IDF attention mechanism unbalanced text classification TF-IDF

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1钟将,刘荣辉.一种改进的KNN文本分类[J].计算机工程与应用,2012,48(2):142-144. 被引量：27
2叶雪梅,毛雪岷,夏锦春,王波.文本分类TF-IDF算法的改进研究[J].计算机工程与应用,2019,55(2):104-109. 被引量：103
3朱张莉,饶元,吴渊,祁江楠,张钰.注意力机制在深度学习中的研究进展[J].中文信息学报,2019,33(6):1-11. 被引量：113
4蒋华,江日辰,王鑫,王慧娇.ADASYN和SMOTE相结合的不平衡数据分类算法[J].计算机仿真,2020,37(3):254-258. 被引量：15
5林怀逸,刘箴,柴玉梅,刘婷婷,柴艳杰.基于词向量预训练的不平衡文本情绪分类[J].中文信息学报,2019,33(5):132-142. 被引量：7
6程艳,朱海,项国雄,唐天伟,钟林辉,王国玮.融合CNN和EWC算法的不平衡文本情绪分类方法[J].中文信息学报,2020(4):92-100. 被引量：5
7万志超,胡峰,邓维斌.面向不平衡文本情感分类的三支决策特征选择方法[J].计算机应用,2019,39(11):3127-3133. 被引量：3
8唐焕玲,刘艳红,郑涵,窦全胜,鲁明羽.融合SLDA主题模型的不均衡文本分类方法[J].计算机工程与应用,2021,57(12):144-154. 被引量：3
9张忠林,曹婷婷.基于重采样与特征选择的不均衡数据分类算法[J].小型微型计算机系统,2020,41(6):1327-1333. 被引量：13
10李勇,刘战东,张海军.不平衡数据的集成分类算法综述[J].计算机应用研究,2014,31(5):1287-1291. 被引量：72

二级参考文献116

1徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：378
3巩军,刘鲁.一种k-NN文本分类器的改进方法[J].情报学报,2007,26(1):56-59. 被引量：10
4Yang Y,Liu X.A re-examination of text categorization methods[C]// Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99).Berkeley:ACM Press, 1999:42-49.
5Vries A D, Marnoulis N, Nes N, et al.Efficient KNN search on vertically decomposed data[C]//Proceedings of the 2002 ACM SIGMOD International Conference on Management of Data, Madison, Wisconsin.Madison: ACM Press,2002:322-333.
6Chawla N V, Japkowicz N, Kotcz A, et al.Special issue on learning from imbalanced data sets[J].SIGKDD _ xplorations Newsletters, 2004,6( 1 ) : 1-6.
7Dumais S T,Fumas G W,I_andaner T K,et akUsing latent semantic analysis to improve information retrieval[C]//Proceedings of CHI' 88: Conference on Human Factors in Computing.New York: ACM, 1998: 281-285.
8Ghosh A K, Chandhuri P, Murtlay C A.Multiscale classification using nearest neighbor density estimates[J].IEEE Transactions on Systems, Man, and Cybernetics-Part B: Cybernetics, 2006,36(5) : 1139-1148.
9WU Xin-dong,KUMAR V,QUINLAN J R,et al.Top 10 algorithms in data mining[J].Knowledge and Information Systems,2008,14(1):1-37.
10CHAWLA N V,JAPKOWICZ N,KOTCZ A.Editorial:special issue on learning from imbalanced data sets[J].ACM SIGKDD Explorations Newsletter,2004,6(1):1-6.

共引文献364

1李村合,姜宇,李帅.基于不等距超平面距离的模糊支持向量机[J].计算机系统应用,2020(10):185-191. 被引量：6
2程凤伟.基于划分融合的非平衡SVM分类算法[J].山西大学学报（自然科学版）,2021,44(1):56-61.
3程艳,朱海,项国雄,唐天伟,钟林辉,王国玮.融合CNN和EWC算法的不平衡文本情绪分类方法[J].中文信息学报,2020(4):92-100. 被引量：5
4吴晓春,洪晨,张岳.高校实验仪器与设备管理问答系统[J].中国科技论文在线精品论文,2023(2):179-185.
5侯宇豪,杨维芳,马文骏,王卓,余懿韬,闫香蓉,闫浩文.一种利用VSM检索微地图的方法[J].测绘科学,2023,48(12):225-233.
6孔刘玲,刘秀文.基于改进YOLOv4算法的船舶目标检测方法[J].船舶工程,2022,44(1):96-103. 被引量：7
7何莉.改革开放的弄潮者——记大朗镇经济发展总公司[J].东莞科技,2000(3):29-29.
8马建国,杨金山,赵静,赵秀云.综合物探在宾州浸出油厂找水的应用[J].黑龙江水利科技,2000,28(2):64-65.
9菡冰.Windows95/NT环境下MFC多线程编程技术Step By Step[J].电脑编程技巧与维护,2000(5):40-48.
10佘广夫,曾涛,唐咏雪.工艺质量在线统计分析软件的设计与开发[J].四川冶金,2000,22(2):60-62.

同被引文献3

1黎伟健,胡斌,李威,唐健玲,肖西西.大数据视角下的非结构化文本挖掘分析方法[J].新媒体研究,2021,7(8):8-10. 被引量：6
2雍龙泉.矩阵特征值与特征向量的几何意义[J].陕西理工大学学报（自然科学版）,2021,37(5):80-85. 被引量：2
3郑晓川.大数据智能分析及数据挖掘探讨[J].中国科技信息,2021(21):35-36. 被引量：9

引证文献1

1李思源,刘继辉,刘应波,林鸿佳,王玉真,杨晶津.消费者卷烟抽吸感知综合评价分析[J].中国市场,2022(26):127-133.

1何隽飞,赵慧,何学明.基于改进TF-IDF可疑人员文本表示方法[J].计算机工程与设计,2021,42(2):396-401. 被引量：2
2陈欣,杨小兵,姚雨虹.字词融合的双通道混合神经网络情感分析模型[J].小型微型计算机系统,2021,42(2):279-284. 被引量：6
3程成,张贝克,高东,许欣.注意力ConvLSTM模型在RUL预测中的应用[J].小型微型计算机系统,2021,42(2):443-448. 被引量：2
4李晓丽,马龙龙.基于多分类器融合的防震减灾知识文本分类研究[J].高原地震,2020,32(3):64-68. 被引量：1
5陈志刚,徐悦,张立中,冯国礼.机会社会网络中基于社会关系的数据传输机制[J].华中科技大学学报（自然科学版）,2021,49(2):79-84. 被引量：3
6蓝海英,何昊林,李玉翠,李千颖,李伊苧.基于文本聚类的煤矿安全事故类型分析[J].长江技术经济,2021(S01):199-202. 被引量：1
7程雨,宋航,程丽.基于网络文本分析的影视型主题公园形象感知研究——以郑州建业·华谊兄弟电影小镇为例[J].市场论坛,2021(1):46-52. 被引量：1
8潘剑凯,柳政卿,王秋成.基于眼部自商图—梯度图共生矩阵的疲劳驾驶检测[J].中国图象图形学报,2021,26(1):154-164. 被引量：5

智能计算机与应用

2020年第9期

浏览历史

内容加载中请稍等...

基于TF-IDF特征词提取的不平衡文本分类被引量：1

参考文献11

二级参考文献116

共引文献364

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于TF-IDF特征词提取的不平衡文本分类 被引量：1

参考文献11

二级参考文献116

共引文献364

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于TF-IDF特征词提取的不平衡文本分类被引量：1