基于Bi-LSTM的不平衡样本文本分类模型

Bi-LSTM Based Text Classification Model for Imbalanced Samples

下载PDF

导出

摘要情感分类任务通常是将有情感倾向的样本分为积极和消极两类。在大多数的理论模型中,这两类样本的数量都被假定是平衡的,而事实上,这两类样本在现实生活中一般是不平衡的。为解决这一问题,提出一种基于Focal损失的Bi-LSTM神经网络模型。首先,采集并标注了24,190条旅游评论作为该模型的数据集,其中积极样本远多于消极样本。为达到更好的分类结果,首先将样本数据集分为核心样本和非核心样本,并剔除非核心样本,提高数据质量;其次,用基于Focal损失的Bi-LSTM神经网络模型对数据进行训练;最后,对测试集进行验证并得到最终分类结果。通过准确率(accuracy)、F1、召回率(recall)和特异度指标(specificity)这四个评价指标判断模型优劣。一系列的实验结果显示,基于Focal损失的Bi-LSTM神经网络模型能够更好的解决样本不平衡的问题,与传统的LSTM模型分类方法相比,其分类性能更好。 In general, the task of sentiment classification usually divides samples with emotional tendencies into two categories: positive and negative. In most theoretical models, the number of samples in these two categories is assumed to be balanced, while in fact, the two categories are generally un-balanced in real life. In this paper, a Bi-LSTM network model based on Focal loss is proposed to clas-sify sentiment for unbalanced sample data. Firstly, 24,190 travel reviews were collected and la-beled as the dataset of the proposed model, whose positive samples were much more than negative samples. In order to achieve better classification results, the sample dataset is first divided into core and non-core samples, and the non-core samples are eliminated to improve the data quality;secondly, the data were trained with a Bi-LSTM neural network model based on Focal loss;finally, the test set is validated and the final classification results are obtained. Four evaluation metrics, accuracy, F1, recall and specificity, are used to judge the model merits. A series of experimental results show that the Bi-LSTM neural network model based on Focal loss can better solve the problem of sample imbalance and has better classification performance compared with the traditional LSTM model classification method.

作者王欣羽李薇

机构地区燕山大学理学院

出处《计算机科学与应用》 2023年第11期1989-1999,共11页 Computer Science and Application

关键词不平衡数据 LSTM 情感分类特异度指标 Focal损失

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献10

1林夕,陈孜卓,王中卿.基于不平衡数据与集成学习的属性级情感分类[J].计算机科学,2022,49(S01):144-149. 被引量：4
2杜启明,李男,刘文甫,杨舒丹,岳峰.结合上下文和依存句法信息的中文短文本情感分析[J].计算机科学,2023,50(3):307-314. 被引量：6
3王娅丽,张凡,余增,李天瑞.基于交互注意力和图卷积网络的方面级情感分析[J].计算机科学,2023,50(4):196-203. 被引量：6
4郭朝有,许喆,马砚堃,曹蒙蒙.面向不平衡数据集融合Canopy和K-means的SMOTE改进算法[J].科学技术与工程,2020,20(22):9069-9074. 被引量：9
5梁越,刘晓峰,李权树,白艳峰,马应龙.面向司法文本的不均衡小样本数据分类方法[J].计算机应用,2022,42(S02):118-122. 被引量：5
6任金金,汪绪彪.基于神经网络的不均衡数据分类方法[J].长江信息通信,2022,35(12):70-72. 被引量：1
7杨敏,李君轶,徐雪.ICTs视角下的旅游流和旅游者时空行为研究进展[J].陕西师范大学学报（自然科学版）,2020,48(4):46-55. 被引量：14
8史沛卓,陈凯天,钟叶珂,雷向欣.基于TextCNN的中国古诗文分类方法研究[J].电子技术与软件工程,2021(10):190-192. 被引量：7
9唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217. 被引量：146
10张小川,刘连喜,戴旭尧,刘璐.基于词性特征的CNN_BiGRU文本分类模型[J].计算机应用与软件,2021,38(11):155-161. 被引量：6

二级参考文献94

1易勇,何中市,李良炎,周剑勇,瞿义玻.基于遗传算法改进诗词风格判别的研究[J].计算机科学,2005,32(7):156-158. 被引量：6
2Baeza-Yates R,Ribeiro-Neto B.Modern Information Retrieval[M].New York:ACM press,1999.
3Manning C D,Schütze H.Foundations of Statistical NaturalLanguage Processing [M].Cambridge:MIT press,1999.
4Hwang M,Choi C,Youn B,et al.Word Sense Disambiguation Based on Relation Structure[C]∥International Conference on Advanced Language Processing and Web Information Technology.2008:15-20.
5Wang X,Mccallum A,Wei X.Topical N-Grams:Phrase andTopic Discovery,with an Application to Information Retrieval [C]∥IEEE International Conference on Data Mining.IEEE Computer Society,2007:697-702.
6Haruechaiyasak C,Jitkrittum W,Sangkeettrakarn C,et al.Im-plementing News Article Category Browsing Based on Text Categorization Technique [C]∥2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology.IEEE Computer Society,2008:143-146.
7Mikolov T,Sutskever I,Chen K,et al.Distributed Representations of Words and Phrases and their Compositionality [J].Advances in Neural Information Processing Systems,2013,26:3111-3119.
8Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space [C]∥ICLR 2013.2013.
9Joachims T.A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization [M].Springer US,1997:143-151.
10Hinton G E.Learning distributed representations of concepts[C]∥Proceedings of CogSci.1986:1-12.

共引文献193

1韩佳良.浅谈综合调度与成本控制[J].城镇供水,2000(2):21-23.
2李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法[J].计算机系统应用,2018,27(12):216-221. 被引量：3
3殷功俊.基于词向量的向量空间模型的改进[J].现代计算机,2018,24(24):32-35. 被引量：1
4秦宇君,史存会,刘悦,俞晓明,程学旗.多源文本下结合实体的事件发现方法ESP[J].山西大学学报（自然科学版）,2019,42(1):41-50. 被引量：2
5苏良良,雷蕾,李景文,黄敏杰.基于Word2Vec技术隐性特征挖掘及潜在升级投诉用户识别研究[J].电信技术,2018(12):36-39. 被引量：1
6冯国明,张晓冬,刘素辉.基于CapsNet的中文文本分类研究[J].数据分析与知识发现,2018,2(12):68-76. 被引量：13
7郑恒毅,廖城霖,李天柱.一种面向网络长文本的话题检测方法[J].工程科学学报,2019,41(9):1208-1214. 被引量：7
8林建洪,翟建桐,徐菁.融合LDA与Word2vector的垃圾邮件过滤方法研究[J].网络安全技术与应用,2017(3):73-75. 被引量：1
9张敬谊,张亚红,李静.基于词向量特征的文本分类模型研究[J].信息技术与标准化,2017(5):71-75. 被引量：7
10陈磊,李俊.基于LF-LDA和Word2vec的文本表示模型研究[J].电子技术（上海）,2017,46(7):1-5. 被引量：4

1张伟,安勇,李海涛,杜银景,张红敏,盛雨.基于不平衡数据扩充的接地变压器故障诊断方法研究[J].电工技术,2023(20):146-148.
2王锁成,陈世平.一种基于残差网络改进的异常流量入侵检测模型[J].小型微型计算机系统,2023,44(12):2757-2764. 被引量：4
3刘浩然,任惠,郑至斌,王威,夏静,杨金豪.基于改进深度残差网络的电力系统暂态电压稳定评估[J].现代电力,2023,40(6):879-889. 被引量：2
4王刚,任丽萍,方力,徐维磊.基于多准则决策的不平衡感知数据集成特征选择算法[J].传感器技术与应用,2023,11(6):538-549.
5赵宏,冯宇博.基于CGS-Ghost YOLO的交通标志检测研究[J].计算机工程,2023,49(12):194-204. 被引量：6

计算机科学与应用

2023年第11期

浏览历史

内容加载中请稍等...

基于Bi-LSTM的不平衡样本文本分类模型

参考文献10

二级参考文献94

共引文献193

相关作者

相关机构

相关主题

浏览历史