基于Stacking融合深度学习模型和传统机器学习模型的短文本情感分类研究被引量：5

Study on the short text sentiment classification based on stacking fusion deep learning model and traditional machine learning model

下载PDF

导出

摘要短文本情感分类是一种面向主观信息分类的文本分类任务,具有重要的研究价值和广泛的应用前景,如旅游景区口碑评价、舆情跟踪、产品声誉分析等。为了提高短文本情感分类准确率,文章提出了一种基于Stacking融合深度学习模型和传统机器学习模型的短文本情感分类方法。该方法从短文本数据集分别提取TFIDF和Word2Vec特征,并作为传统机器学习模型和深度学习模型的输入,再基于Stacking技术将多个基分类器(包括Logistic,Passive Aggressive,Ridge,SVC,SVR等传统机器学习模型和深度学习文本分类模型TextRCNN)的分类结果进行融合处理,得到短文本情感分类的最终结果。该方法采用LightGBM作为Stacking最后一层的分类器,基于旅游景区网络评论数据集进行了验证。实验结果表明,该方法能够获得比最好基分类方法更好的分类效果,而且对积极、中性和消极三类情感文本的平均分类准确率达到了71.02%。 Short text sentiment classification is a text classification task oriented to subjective information classification.It has important research value and broad application prospects,such as reputation evaluation of tourist attractions,public opinion tracking,and product reputation analysis.In order to improve the accuracy of short text sentiment classification,this paper proposes a short text sentiment classification method based on Stacking fusion deep learning model and traditional machine learning model.The method extracts TFIDF and Word2Vec features from short text datasets and uses them as input to traditional machine learning models and deep learning models.Based on Stacking technology,multiple base classifiers(including Logistic,Passive Aggressive,Ridge,SVC,SVR,etc.)The classification results of the traditional machine learning model and the deep learning text classification model TextRCNN are merged to obtain the final result of the short text sentiment classification.This method uses LightGBM as the classifier of the last layer of Stacking,which is verified based on the travel scenic network comment data set.The experimental results show that the proposed method can obtain better classification results than the best base classification method,and the average classification accuracy rate of positive,neutral and negative emotional texts reaches 71.02%.

作者周青松范兴容 Zhou Qingsong;Fan Xingrong(School of Communication and Information Engineering,Chongqing University of Posts and Telecommunications,Chongqing 400065,China;Institute of Electronic Information and Network Engineering,Chongqing University of Posts and Telecommunications,Chongqing 400065,China)

机构地区重庆邮电大学通信与信息工程学院重庆邮电大学电子信息与网络工程研究院

出处《无线互联科技》 2018年第24期63-65,共3页 Wireless Internet Technology

基金重庆市自然科学基金资助项目编号:cstc2018jcyjAX0587

关键词短文本情感分类 TFIDF Word2Vec STACKING short text sentiment classification TFIDF Word2Vec Stacking

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1徐健锋,许园,许元辰,张远健,刘清.基于语义理解和机器学习的混合的中文文本情感分类算法框架[J].计算机科学,2015,42(6):61-66. 被引量：29
2樊康新.基于SVM的网络文本情感分类系统的研究与设计[J].计算机时代,2015(12):34-37. 被引量：5
3闻彬,何婷婷,罗乐,宋乐,王倩.基于语义理解的文本情感分类方法研究[J].计算机科学,2010,37(6):261-264. 被引量：39
4罗帆,王厚峰.结合RNN和CNN层次化网络的中文文本情感分类[J].北京大学学报（自然科学版）,2018,54(3):459-465. 被引量：21
5李杰,李欢.基于深度学习的短文本评论产品特征提取及情感分类研究[J].情报理论与实践,2018,41(2):143-148. 被引量：52
6张润,王永滨.机器学习及其算法和发展研究[J].中国传媒大学学报（自然科学版）,2016,23(2):10-18. 被引量：131

二级参考文献74

1刘永丹,曾海泉,李荣陆,胡运发.基于语义分析的倾向性文本过滤[J].通信学报,2004,25(7):78-85. 被引量：34
2朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
3徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-100. 被引量：122
4王卫玲,刘培玉,初建崇.一种改进的基于条件互信息的特征选择算法[J].计算机应用,2007,27(2):433-435. 被引量：23
5张启蕊,董守斌,张凌.文本分类的性能评估指标[J].广西师范大学学报（自然科学版）,2007,25(2):119-122. 被引量：7
6知网[EB/OL].[2009-03-12].http://www.keenage.com.
7Hatzivassiloglou V, McKeown K R. Predicting the Semantic Orientation of Adjectives [A]//Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and the 8th Conference of the European Chapter of the ACL[C]. 1997:174-181.
8Peter T, Michael L. Measuring Praise and Criticism: Inference of Semantic Orientation from Association [J]. ACM Transactions on Information Systems, 2003,21 (4) : 315-346.
9Peter D T. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[C]//Proceeding of the Association for Computational Linguistics 40th Anniversary Meeting. New Brunswick, N. J. , 2002.
10Pang Bo, Lee Lillian, Vaithyanathan S. Thumbs up? Sentiment classification using machine learning techniques [C] //Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing. 2002:79-86.

共引文献266

1曾志伟,刁明光,王欣鹏,何炳辉.基于口罩评论数据的用户情感趋势与关注分析[J].计算机系统应用,2020,29(12):263-267.
2庞良健,李晗,王庆林,徐新胜.融合多层次语义的网络评价方面抽取方法研究[J].科技通报,2021,37(10):59-65.
3杨梦月,卫伟,陆慧娟,卢海峰.基于差分进化的中文情感分类集成算法研究[J].计量学报,2020,41(2):225-230. 被引量：2
4陶全桧,安俊秀,陈宏松.基于跨模态融合ERNIE的多模态情感分析研究[J].成都信息工程大学学报,2022,37(5):501-507. 被引量：1
5张映红.关于能源结构转型若干问题的思考及建议[J].国际石油经济,2021(2):1-15. 被引量：17
6潘洪涛,王新新.虚拟社群中的品牌定位——基于用户生成内容点互信息的实证研究[J].财贸研究,2011,22(4):111-118. 被引量：7
7王铁套,王国营,陈越,黄惠新.基于语义模式与词汇情感倾向的舆情态势研究[J].计算机工程与设计,2012,33(1):74-77. 被引量：14
82000年高考物理模拟试题（VI）[J].理科考试研究（高中版）,2000,7(5):38-43.
9王洪伟,郑丽娟,尹裴,史伟.在线评论的情感极性分类研究综述[J].情报科学,2012,30(8):1263-1271. 被引量：17
10李桂华,余伟萍,姜晓萍.虚拟社区文本情感表达对用户参与的作用：模型构建与验证[J].情报学报,2012,31(8):853-860. 被引量：3

同被引文献21

1於立峰,胡凯波,夏志凌,沙建飞.基于改进Lightgbm的CPS网络攻击识别模型[J].系统仿真技术,2022,18(1):23-27. 被引量：2
2王强,王晓龙,关毅,徐志明.K-NN与SVM相融合的文本分类技术研究[J].高技术通讯,2005,15(5):19-24. 被引量：10
3苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
4罗新.基于随机森林的文本分类模型研究[J].农业图书情报学刊,2016,28(11):50-54. 被引量：3
5夏利宇,何晓群.基于收缩近邻方法的征信缺失数据插补研究[J].数学的实践与认识,2017,47(8):147-153. 被引量：5
6吕淑宝,王明月,翟祥,陈宇.一种深度学习的信息文本分类算法[J].哈尔滨理工大学学报,2017,22(2):105-111. 被引量：19
7张庆庆,刘西林.基于BPSO随机子空间的文本情感分类研究[J].数据分析与知识发现,2017,1(5):71-81. 被引量：4
8高珍,柯阿香,余荣杰,王雪松.基于随机生存森林的交通事件持续时间预测[J].同济大学学报（自然科学版）,2017,45(9):1304-1310. 被引量：12
9杜明宇,张晓龙.基于多序列特征提取的蛋白质相互作用预测[J].计算机工程与设计,2018,39(1):86-89. 被引量：4
10牛玉霞.基于词频信息改进的IG特征选择算法在文本分类中的应用研究[J].软件工程,2017,20(12):19-22. 被引量：1

引证文献5

1韦灵,黎伟强.基于机器学习的中文文本自动分类的实践研究[J].智库时代,2019,0(46):265-266. 被引量：1
2韦灵,黎伟强.基于机器学习的中文文本自动分类的实践研究[J].智库时代,2019,0(45):233-234.
3汪加婧,范维.基于transformer的工单智能判责方法研究[J].高技术通讯,2021,31(6):660-665.
4蒋瑶,赵礼峰.基于不平衡文本分类的改进Stacking模型[J].计算机与数字工程,2021,49(8):1594-1598. 被引量：1
5罗可,阳志花,陈玫瑰.Stacking多模型融合优化高校图书采购预测的研究[J].现代计算机,2024,30(9):51-55.

二级引证文献2

1罗维平,周博.基于恐怖袭击特征分析的恐怖组织预测方法研究[J].情报杂志,2020,39(11):18-24. 被引量：1
2谢春.DBSCAN和逻辑回归混合策略方法在锅炉燃烧故障诊断中的应用[J].应用科技,2022,49(3):101-105. 被引量：1

1伍行素,陈锦回.基于LSTM深度神经网络的情感分析方法[J].上饶师范学院学报,2018,38(6):10-14. 被引量：9
2王年芳.核心素养背景下的小学语文教学策略分析[J].课外语文,2018,0(34):158-158. 被引量：2
3杨金忠,曾沫睿.列出社会风险隐患三张清单切实消化存量管控增量[J].长安,2018,0(8):57-57.
4王赟,张之明,黄阁渝.结合空间特征和词向量的卷积神经网络情感分类模型[J].武警工程大学学报,2018,34(6):20-24.
5曾文菊.基于核心素养的高中英语文本解读教学研究[J].新课程教学（电子版）,2018,0(10):81-81.
6郑亚平,施佺.基于短语结构和词语词性相结合的情感分类方法[J].南通大学学报（自然科学版）,2018,17(3):1-5. 被引量：1
7王曙,潘庭龙.Stacking集成模型在短期电价预测中的应用[J].中国科技论文,2018,13(20):2373-2377. 被引量：3
8付月,史伟.基于增强监督学习的微博情感分析研究[J].情报杂志,2018,37(12):130-134. 被引量：3
9张刚强,刘群,纪良浩.基于序贯三支决策的多粒度情感分类方法[J].计算机科学,2018,45(12):153-159. 被引量：12
10李强,翟亮.基于Stacking算法的员工离职预测分析与研究[J].重庆工商大学学报（自然科学版）,2019,36(1):117-123. 被引量：9

无线互联科技

2018年第24期

浏览历史

内容加载中请稍等...

基于Stacking融合深度学习模型和传统机器学习模型的短文本情感分类研究被引量：5

参考文献6

二级参考文献74

共引文献266

同被引文献21

引证文献5

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于Stacking融合深度学习模型和传统机器学习模型的短文本情感分类研究 被引量：5

参考文献6

二级参考文献74

共引文献266

同被引文献21

引证文献5

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于Stacking融合深度学习模型和传统机器学习模型的短文本情感分类研究被引量：5