基于情感倾向和SVM混合极短文本分类模型被引量：4

Hybrid Extremely Short Texts Classification Model Based on Emotion Tendency and SVM

下载PDF

导出

摘要随着智能终端设备的不断普及,微博、微信等国内最受欢迎的社交平台等富含情感倾向的中英文混合极短文本数据的信息呈爆发式增长。为了有效提取中英文混合极短文本中的情感倾向等关键特征信息,本文提出了一种基于情感倾向和SVM的极短文本分类模型。首先对原数据进行识别并利用kettle、N-Gram模型对数据进行处理;然后利用TF-IDF提取分类所需要的关键词;再将处理后的数据存入词向量集;最后利用SVM对混合极短文本进行分类。经过K-fold交叉验证,检验了模型的有效性。实验以微博等主流社交平台上的6905条极短文本数据作为样本进行实验与分析。结果表明在分类准确率方面,该方法能够有效提高匹配效率;同时在泛化误差与精确度指标上匹配结果更加均衡。 With the rapid development of Internet,data containing abundant hybrid Chinese & English extremely short texts with emotion tendency such as Weibo and other popular Chinese social platforms show explosive growth. Therefore,a higher requirement for the technique of more efficient processing of hybrid extremely short text classification is proposed. In order to solve the problem of dealing with hybrid extremely short text obtained after the analysis of the original data quality,this classification technique is put forward. Firstly,the original data is recognized and processed with tools of kettle N-Gram Model and the emotional tendency. Then,necessary keywords are extracted using TF-IDF tool. After that,the processed data is stored into the word vector set. Finally,the mixed extremely short texts are sorted using SVM. After the K-fold test,the validity of the model was verified. 6905 pieces of extremely short texts in the mainstream platforms,such as Weibo,are used as the sample to be conducted and analyzed in this experiment. The results show that,in terms of classification accuracy,this constructed classification model is able to improve the matching efficiency. At the same time,the matching results in terms ofgeneralization error and accuracy are more balanced.

作者王鹤琴王杨

机构地区安徽警官职业学院信息管理系安徽师范大学数学计算机科学学院

出处《科技通报》 2018年第8期149-154,共6页 Bulletin of Science and Technology

基金国家自然科学基金(No.61572036) 安徽省高校自然科学研究重点项目(No.KJ2016A167) 安徽省高等学校自然科学研究重点项目(No.KJ2017A639)

关键词情感倾向 N-GRAM模型 KETTLE 混合极短文本 SVM emotional tendency N-Gram model kettle hybrid extremely short text SVM

分类号 TP39 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1王义真,郑啸,后盾,胡昊.基于SVM的高维混合特征短文本情感分类[J].计算机技术与发展,2018,28(2):88-93. 被引量：15
2谢珺,郝洁,苏婧琼,邹雪君,李思宇.一种针对短文本的主题情感混合模型[J].中文信息学报,2017,31(1):162-168. 被引量：4
3Yufei Liu,Dechang Pi,Qiyou Cheng.Ensemble kernel method：SVM classification based on game theory[J].Journal of Systems Engineering and Electronics,2016,27(1):251-259. 被引量：6

二级参考文献8

1杨超,冯时,王大玲,杨楠,于戈.基于情感词典扩展技术的网络舆情倾向性分析[J].小型微型计算机系统,2010,31(4):691-695. 被引量：68
2赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：544
3何凤英.基于语义理解的中文博文倾向性分析[J].计算机应用,2011,31(8):2130-2133. 被引量：18
4Zhiyu Li,Junfeng Zhang,Shousong Hu.Incremental support vector machine algorithm based on multi-kernel learning[J].Journal of Systems Engineering and Electronics,2011,22(4):702-706. 被引量：7
5谢丽星,周明,孙茂松.基于层次结构的多策略中文微博情感分析和特征抽取[J].中文信息学报,2012,26(1):73-83. 被引量：199
6梁军,柴玉梅,原慧斌,昝红英,刘铭.基于深度学习的微博情感分析[J].中文信息学报,2014,28(5):155-161. 被引量：110
7张林,钱冠群,樊卫国,华琨,张莉.轻型评论的情感分析研究[J].软件学报,2014,25(12):2790-2807. 被引量：49
8熊蜀峰,姬东鸿.面向产品评论分析的短文本情感主题模型[J].自动化学报,2016,42(8):1227-1237. 被引量：19

共引文献22

1孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
2朱映雪,黄瑞章,马灿.一种具有新主题偏向性的短文本动态聚类方法[J].山东大学学报（工学版）,2018,48(6):8-18. 被引量：1
3赵明富,李成成,汤斌,罗彬彬,周慧,田霞,邹雪,王博思.基于高光谱成像技术的微量血迹检测研究[J].激光杂志,2017,38(5):45-49. 被引量：7
4朱胜银,赵红东,杨志明,王敬,李宇海.基于Krawtchouk矩和支持向量机的印鉴真伪识别[J].光学技术,2018,44(3):354-358.
5曾子明,杨倩雯.基于LDA和AdaBoost多特征组合的微博情感分析[J].数据分析与知识发现,2018,2(8):51-59. 被引量：16
6王根生,黄学坚,吴小芳,胡向亮.基于改进信息增益特征选择法的SVM中文情感分类算法[J].成都理工大学学报（自然科学版）,2019,46(1):105-110. 被引量：4
7孟涛,王诚.基于扩展短文本词特征向量的分类研究[J].计算机技术与发展,2019,29(4):57-62. 被引量：10
8林江豪,顾也力,周咏梅,阳爱民,陈锦.基于表情符号的情感词典的构建研究[J].计算机技术与发展,2019,29(6):181-185. 被引量：12
9陈巧红,王磊,孙麒,贾宇波.基于混合神经网络的中文短文本分类模型[J].浙江理工大学学报（自然科学版）,2019,41(4):509-516. 被引量：1
10曲琦,张正凯,许胜之.基于LSTM-ICNN的网络情报信息技术研究[J].电子测量技术,2019,42(18):144-148. 被引量：7

同被引文献34

1李阳辉,谢明,易阳.基于深度学习的社交网络平台细粒度情感分析[J].计算机应用研究,2017,34(3):743-747. 被引量：31
2杨雷,曹翠玲,孙建国,张立国.改进的朴素贝叶斯算法在垃圾邮件过滤中的研究[J].通信学报,2017,38(4):140-148. 被引量：20
3罗建豪,吴建鑫.基于深度卷积特征的细粒度图像分类研究综述[J].自动化学报,2017,43(8):1306-1318. 被引量：146
4朱锡祥,刘凤山,张超,吕钊,吴小培.基于一维卷积神经网络的车载语音识别研究[J].微电子学与计算机,2017,34(11):21-25. 被引量：16
5李荟,赵云敏.GMM-UBM和SVM在说话人识别中的应用[J].计算机系统应用,2018,27(1):225-230. 被引量：7
6庄丽榕,叶东毅.基于CSLSTM网络的文本情感分类[J].计算机系统应用,2018,27(2):230-235. 被引量：4
7韩忠明,李梦琪,刘雯,张梦玫,段大高,于重重.网络评论方面级观点挖掘方法研究综述[J].软件学报,2018,29(2):417-441. 被引量：33
8廖祥文,谢媛媛,魏晶晶,桂林,程学旗,陈国龙.基于卷积记忆网络的视角级微博情感分类[J].模式识别与人工智能,2018,31(3):219-229. 被引量：3
9慕永利,李旸,王素格.基于E-CNN的情绪原因识别方法[J].中文信息学报,2018,32(2):120-128. 被引量：8
10龚静,黄欣阳.基于k最近邻和改进TF-IDF的文本分类框架[J].计算机工程与设计,2018,39(5):1340-1344. 被引量：10

引证文献4

1来能烨.考虑情感强度的加权社会网络偏好信息识别研究[J].智能计算机与应用,2020,10(11):169-173. 被引量：1
2曹渝昆,赵田.基于AT_CNN与Attention-BiGRU融合网络的电网故障报修信息的自动分类研究[J].计算机应用与软件,2021,38(5):93-98. 被引量：5
3岳书丹,孙滨.面向内容的海量网络话题倾向型模型研究[J].成都工业学院学报,2021,24(2):37-42. 被引量：1
4陈雅燕,林耿.基于LDA模型的商品评论情感分析研究[J].数据挖掘,2023,13(3):230-234. 被引量：1

二级引证文献8

1岳书丹.新工科背景下基于深度学习的软件工程专业线上教学系统设计[J].信息与电脑,2021,33(15):125-127.
2冷迪,陈瑞,李英,王旭勇.基于深度学习的智能电网故障预警系统研究[J].单片机与嵌入式系统应用,2022,22(1):9-12. 被引量：3
3林广朋.基于LDA模型的网络信息内容安全分类系统设计[J].长江信息通信,2022,35(7):53-55. 被引量：1
4孙丽娟,徐伟,胡艺宸.基于加权KNN的医院财务信息自动分类系统[J].自动化技术与应用,2022,41(11):92-95. 被引量：1
5黄卫东,程小香.基于微博平台的舆情参与主体情感强度研究[J].计算机技术与发展,2022,32(11):140-145. 被引量：1
6宋广磊,张海波,李昱萱,王梦瑶,赵帆.基于双通道融合网络的电力故障报修分类模型[J].微型电脑应用,2023,39(3):17-20. 被引量：1
7蔡颖凯,曹世龙,张冶,康乃荻,王一哲.应用BERT和BiGRU-AT的电力营销客服工单分类模型[J].微型电脑应用,2023,39(4):6-9. 被引量：2
8雷少娟,刘新华,王晓峰,刘瑞桓.基于情感特征和主题挖掘的日本福岛核污水排海事件舆情分析[J].核安全,2024,23(4):54-63.

1王正友,孙艳.我国短视频发展现状与对策分析[J].传媒,2018(11):87-89. 被引量：20
2张德成,王杨,赵传信,甄磊,李昌.基于贝叶斯决策的极短文本分类模型[J].重庆科技学院学报（自然科学版）,2018,20(4):82-85. 被引量：2
3赵显达,黄欢.基于卷积神经网络的人脸识别的研究[J].信息技术,2018,42(9):15-19. 被引量：10
4查传斌.新媒体视域下儒家思想的传播路径探析[J].学园,2017,0(35):2-3.
5徐奇钊.基于非参数方法的分类模型交叉验证结果比较[J].计算机科学与应用,2016,6(3):132-136.
6陈皓颖.智能终端设计中应用电子技术发展现状研究[J].中国战略新兴产业,2018(1X):40-40. 被引量：4
7《国际眼科杂志·IES》约稿启事[J].国际眼科杂志,2017,17(11).
8《国际眼科杂志·IES》约稿启事[J].国际眼科杂志,2018,18(2).
9张迎春.新时代图书馆工作人员道德与法治教育面临的机遇与挑战[J].新课程,2018,0(21):227-227.
10廉芬.流行词语“打call”的特征及流行机制[J].汉字文化,2018(4):65-67. 被引量：6

科技通报

2018年第8期

浏览历史

内容加载中请稍等...

基于情感倾向和SVM混合极短文本分类模型被引量：4

参考文献3

二级参考文献8

共引文献22

同被引文献34

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于情感倾向和SVM混合极短文本分类模型 被引量：4

参考文献3

二级参考文献8

共引文献22

同被引文献34

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于情感倾向和SVM混合极短文本分类模型被引量：4