基于双层树状支持向量机的观点挖掘与倾向分析被引量：3

View mining and trend analysis based on double-layer tree Support Vector Machine

下载PDF

导出

摘要本文通过进行大量预处理工作,将经过词袋模型和Word2Vec两种不同向量化方法处理后的文本数据分别输入到SVM和LSTM模型中,训练出可以识别文本情感倾向的模型。进而对新产生的评论进行分类。根据实际数据量的倾斜状况,基于传统机器学习算法支持向量机(SVM),本文提出双层支持向量机,采用2种不同的方法分别训练模型并预测。最后再使用深度学习算法长短时记忆模型(LSTM)再次训练并预测,并对这3种方法做出比较和总结。结果显示,双层SVM比单层SVM的准确度提高了8个百分点;而LSTM比单层SVM低了2个百分点,比双层SVM低了接近10个百分点。 In this paper,a large amount of preprocessing work is carried out,and the text data processed by the following two different vectorization methods as the word bag model and Word2 Vec are input into the SVM and LSTM models,respectively to train a model that can recognize the emotional tendency of the text.Further the newly generated comments are classified.According to the tilt of the actual data volume,based on support vector machine(SVM)that is the traditional machine learning algorithm,this paper proposes a two-layer support vector machine,using two different methods to train the model and predict.Thus,the deep learning algorithm long-term memory model(LSTM)is used to train and predict again,and the three methods are compared and summarized.The results show that the accuracy of the two-layer SVM is 8 percentage points higher than that of the single-layer SVM;while the LSTM is two percentage points lower than the single-layer SVM,which is nearly 10 percentage points lower than the double-layer SVM.

作者孙红黎铨祺赵娜 SUN Hong;LI Quanqi;ZHAO Na(School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China;Shanghai Key Lab of Modern Optical System(University of Shanghai for Science and Technology),Shanghai 200093,China)

机构地区上海理工大学光电信息与计算机工程学院上海现代光学系统重点实验室(上海理工大学)

出处《智能计算机与应用》 2021年第3期44-47,共4页 Intelligent Computer and Applications

关键词商品评论网络爬虫 SVM LSTM 情感分类数据挖掘 product reviews Web crawler SVM LSTM emotion classification data mining

分类号 TP181 [自动化与计算机技术—控制理论与控制工程] TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1陶娅芝.基于word2vec和自训练的无监督情感分类方法[J].科技风,2019(12):86-87. 被引量：1
2韩萍,孙佳慧,方澄,贾云飞.基于情感融合和多维自注意力机制的微博文本情感分析[J].计算机应用,2019,39(A01):75-78. 被引量：18
3王义真,郑啸,后盾,胡昊.基于SVM的高维混合特征短文本情感分类[J].计算机技术与发展,2018,28(2):88-93. 被引量：15
4邓君,孙绍丹,王阮,宋先智,李贺.基于Word2Vec和SVM的微博舆情情感演化分析[J].情报理论与实践,2020,43(8):112-119. 被引量：46
5梁晓敏,徐健.舆情事件中评论对象的情感分析及其关系网络研究[J].情报科学,2018,36(2):37-42. 被引量：17
6陆敬筠,龚玉.基于自注意力的扩展卷积神经网络情感分类[J].计算机工程与设计,2020,41(6):1645-1651. 被引量：4
7安璐,吴林.融合主题与情感特征的突发事件微博舆情演化分析[J].图书情报工作,2017,61(15):120-129. 被引量：106
8石强强,赵应丁,杨红云.基于SVM的酒店客户评论情感分析[J].计算机与现代化,2017(3):117-121. 被引量：7
9郝晓燕,常晓明.中文文本分类研究[J].太原理工大学学报,2006,37(6):710-713. 被引量：6
10黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：212

二级参考文献91

1王兴玲,李占斌.基于网格搜索的支持向量机核函数参数的确定[J].中国海洋大学学报（自然科学版）,2005,35(5):859-862. 被引量：123
2徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-100. 被引量：119
3Fung B C M,Wang K,Ester M.Hierarchical document clustering//Wang John ed.The Encyclopedia of Data Warehousing and Mining,idea Group.2005:970-975.
4Salton G.The SMART Retrieval System-Experiments in Automatic Document Processing.Englewood Cliffs,New Jersey:Prentice Hall Inc,1971.
5Wang Y,Julia H.Document clustering with semantic analysis//Proceedings of the 39th Hawaii International Conferences on System Sciences.Hawaii,US,2006:54-63.
6Hotho A,Staab S,Stumme G.Wordnet improves text document clustering//Proceedings of the Semantic Web Workshop at SIGIR-2003,26th Annual International ACM SIGIR Conference.Toronto,Canada,2003:541-550.
7Hall P,Dowling G.Approximate string matching.Computing Survey,1980,12(4):381-402.
8Coelho T,Calado P,Souza L,Ribeiro-Neto B,Muntz R.Image retrieval using multiple evidence ranking.IEEETransactions on Knowledge and Data Engineering,2004,16(4):408-417.
9Ko Y,Park J,Seo J.Improving text categorization using the importance of sentences.lnformation Processing and Management,2004,40(1):65-79.
10Erkan G,Radev D.Lexrank:Graph-based lexical centrality as salience in text summarization.Journal of Artificial Intelligence Research,2004,22(7):457-479.

共引文献408

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：11
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3李静.中国突发事件中网民群体情绪研究的知识图谱分析[J].新媒体与社会,2022(1):329-346.
4王姝雅,张博.基于生命周期理论的舆情演化研究综述[J].新媒体研究,2022,8(23):6-10.
5朱琳,马佳良.小镇青年的网络舆情生成及演化路径研究——基于微博数据的主题建模与情感分析[J].信息技术与管理应用,2023(4):105-119.
6王君泽,詹若贤,李怡,杜洪涛.融合主题与细粒度情感特征的气候变化微博舆情分析研究[J].信息技术与管理应用,2023(4):87-104.
7赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
8郭丽环,韩越,王伟.在线评论对旅游者酒店选择的影响——基于细粒度文本情感分析[J].泉州师范学院学报,2019,0(6):93-100. 被引量：4
9胡漠,张蕴潮.基于模糊集理论——DEMATEL方法的突发公共事件短视频舆情衰退关键影响要素识别研究[J].情报科学,2023,41(11):111-119.
10齐浩翔,马莉媛,朱翌民.基于Word2Vec的疫情虚假信息检测方法[J].智能计算机与应用,2021,11(10):134-138. 被引量：3

同被引文献25

1王美方,刘培玉,朱振方.基于TFIDF的特征选择方法[J].计算机工程与设计,2007,28(23):5795-5796. 被引量：23
2杨鼎,阳爱民.一种基于情感词典和朴素贝叶斯的中文文本情感分类方法[J].计算机应用研究,2010,27(10):3737-3739. 被引量：44
3陈能汪,章颖瑶,李延风.我国淡水藻华长期变动特征综合分析[J].生态环境学报,2010,19(8):1994-1998. 被引量：16
4马健荣,邓建明,秦伯强,龙胜兴.湖泊蓝藻水华发生机理研究进展[J].生态学报,2013,33(10):3020-3030. 被引量：128
5陈声威.水体富营养化预警模型研究现状和发展趋势[J].水利科技与经济,2014,20(4):5-8. 被引量：10
6苏炯铭,刘宝宏,李琦,马宏绪.基于观点动力学的在线评分人数预测[J].计算机工程,2014,40(10):155-160. 被引量：3
7张艳会,李伟峰,陈求稳.太湖水华程度及其生态环境因子的时空分布特征[J].生态学报,2016,36(14):4337-4345. 被引量：13
8杨昆,罗毅,徐玉妃,商春雪,杨扬.基于无线传感器网络与GIS的蓝藻水华爆发动态监测与模拟[J].农业工程学报,2016,32(24):197-205. 被引量：14
9于洋,彭福利,孙聪,董昊,王业耀,何立环.典型湖泊水华特征及相关影响因素分析[J].中国环境监测,2017,33(2):88-94. 被引量：33
10韩忠明,李梦琪,刘雯,张梦玫,段大高,于重重.网络评论方面级观点挖掘方法研究综述[J].软件学报,2018,29(2):417-441. 被引量：32

引证文献3

1闫璐,杨刚,赵江元.网络舆情观点团簇演化等级测度与实证研究[J].图书情报工作,2021,65(23):106-115. 被引量：2
2刘正华,周杰枫,窦崎.基于网络爬虫的智能挖掘技术研究[J].电子技术与软件工程,2022(8):13-16. 被引量：1
3任树顺,高萌,王煦雯,余镒琦,陈纪新,陈能汪.基于3种时间序列模型的九龙江河流库区藻华预测[J].环境科学学报,2022,42(11):172-183. 被引量：3

二级引证文献6

1贾若男,王晰巍,于雪,罗然.突发公共事件网络舆情时空演化分析模型及算法研究[J].现代情报,2023,43(2):137-145. 被引量：2
2彭佳玲,周茂林,杨青.公众对上门护理服务的态度和关注点:基于网络爬虫的文本挖掘[J].护理学杂志,2023,38(5):110-113. 被引量：4
3廖世凯,董红召,杨强,夏阳,林盈盈.面向多源数据的AQP区域大气污染精准溯源研究[J].环境科学学报,2023,43(4):131-141. 被引量：1
4周瑛,严林志.重大突发事件网络舆情演化研究——基于信息生态理论[J].电脑知识与技术,2023,19(14):73-75.
5杜乐山,刘海鸥,刘文慧,王槐睿,张颖,全占军.热带雨林区水源涵养服务时空演变及驱动因素分析:以海南热带雨林国家公园为例[J].环境科学研究,2023,36(9):1716-1727. 被引量：4
6万玥,赖会霞,钱伟,张仕.面向水质分类的分组降维核朴素贝叶斯模型[J].福建电脑,2024,40(3):18-23.

1张林,邹亚男,孙伟,宋学官.定制产品用户评论情感分析系统[J].机电产品开发与创新,2021,34(4):156-158. 被引量：2
2李楠,张羽卉.融合表情符号动态特征的舆情分析研究[J].现代情报,2021,41(8):98-108. 被引量：2
3徐光来,李爱娟,徐晓华,杨先成,杨强强.中国生态功能保护区归一化植被指数动态及气候因子驱动[J].植物生态学报,2021,45(3):213-223. 被引量：11

智能计算机与应用

2021年第3期

浏览历史

内容加载中请稍等...

基于双层树状支持向量机的观点挖掘与倾向分析被引量：3

参考文献10

二级参考文献91

共引文献408

同被引文献25

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于双层树状支持向量机的观点挖掘与倾向分析 被引量：3

参考文献10

二级参考文献91

共引文献408

同被引文献25

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于双层树状支持向量机的观点挖掘与倾向分析被引量：3