一种基于特征簇的微博短文本情感分类方法被引量：2

Method for Sentiment Classification of Microblog Short Text Based on Feature Clusters

下载PDF

导出

摘要针对由微博短文本特征规模大、自身特征较少等特点导致的数据稀疏性,提出一种基于特征簇的微博情感分类方法.提出的分类方法以大规模语料库为基础,利用word2vec模型学习词语之间潜在的语义关联,将单个词语表示成多维向量的形式;结合情感词典,提取出微博文本的情感特征集,在基于词向量计算词语相似度方法的基础上,将情感特征合并为特征簇,以此构造低维的文本向量;最后利用机器学习算法,构建情感分类器,实现微博短文本的情感分类.实验结果表明,本文提出的方法对情感特征的降维是可行和有效的,并且取得很好的情感分类效果. A method of sentimental classification of Microblog texts based on feature cluster is proposed according to the data sparse- ness summed up by large scale and little characteristics of Microblog short texts. This approach is based on large-scale corpus. Firstly, the word2vec model is used to learn the latent semantic relations between words, and that each word is analyzed in the form of multidi- mensional vectors. Secondly, the affective features, which are extracted with reference to the sentimental dictionary, are merged into feature cluster which is based on the method of computing the word similarity with the term vector, so as to construct the text vector with low-dimension. Lastly, the machine-learning algorithm is used to realize the classification of Microblog short texts. The experi- ment turns out that the method presented is feasible and effective in reducing the dimensionality of affective features and shows effec- tiveness on text sentimental classification.

作者周咏梅王伟阳爱民林江豪方泽锋

机构地区广东外语外贸大学思科信息学院广东外语外贸大学语言工程与计算实验室广东外语外贸大学财务处

出处《小型微型计算机系统》 CSCD 北大核心 2016年第12期2713-2716,共4页 Journal of Chinese Computer Systems

基金国家社会科学基金项目(12BYY045)资助广东外语外贸大学研究生科研创新项目(14GWCXXM-36)资助广东外语外贸大学创新创业训练计划项目(201511846021)资助

关键词微博情感数据稀疏词向量特征簇机器学习 microblog sentiment data sparseness term vector feature cluster machine learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1徐琳宏,林鸿飞,潘宇,任惠,陈建美.情感词汇本体的构造[J].情报学报,2008,27(2):180-185. 被引量：380
2王磊,苗夺谦,张志飞,余鹰.基于主题的文本句情感分析[J].计算机科学,2014,41(3):32-35. 被引量：8
3张晶,朱波,梁琳琳,侯敏,滕永林.基于情绪因子的中文微博情绪识别与分类[J].北京大学学报（自然科学版）,2014,50(1):79-84. 被引量：22
4杨震,赖英旭,段立娟,李玉鑑.基于上下文重构的短文本情感极性判别研究[J].自动化学报,2012,38(1):55-67. 被引量：21
5杨佳能,阳爱民,周咏梅.基于语义分析的中文微博情感分类方法[J].山东大学学报（理学版）,2014,49(11):14-21. 被引量：23
6梁军,柴玉梅,原慧斌,昝红英,刘铭.基于深度学习的微博情感分析[J].中文信息学报,2014,28(5):155-161. 被引量：110
7周剑峰,阳爱民,周咏梅,王璇璇.基于二元搭配词的微博情感特征选择[J].计算机工程,2014,40(6):162-165. 被引量：6

二级参考文献76

1张珊,于留宝,胡长军.基于表情图片与情感词的中文微博情感分析[J].计算机科学,2012,39(S3):146-148. 被引量：55
2朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
3林传鼎,无.社会主义心理学中的情绪问题——在中国社会心理学研究会成立大会上的报告(摘要)[J].社会心理科学,2006,21(1):37-37. 被引量：15
4姚天昉,聂青阳,李建超,李林琳,陈柯,付宁.一个用于汉语汽车评论的意见挖掘系统[C]//中文信息处理前沿进展-中国中文信息学会二十五周年学术会议论文集.北京:清华大学出版社,2006:260-281.
5贺德方.我国科技情报行业发展战略与发展路径的思考[J].情报学报,2007,26(4):483-487. 被引量：42
6Tsou Benjamin K Y, Kwong O Y, Wong W L. Sentiment and content analysis of Chinese news coverage [ J ]. International Journal of Computer Processing of Oriental Languages, 2005, 18(2) : 171-183.
7Ekman P. Facial expression and emotion [ J]. Americam Psychologist, 1993, 48:384-392.
8Yu Zhang, zhuoming Li, Fuji Ren, Shingo Kuroiwa. Semiautomatic emotion recognition from textual input based on the constructed emotion thesaurus[ C]. Proceedings of 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering (IEEE NLP-KE' 05). 2005 : 571-576.
9许小颖,陶建华.汉语情感系统中情感划分的研究[C].第一届中国情感计算及智能交互学术会议论文集.2003:199-205.
10Ekman P. An argument for basic emotions [ J]. Cognition and Emotion, 1992, 6: 169-200.

共引文献542

1武瑞娟,李佩毓,李研.线上消费者负面评论中贴图数量对评论有用性影响效应研究——一项基于负面评论的研究[J].管理评论,2022,34(12):157-172. 被引量：2
2张振刚,罗泰晔.基于在线评论数据挖掘和Kano模型的产品需求分析[J].管理评论,2022,34(11):109-117. 被引量：11
3刘昊.情感视域下社交媒体平台舆论分层与社群挖掘研究[J].中国网络传播研究,2018(2). 被引量：1
4夏松,林荣蓉,刘勘.网络谣言敏感词库的构建研究——以新浪微博谣言为例[J].知识管理论坛,2019(5):267-275. 被引量：6
5王曰芬,吴鹏,丁晟春,陈芬.社会舆情分析研究与进展综述[J].情报学进展,2016(1):132-185. 被引量：1
6郭庆,贾郭军.基于tree LSTM的旅游评论情感分析方法研究[J].计算机应用研究,2020,37(S02):63-65. 被引量：6
7裴曼如,张立文.基于投资者情绪和深度学习的股票价格趋势预测研究[J].金融发展,2020(1):78-97. 被引量：2
8热孜瓦姑丽·吾斯曼,艾孜尔古丽·玉素甫.论现代的维吾尔语情感分析方法进展[J].电脑知识与技术,2020,0(4):178-179.
9吕澄欣.主流媒体短视频传播策略分析——以快手平台《主播说联播》栏目为例[J].传媒论坛,2022,5(7):42-44. 被引量：5
10代莉.顶岗支教实习生心理状况调查及其阶段性研究[J].科教导刊,2023(29):151-154.

同被引文献58

1陈耀东,王挺,陈火旺.浅层语义分析研究[J].计算机研究与发展,2008,45(z1):321-325. 被引量：12
2王波.基于跨领域知识的基金评论情感分析[J].情报杂志,2011,30(2):44-47. 被引量：5
3王波,郭晓军.基于情感分析的网络财经媒体通货膨胀预期研究[J].图书情报工作,2011,55(16):140-143. 被引量：1
4杨经,林世平.基于SVM的文本词句情感分析[J].计算机应用与软件,2011,28(9):225-228. 被引量：29
5徐冰,赵铁军,王山雨,郑德权.基于浅层句法特征的评价对象抽取研究[J].自动化学报,2011,37(10):1241-1247. 被引量：48
6樊娜,安毅生.基于语义分割的文本观点倾向分析方法研究[J].计算机工程与应用,2012,48(5):12-14. 被引量：1
7樊娜,安毅生,李慧贤.基于K-近邻算法的文本情感分析方法研究[J].计算机工程与设计,2012,33(3):1160-1164. 被引量：10
8王文远,王大玲,冯时,李任斐,王琳.一种面向情感分析的微博表情情感词典构建及应用[J].计算机与数字工程,2012,40(11):6-9. 被引量：15
9马晓玲,金碧漪,范并思.中文文本情感倾向分析研究[J].情报资料工作,2013,34(1):52-56. 被引量：19
10唐晓波,严承希.基于旋进原则和支持向量机的文本情感分析研究[J].情报理论与实践,2013,36(1):98-103. 被引量：11

引证文献2

1陈耀东,彭蝶飞,刘琴,王珂玲.基于语义角色向量的半监督情感分类方法[J].自动化技术与应用,2018,37(10):115-119.
2陈红琳,魏瑞斌,张玮,张宇航.基于共词分析的国内文本情感分析研究[J].现代情报,2019,39(6):91-101. 被引量：14

二级引证文献14

1巩红,常腾,张渊雨.《西安邮电大学学报》发表论文可视化分析[J].西安邮电大学学报,2019,24(4):81-87. 被引量：2
2王俊蕊,丁玉兰,池清华,林文华.国内外助产士门诊发展现状的文献可视化分析[J].中国卫生标准管理,2020,11(7):33-36. 被引量：1
3吴俊,邵丹睿,姜尚杨帆.融合语义与情感分析的区块链产业新闻监测研究[J].现代情报,2020,40(11):22-33. 被引量：6
4靳春妍,牟冬梅,王萍,邵琦,杨鑫禹.融入表情特征的网络舆情情感分析方法研究[J].科技情报研究,2020,2(4):13-22. 被引量：10
5胡吉明,田沛霖.文本智能计算研究的主题挖掘与演化分析[J].情报杂志,2021,40(4):139-146. 被引量：6
6宋卓远,阚乾超,赵凯,陈镱尹,杨云帆,杨秀璋,罗子江.基于共词分析的国内文本挖掘研究[J].图书馆学刊,2021,43(4):104-111. 被引量：4
7赵磊,章成志.基于不同内容层面的特定领域研究主题差异分析研究[J].农业图书情报学报,2021,33(5):14-27. 被引量：5
8阚乾超.基于主题挖掘的国内农村扶贫开发研究回顾与展望[J].现代计算机,2021,27(19):51-57.
9李晓峰,李坤琪,袁杰,杨鑫,杨秀璋,罗子江.基于共词分析和主题挖掘的档案服务创新研究[J].信息技术与信息化,2021(7):58-60. 被引量：1
10金丹丹,于干.基于多维情感词典的B站视频弹幕倾向性分析[J].阜阳师范大学学报（自然科学版）,2022,39(2):99-105. 被引量：3

1刘建峰,淦燕.基于模糊多核学习的改进支持向量机算法研究[J].计算机测量与控制,2016,24(3):231-233. 被引量：4
2侯阿临,廖庆,靳志娟,陈娟,耿莹.计算全息图的人工神经网络压缩算法[J].吉林大学学报（工学版）,2013,43(S1):21-24. 被引量：5
3冯本慧.一种基于变长指令序列与粗糙集属性约简的恶意代码检测技术[J].科技视界,2013(23):19-19.
4樊康新.基于SVM的网络文本情感分类系统的研究与设计[J].计算机时代,2015(12):34-37. 被引量：5
5高扬,蒋增强,扈静,张铭鑫,刘明周.基于多维向量点的生产车间可视化监控技术研究[J].现代制造工程,2008(9):108-110. 被引量：7
6刘春明.指纹特征规模研究[J].计算机仿真,2007,24(8):194-197. 被引量：1
7刘艺.智能教学系统中学生模型的构建[J].丹东纺专学报,2005,12(1):64-67. 被引量：3
8王丽娜,费如纯,董晓梅,于戈.基于范数的多维数据模糊聚类方法[J].东北大学学报（自然科学版）,2003,24(5):449-452. 被引量：6
9邓剑,陈峰,郭宝录.基于区域特征合并的分水岭图像分割[J].光电技术应用,2014,29(3):27-29. 被引量：4
10薛升翔,贾振红,杨杰,庞韶宁.用蛙跳算法优化RBF神经网络参数的研究[J].计算机工程与应用,2011,47(28):59-61. 被引量：9

小型微型计算机系统

2016年第12期

浏览历史

内容加载中请稍等...

一种基于特征簇的微博短文本情感分类方法被引量：2

参考文献7

二级参考文献76

共引文献542

同被引文献58

引证文献2

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

一种基于特征簇的微博短文本情感分类方法 被引量：2

参考文献7

二级参考文献76

共引文献542

同被引文献58

引证文献2

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

一种基于特征簇的微博短文本情感分类方法被引量：2