摘要
现有微博文本情感分析方法多面向单一语种语料,如:中文语料.但是,中英文搭配使用的表达习惯已逐渐成为个体意见表达的重要形式.本文提出一种基于双语词典的多类情感分析方法,通过构建双语多类情感词典对微博文本进行多分类语义倾向性分析,以便更准确有效捕捉群体意见,及时发现社会舆论倾向.通过与多数投票算法、支持向量机算法、基于余弦距离的K近邻分类算法相比,本文提出的基于双语词典的多类情感分析模型具有良好的分类效果,其在分类准确率、F1值等方面都有明显提高.
Most of the existing Weibo sentiment analysis focuses on monolingual corpus like Chinese. However,a mixed use of Chinese and English becomes a popular form of expression. To better capture the social attention on public events,this paper proposes a bilingual lexicon based multi-class semantic orientation analysis for bilingual microblogs. We compare our proposed methodologies with majority vote,support vector machine( SVM) and K-nearest neighbor( KNN)by using cosine similarity which are competitive baseline methods. The experimental results showthat our proposed methods outperform the three approaches we mentioned in terms of the accuracy and F1 score.
出处
《电子学报》
EI
CAS
CSCD
北大核心
2016年第9期2068-2073,共6页
Acta Electronica Sinica
基金
国家重点基础研究发展规划(973计划)项目(No.2013CB329605)
国家自然科学基金(No.61300178)
关键词
双语语义倾向性分析
半监督高斯混合模型
相对熵
情感词典
bilingual semantic orientation analysis
semi-supervised gaussian mixture model(Semi-GMM)
Kull back-Leibler divergence
sentiment lexicon