摘要
互联网海量文本的情感分析是当前的一个研究热点。介绍了一种中文文本情感词典构建方法,该方法选用若干个情感种子词,利用搜索引擎返回的共现数,通过改进的PMI(pointwise mutual information)算法计算情感词的情感权值。将构建的情感词典应用到文本情感分类实验中,在不同的语料环境下,对比基于情感词典和朴素贝叶斯分类器下的文本情感分类效果,实验结果表明,构建的情感词典,可有效用于情感特征选择和直接用于情感分类,并且分类性能稳定。
Massive Internet text sentiment analysis is currently a hot research topic. This paper describes a method on Chinese text sentiment lexicon construction. This method improves the pointwise mutual information (PMI) algo- rithm for computing the weights of general sentiment lexicon, by selecting several sentiment seed words and drawing upon the total result numbers from search engine. In order to examine the validity of this method, this paper uses the established sentiment lexicon for text sentiment, and compares the classification effects of the method based on sentiment lexicon with those of na'~ee Bayesian classifier. The experimental results indicate that the high-quality sentiment lexicon can effectively choose and classify the sentiment characteristics, and has a stable classification function.
出处
《计算机科学与探索》
CSCD
2013年第11期1033-1039,共7页
Journal of Frontiers of Computer Science and Technology
基金
国家社会科学基金项目
教育部新世纪优秀人才支持计划
教育部人文社会科学研究青年基金项目
广东省科技计划项目
广东省社科规划项目
广东外语外贸大学校级项目
广东外语外贸大学研究生科研创新项目~~
关键词
情感词典
情感分类
PMI算法
朴素贝叶斯
sentiment lexicon
sentiment classification
pointwise mutual information (PMI)
nalWe Bayes