-
题名中文多类别情感分类模型中特征选择方法
被引量:4
- 1
-
-
作者
游凤芹
钟芳
周展
-
机构
中国电子科技集团公司第二十八研究所
东南大学计算机科学与工程学院
-
出处
《计算机应用》
CSCD
北大核心
2016年第A02期242-246,共5页
-
文摘
商品评论信息的情感分析,可作为人们推荐商品和选择商品的一个重要手段。特征选择在情感分类中能够删除一些不必要的候选特征,从而提高分类效率、减小误差。为了考察中文语言和多类别情感分类环境下特征选择方法的效果,为情感分析多分类研究选取合适的特征选择方法,对特征选择进行了对比研究。在朴素贝叶斯多类分类器中,对中文描述的关于手机的五种星级评论数据集进行情感分类,选取文档频率、信息增益、互信息和卡方统计四种常用特征选择方式进行了对比实验和分析。实验结果表明,信息增益能够在特征维数特别小的情况下获得很好的性能,卡方统计能够获得普遍较好的性能,文档频率因为计算简单也能成为一种不错的选择,而互信息通常情况下不是一个好的选择。
-
关键词
特征选择
多类别情感分析
中文商品评论
自然语言处理
文本分类
-
Keywords
feature selection
multiclass sentiment analysis
Chinese product review
Natural Language Processing (NLP)
text classification
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-