-
题名基于主题模型的半监督网络文本情感分类研究
被引量:6
- 1
-
-
作者
李扬
孔雯婧
谢邦昌
-
机构
中国人民大学应用统计科学研究中心
中国人民大学统计学院
中国人民大学统计咨询研究中心
台北医学大学大数据研究中心
-
出处
《数理统计与管理》
CSSCI
北大核心
2016年第6期961-971,共11页
-
基金
中国人民大学科学研究基金(中央高校基本科研业务费专项资金资助)项目(15XNI011)的阶段性成果
-
文摘
针对网络评论文本的情感分类问题中存在的数据的不平衡性、无标记性和不规范性问题,提出一种基于主题的闽值调整的半监督学习模型,通过从非结构化文本中提取主题特征,对少量标注情感的文本训练分类器并优化指标调整闽值,达到识别用户评论的情感倾向的目的。仿真研究证明阈值调整的半监督模型对数据非平衡性和无标记性具有较强的适应能力。在实证研究中,对酒店评论文本数据构建的文本情感分类器显示该模型可以有效预测少数类评论样本的情感极性,证实了基于主题模型的闽值调整半监督网络评论文本情感分类模型在实际问题中的适用性与可行性。
-
关键词
情感分类
不平衡数据
半监督学习
主题模型
-
Keywords
sentiment classification, imbalanced data, semi-supervised learning, topic model
-
分类号
O212
[理学—概率论与数理统计]
-