摘要
在文本情感分析时,使用无监督的聚类方法,可以有效节省人力和数据资源,但同时也面临聚类精度不高的问题。相似性是文本聚类的主要依据,该文从文本相似度计算的角度,针对情感聚类中文本—特征向量的高维和稀疏问题,以及对评论文本潜在情感因素的表示问题,提出一种基于子空间的文本语义相似度计算方法(RESS)。实验结果表明,基于RESS的文本相似度计算方法,有效解决了文本向量的高维问题,更好地表达了文本间情感相似性,并获得较好的聚类结果。
In text sentiment analysis,unsupervised clustering method is challenged by low precision.To improve the text similarity measure lying as key to clustering,this paper proposes a semantic subspace(RESS)method to deal with the high dimension and sparseness of sentiment text representation issue.It also helps to caputure the implicit expression of sentiment.The experimental results show that RESS can effectively reduce the feature of data set and generat better results.
作者
李欣
李旸
王素格
LI Xin;LI Yang;WANG Suge(Information Center,Shanxi Medical College for Continuing Education,Jinzhong,Shanxi 030619,China;School of Computer and Information Technology,Shanxi University,Taiyuan,Shanxi 030006,China;Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education Shanxi University,Taiyuan,Shanxi 030006,China)
出处
《中文信息学报》
CSCD
北大核心
2018年第5期97-104,共8页
Journal of Chinese Information Processing
基金
国家自然科学基金(61573231
61632011
61672331
61432011)
山西省科技基础条件平台计划项目(2015091001-0102)
关键词
文本情感聚类
文本相似度计算
文本语义子空间
sentiment-based text clustering
text similarity calculation
text semantic subspace