单词统计特性在情感词自动抽取和商品评论分类中的作用被引量：3

Using lexical statistical features in extracting sentimental words and classifying product reviews

下载PDF

导出

摘要单词的统计特征在自然语言处理中具有广泛应用。针对统计特征对关键词抽取和文本分类精确度的影响,分析了八种常见的统计特征,通过情感词抽取和商品评论分类,研究统计特征在情感分析领域中的作用。利用八种统计特征构造文本向量空间模型,替代基于单词构造文本向量空间模型的方法,能够降低文本向量的维度,具有隐形语义空间(LSA/SVD)的压缩效果,在保证分类结果准确率的前提下有效降低了算法的复杂度,能够替代传统的向量空间模型。情感词提取实验的结果表明,通过结合统计特征与词性,情感词提取的准确率能够达到76. 4%,显著高于基于统计特征或单词词性的情感词提取算法;商品评论分类的测试结果表明,与传统的基于单词的文本情感分类相比,基于统计特征的商品评论分类的准确率提高了10. 8%。 The statistical features of words are widely used in natural language processing.This paper summarized eight types of statistical features,and studied the role of these features in extracting sentimental words and classifying product reviews.Different from the multi-dimensions of lexical elements in the vector space models(VSM),this paper only employed these 8 types of statistical features in representation of words or documents,which had the ability that could lower the VSM’s dimension and could effectively derive the latent semantic space without expensive time and space complexity of SVD calculation.Sentiment words extraction result show that combining these statistical features and PoS tags of words can achieve much higher extraction accuracy than other methods with precision of 76.4%.Product reviews classification results show that in contrast with sentimental words in constructing the feature space,exclusively using these 8 kinds of statistical features can improve classification precision by 10.8%.

作者韩彤晖杨东强马宏伟 Han Tonghui;Yang Dongqiang;Ma Hongwei(School of Computer Science&Technology,Shandong Jianzhu University,Jinan 250100,China)

机构地区山东建筑大学计算机科学与技术学院

出处《计算机应用研究》 CSCD 北大核心 2019年第3期866-872,共7页 Application Research of Computers

基金国家教育部人文社会科学研究一般项目基金资助项目(15YJA740054)

关键词统计特征情感词提取商品评论分类 statistical features extracting sentimental words classifying product reviews

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献21

1朱海霞,权东计,李勤.基于特色文化空间构建的大遗址文化产业集群空间规划机制体系分析模型研究[J].中国软科学,2019(S01):155-163. 被引量：3
2刘冰峰,王笑梅.基于三阶段DEA模型的文化传媒类上市公司经营效率研究[J].数学的实践与认识,2019,49(2):119-133. 被引量：5
3吴蕾,张文生,王珏.基于深度学习框架的隐藏主题变量图模型[J].计算机研究与发展,2015,52(1):191-199. 被引量：7
4邹博伟,钱忠,陈站成,朱巧明,周国栋.面向自然语言文本的否定性与不确定性信息抽取[J].软件学报,2016,27(2):309-328. 被引量：11
5马成龙,颜永红.基于概率语义分布的短文本分类[J].自动化学报,2016,42(11):1711-1717. 被引量：9
6双哲,孙蕾.基于改进的隐马尔可夫模型在网页信息抽取中的研究与应用[J].计算机应用与软件,2017,34(2):42-47. 被引量：10
7谢铁,郑啸,张雷,王修君.基于并行化递归神经网络的中文短文本情感分类[J].计算机应用与软件,2017,34(3):205-211. 被引量：11
8孟欣,左万利.基于word embedding的短文本特征扩展与分类[J].小型微型计算机系统,2017,38(8):1712-1717. 被引量：8
9王儒,刘培玉,王培培.基于吸引子传播聚类的改进双通道CNN短文本分类算法[J].小型微型计算机系统,2017,38(8):1730-1734. 被引量：9
10罗明,黄海量.基于词汇-语义模式的金融事件信息抽取方法[J].计算机应用,2018,38(1):84-90. 被引量：17

引证文献3

1付淇.社会化短文本及其技术研究[J].景德镇学院学报,2018,33(2):113-117.
2韩彤晖,杨东强,马宏伟.一种利用情感词统计信息构造文本特征表示的方法[J].计算机应用研究,2019,36(7):2087-2092. 被引量：3
3韩锐.基于统计模型的非遗文化衍生产品自动分类研究[J].自动化技术与应用,2022,41(8):158-160.

二级引证文献3

1杨蕾,柴变芳.基于可变卷积神经网络的文本情感分类模型[J].信息技术与信息化,2020(10):6-7. 被引量：1
2柴变芳,杨蕾,王建岭,李仁玲.集成局部和全局关键特征的文本情感分类方法[J].河北大学学报（自然科学版）,2021,41(2):201-211. 被引量：1
3谭跃进,吕欣,葛冰峰,赵翔,豆亚杰,杨志伟.基于模型的高端装备创新研制任务集成管理[J].管理世界,2023,39(1):204-215. 被引量：1

1余培,行鸿彦,刘刚.中文评论情感分析方法研究[J].电子测量与仪器学报,2018,32(12):197-203. 被引量：5
2戈峰.如何构造函数[J].新世纪智能,2018(29):30-32.
3韩雪.交通类高职学生就业能力影响因素研究及模型构建[J].科技创新导报,2018,15(32):155-156. 被引量：1
4周梁,方兴龙.基于商品评论主题模型的隐含狄利克雷分布研究[J].安徽工程大学学报,2019,34(1):78-84.
5谢博,叶颖雅,陈振彬,黎树俊,陈珂.基于半监督卷积神经网络的文本情感分类[J].广东石油化工学院学报,2018,28(6):31-35.
6王行甫,王磊,苗付友,邵晨曦.结合词性、位置和单词情感的内存网络的方面情感分析[J].小型微型计算机系统,2019,40(2):383-389. 被引量：5
7邓昌明,李晨,邓可君,张治坤,袁玲,姜宁,彭一明,邢承杰,卞晶,陈光,王梦淑,王雪琴.基因遗传算法在文本情感分类中的应用[J].四川大学学报（自然科学版）,2019,56(1):45-49. 被引量：4
8程志南.构造“三垂足一线”图形解题[J].数理化学习,2018(10):40-41.
9石勇.破解题设陷阱,构造函数巧解导数小题[J].师道（教研）,2019,0(2):150-150.
10杨传龙,王金龙.基于NLP的企业供应关系自动抽取研究[J].计算机科学与应用,2018,8(12):1823-1832. 被引量：2

计算机应用研究

2019年第3期

浏览历史

内容加载中请稍等...

单词统计特性在情感词自动抽取和商品评论分类中的作用被引量：3

同被引文献21

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

单词统计特性在情感词自动抽取和商品评论分类中的作用 被引量：3

同被引文献21

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

单词统计特性在情感词自动抽取和商品评论分类中的作用被引量：3