中文网络评论的情感分类:句子与段落的比较研究被引量：5

Sentiment Classification of Chinese Online Reviews:A Comparison between Sentences and Paragraphs

下载PDF

导出

摘要针对句子和段落两种粒度的语料，采用机器统计学习方法，对可能影响中文网络评论情感分类效果的因素进行实验研究。选取N-gram作为情感文本的潜在特征项，利用文档频率、X2统计量以及期望交叉熵对特征项实施降维处理，采用布尔权重法构建特征向量，并采用SVM分类器进行网络评论的情感分类。研究发现，语料的粒度对分类准确率的影响较大，句子粒度和段落粒度的分类准确率约相差10％；特征降维方法对句子和段落的分类准确率都有一定影响，且分类效果各有优劣，因此应根据不同需要进行选择；Unigram、Bigram分类效果的优劣受到语料粒度和特征降维方法的影响，因此并非一成不变。 With sentences and paragraphs as samples, the effects of various factors on sentiment classification accuracy in Chinese online reviews are discussed. N-grams are selected as the potential sentimental features. The Document Frequency, Chi-square Statistic and Expected Cross Entropy methods are used to reduce feature dimensionality. The Boolean Weighting method is adopted to calculate feature weight and SVM classifier is adopted to classify online reviews. At last, experiments based on online reviews of sentences and paragraphs are conducted . The results showed that ： the particle size strongly affect the classification performance of Chinese online reviews. Classification accuracy of sentences is higher than the classification accuracy of paragraphs. The dimension reduction methods also affect the classification performance, and each method has advantages and disadvantages. Therefore, the dimension reduction methods should be selected according to different circumstances. The classification performance of Unigram and Bigram is affected by particle size and the dimension reduction methods, so, it is variable.

作者郑丽娟王洪伟郭恺强

机构地区同济大学经济与管理学院井冈山大学商学院

出处《情报学报》 CSSCI 北大核心 2013年第4期376-384,共9页 Journal of the China Society for Scientific and Technical Information

基金国家自然科学基金资助项目(70971099) 中央高校基本科研业务费专项资金资助

关键词网络评论情感分类句子段落 online reviews, sentiment classification, sentences, paragraphs

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献18

1Tttrney P. Thumbs up or Thumbs down? Semantic orientation applied to unsupervised classification of reviews [ C ]// Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics ( ACL), Morristown, NJ, USA : Association for Computational Linguistics ,2002:417-424.
2熊德兰,程菊明,田胜利.基于HowNet的句子褒贬倾向性研究[J].计算机工程与应用,2008,44(22):143-145. 被引量：31
3闻彬,何婷婷,罗乐,宋乐,王倩.基于语义理解的文本情感分类方法研究[J].计算机科学,2010,37(6):261-264. 被引量：39
4施寒潇,厉小军.主观性句子情感倾向性分析方法的研究[J].情报学报,2011,30(5):522-529. 被引量：10
5李纲,王忠义,寇广增.情感分类中情感词的情感倾向度的计算方法研究[J].情报学报,2011,30(3):292-298. 被引量：7
6周曼.中文语境下顾客评论的情感极性强度研究[D].上海:同济大学,2012.
7徐军,丁宇新,王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报,2007,21(6):95-100. 被引量：107
8周杰,林琛,李弼程.基于机器学习的网络新闻评论情感分类研究[J].计算机应用,2010,30(4):1011-1014. 被引量：27
9王洪伟,郑丽娟,刘仲英,霍佳震.中文网络评论的情感特征项选择研究[J].信息系统学报,2012,6(2):76-86. 被引量：8
10Zhang Z Q, Ye Q, Zhang Z L,et al. Sentiment classification of Internet restaurant reviews written in Cantonese[ J]. Expert Systems with Applications, 2011, 38 (06) :7674-7682.

二级参考文献128

1卫保国,沈兰荪,蔡轶珩,张新峰.中医舌苔腐腻分析算法的研究[J].电子学报,2003,31(z1):2083-2086. 被引量：24
2张新峰,沈兰荪,卫保国,蔡轶珩.多类支撑向量机在中医舌质、舌苔分类和识别的应用研究[J].电路与系统学报,2004,9(5):110-113. 被引量：8
3陈欣.模糊层次分析法在方案优选方面的应用[J].计算机工程与设计,2004,25(10):1847-1849. 被引量：108
4朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
5娄德成,姚天昉.汉语句子语义极性分析和观点抽取方法的研究[J].计算机应用,2006,26(11):2622-2625. 被引量：64
6徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-100. 被引量：119
7朱艳辉,阳爱民,王平.基于特征情感色彩的文档流派分类研究[J].计算机工程与应用,2007,43(4):167-169. 被引量：1
8姚天昉,聂青阳,李建超,李林琳,陈柯,付宁.一个用于汉语汽车评论的意见挖掘系统[C]//中文信息处理前沿进展-中国中文信息学会二十五周年学术会议论文集.北京:清华大学出版社,2006:260-281.
9Kamps J,Marx M,Mokken R J,et al.Using WordNet to measure semantic orientation of adjectives[C]//Proceedings of 4th International Conference on Language Resources and Evaluation LREC- 04,Lisbon, 2004:1115-1118.
10Hatzivassiloglou V,McKeown K R.Predicting the semantic orientation of adjectives[C]//Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and the 8th Conference of the European Chapter of the ACLC, 1997: 174-181.

共引文献321

1杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
2曾志伟,刁明光,王欣鹏,何炳辉.基于口罩评论数据的用户情感趋势与关注分析[J].计算机系统应用,2020,29(12):263-267.
3李高翡,张洋,杨新凯,毛颖颖.基于集成学习的文本情感分析研究[J].计算机应用研究,2020,37(S01):50-51. 被引量：2
4杨梦月,卫伟,陆慧娟,卢海峰.基于差分进化的中文情感分类集成算法研究[J].计量学报,2020,41(2):225-230. 被引量：2
5何忠育,王勇,王瑛,陈新,廖朝辉.基于分布式计算的网络舆情分析系统的设计[J].警察技术,2010(3):19-22. 被引量：6
6王伟东,余华强,赵法信.基于Web的3D虚拟人智能导诊系统设计[J].湛江师范学院学报,2012,33(6):123-126. 被引量：6
7陈锦禾,范新,沈闻,沈洁.基于情感词识别的BBS情感分类研究[J].计算机技术与发展,2009,19(7):120-123. 被引量：9
8杨昱昺,吴贤伟.改进的基于知网词汇语义褒贬倾向性计算[J].计算机工程与应用,2009,45(21):91-93. 被引量：15
9邓忠莹,严馨,周历生,王卫东,常彦峰.基于文本倾向性分类技术的图书评价模型[J].昆明理工大学学报（理工版）,2009,34(4):121-124. 被引量：3
10张卫华,孙浩,穆朝絮.基于支持向量机的交通安全预测模型及仿真研究[J].系统仿真学报,2009,21(19):6266-6270. 被引量：7

同被引文献47

1闫强,孟跃.在线评论的感知有用性影响因素——基于在线影评的实证研究[J].中国管理科学,2013,21(S1):126-131. 被引量：67
2朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
3娄德成,姚天昉.汉语句子语义极性分析和观点抽取方法的研究[J].计算机应用,2006,26(11):2622-2625. 被引量：64
4方予,陈增强,袁著祉.基于人工智能的情感模型建立[J].信息与控制,2006,35(6):673-678. 被引量：11
5Agrawal R, Imielinski T, Swami A. Mining Association Rules be-tween Sets of Items in Large Databases // Proc of the ACM SIGMODInternational Conference on Management of Data. Washington,USA, 1993: 207-216.
6Liu B, Hu M Q, Cheng J S. Opinion Observer: Analyzing andComparing Opinions on the Web // Proc of the 14th InternationalConference on World Wide Web. Chiba, Japan, 2005 : 342-351.
7Hu M Q, Liu B. Mining and Summarizing Customer Reviews //Proc of the 10th ACM SIGKDD International Conference on Know-ledge Discovery and Data Mining. Seattle, USA, 2004 : 168-177.
8Kim S M, Hovy E. Determining the Sentiment of Opinions // Procof the 20th International Conference on Computational Linguistics.Geneva, Switzerland, 2004 : 1367-1373.
9刘群,李素建.基于知网的词汇语义相似度的计算//第三届汉语词汇语义学研讨会论文集.台北,2002: 59-76.
10Kim S M, Hovy E. Automatic Identification of Pro and Con Rea-sons in Online Reviews // Proc of the 21 st International Conferenceon Computational Linguistics and 44th Annual Meeting of the Asso-ciation for Computational Linguistics. Sydney, Australia, 2006 ;483-490.

引证文献5

1孙晓,唐陈意.基于层叠模型细粒度情感要素抽取及倾向分析[J].模式识别与人工智能,2015,28(6):513-520. 被引量：10
2夏火松,杨培,熊淦.基于特征提取改进的在线评论有效性分类模型[J].情报学报,2015,34(5):493-500. 被引量：6
3孟园,王洪伟,王伟.网络口碑对产品销量的影响:基于细粒度的情感分析方法[J].管理评论,2017,29(1):144-154. 被引量：44
4吴鹏,刘恒旺,沈思.基于深度学习和OCC情感规则的网络舆情情感识别研究[J].情报学报,2017,36(9):972-980. 被引量：41
5周建,刘炎宝,刘佳佳.情感分析研究的知识结构及热点前沿探析[J].情报学报,2020,39(1):111-124. 被引量：66

二级引证文献167

1骆艳红,闫强,周思敏,徐泓.基于情感的用餐体验对消费者电子口碑发布意愿及平台选择的影响[J].管理评论,2021(4):136-146. 被引量：4
2黄茜,贺超城,李欣儒,吴江.后疫情时代下短租民宿用户购买行为研究——基于BERT衡量的网络口碑[J].知识管理论坛,2023(3):238-257.
3张鼎,向涵,向晓琳.中国城市民族工作研究的热点主题与演化脉络——基于CiteSpace知识图谱的可视化分析[J].绥化学院学报,2023,43(9):1-4.
4赵金雨,孙静.黄山旅游景区在线评论的游客情感分析研究[J].旅游与摄影,2021(24):44-45.
5陈艳君,周欣,卿粼波,王正勇.基于多头注意机制的用户评论情感可视分析[J].智能计算机与应用,2020(8):33-36.
6郭晓航,闵素芹.突发公共事件下教育舆情评析——以新冠疫情期间“停课不停学”舆情为例[J].中国传媒大学学报（自然科学版）,2020,27(6):40-47. 被引量：2
7武玉英,孙平,何喜军,蒋国瑞.基于迁移学习的新产品销量预测模型[J].系统工程,2018,36(6):124-132. 被引量：2
8武慧娟,孙鸿飞,尹慧子.基于用户认知的个性化微阅读自适应推荐模型研究[J].情报科学,2018,36(12):13-16. 被引量：10
9王晰巍,贾若男,王铎,郭宇.图书情报领域人工智能的研究热点及发展趋势研究[J].图书情报工作,2019,63(1):70-80. 被引量：36
10董庆兴,李华阳,曹高辉,夏立新.基于深度学习的MOOC论坛探索型对话识别方法研究[J].图书情报工作,2019,63(5):92-99. 被引量：10

1唐晓阳.关于提高西文图书分类准确率的探讨[J].图书情报知识,1998,15(3):57-58.
2邵健,章成志,李蕾.Hashtag研究综述[J].现代图书情报技术,2015(10):40-49. 被引量：6
3王洪伟,刘勰,尹裴,廖雅国.Web文本情感分类研究综述[J].情报学报,2010,29(5):931-938. 被引量：31
4郝玫,王道平.中文网络评论的复杂语义倾向性计算方法研究[J].图书情报工作,2014,58(22):105-110. 被引量：4
5王晓耘,袁媛,史玲玲.基于微博的电影首映周票房预测建模[J].现代图书情报技术,2016(4):31-39. 被引量：4
6许鑫,俞飞,张莉.一种文本倾向性分析方法及其应用[J].现代图书情报技术,2011(10):54-62. 被引量：3
7谭金波,黄峰,杨晓江,李艺.一种改进的互信息特征选择算法[J].情报学报,2006,25(6):651-656. 被引量：7
8付一静,白薇,金春平.文化体制改革下学术期刊的编辑评价体系[J].编辑之友,2016(6):38-42. 被引量：4
9段宇锋,鞠菲.基于N-Gram的专业领域中文新词识别研究[J].现代图书情报技术,2012(2):41-47. 被引量：10
10郭顺利,张向先.面向中文图书评论的情感词典构建方法研究[J].现代图书情报技术,2016(2):67-74. 被引量：23

情报学报

2013年第4期

浏览历史

内容加载中请稍等...

中文网络评论的情感分类:句子与段落的比较研究被引量：5

参考文献18

二级参考文献128

共引文献321

同被引文献47

引证文献5

二级引证文献167

相关作者

相关机构

相关主题

浏览历史

中文网络评论的情感分类:句子与段落的比较研究 被引量：5

参考文献18

二级参考文献128

共引文献321

同被引文献47

引证文献5

二级引证文献167

相关作者

相关机构

相关主题

浏览历史

中文网络评论的情感分类:句子与段落的比较研究被引量：5