基于双语信息和标签传播算法的中文情感词典构建方法被引量：35

Construction of Chinese Sentiment Lexicon using Bilingual Information and Label Propagation Algorithm

下载PDF

导出

摘要文本情感分析是目前自然语言处理领域的一个热点研究问题,具有广泛的实用价值和理论研究意义。情感词典构建则是文本情感分析的一项基础任务,即将词语按照情感倾向分为褒义、中性或者贬义。然而,中文情感词典构建存在两个主要问题:1)许多情感词存在多义、歧义的现象,即一个词语在不同语境中它的语义倾向也不尽相同,这给词语的情感计算带来困难;2)由国内外相关研究现状可知,中文情感字典建设的可用资源相对较少。考虑到英文情感分析研究中存在大量语料和词典,该文借助机器翻译系统,结合双语言资源的约束信息,利用标签传播算法(LP)计算词语的情感信息。在四个领域的实验结果显示我们的方法能获得一个分类精度高、覆盖领域语境的中文情感词典。 Currently, sentiment analysis has become a hot research topic in the natural language processing （NLP） field as it is highly valuable for many practice usages and theory studies. One basic task in sentiment analysis, named the construction of sentiment lexicon, aims to classify one word into positive, neutral or negative according to its sentimental orientation. However, there are two major challenges： 1） Chinese words are very ambiguities, which makes it hard to compute the sentimental orientation of a word; 2） Given the related research on sentiment analysis, available resource for constructing Chinese sentiment lexicons remains few. Note that there are several corpus and lexicons in English sentiment analysis. In this study, we first use machine translation system with bilingual resources, i. e. , English and Chinese information, then get the sentiment orientation of Chinese words by the label propagation algorithm. Experiment results across four domains demonstrate that the lexicon generated with our ap- proach reach an excellent precision and could cover domain information effectively.

作者李寿山李逸薇黄居仁苏艳

机构地区苏州大学计算机科学与技术学院香港理工大学中文及双语学系

出处《中文信息学报》 CSCD 北大核心 2013年第6期75-81,共7页 Journal of Chinese Information Processing

基金香港GRF项目(543810) 国家自然科学基金资助项目(61003155 61273320)

关键词情感分析双语信息情感字典标签传播 sentiment analysis bilingual sentiment lexicon label propagation algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献17

1Turney P. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[C]//Proceedings of ACL 02, 2002: 417-424.
2Pang B, L Lee, S Vaithyanathan. Thumbs up? Senti ment Classification using Machine Learning Techniques [C]//Proceedings of EMNLP-02, 2002:79-86.
3Kennedy A, D Inkpen. Sentiment Classification of Movie Reviews using Contextual Valence Shifters[J]. Computational Intelligence, 2006,22(2) : 110-125.
4Wiebe J, R Mihalcea. Word Sense and Subjectivity [C]//Proceeding of ACL-COLING-06, 2006: 1065- 1072.
5Hatzivassiloglou V, K McKeown. Predicting the Se mantic Orientation of Adjectives[C]//Proceedings of ACL-97, 1997: 174-181.
6Wiebe J. Learning Subjective Adjectives from Corpora [C]//Proeeedings of AAAI-2000, 2000: 735-740.
7Pang B, L Lee. A Sentimental Education: Sentiment Analysis using Subjectivity Summarization based on Minimum Cuts [C]//Proceedings of ACL-04, 2004: 271-278.
8Cui H, V Mittal, M Datar. Comparative Experiments on Sentiment Classification for Online Product Reviews [C]//Proceedings of AAAI-06, 2006: 1265-1270.
9Andrea E. Determining the Semantic Orientation of Terms through Gloss Classification[C]//Proceedings of CIKM 05, 2005: 617-624.
10Hassan A, D Radev. Identifying Text Polarity Using Random Walks[C]//Proceedings of ACL-10, 2010: 395-403.

二级参考文献9

1Vasileios Hatzivassiloglou, Kathleen R. McKeown. Predicting the semantic orientation of adjectives[A]. In: Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and the 8th Conference of the European Chapter of the ACL[C], 1997:174- 181.
2Turney, Peter, Littman Michael. Measuring praise and criticism: Inference of semantic orientation from association[J]. ACM Transactions on Information Systems, 2003, 21(4): 315- 346.
3Turney ,Peter. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[A]. In: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics[C]. 2002:417 -424.
4Bo Pang,Lillian Lee, Shivanathan Vaithyanathan. Thumbs up? Sentiment classification using machine learning techniques[A]. In Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing[C]. 2002:79 - 86.
5Bo Pang,Lillian Lee. Seeing Stars: Exploiting Class Relationships for Sentiment Categorizalion with respect to Rating Seales[A]. ACL2005, 115-124.
6K Dave, S lawrence, DM Pennock. , Mining the peanut gallery: opinion extraction and semantic classification of product reviews[A]. WWW2003, 519-28.
7Bing Liu, Minqing Hu, Junsheng Cheng. Opinion observer: analyzing and comparing opinions on the Web[A].WWW2005, 324- 351.
8HowNet[R]. HowNet's Home Page. http://www. keenage.com.
9刘群李素建.基于《知网》的词汇语义相似度的计算[A]..第三届汉语词汇语义学研讨会[C].台北,2002..

共引文献325

1杜家驹,岂凡超,孙茂松,刘知远.基于局部语义相关性的定义文本义原预测[J].中文信息学报,2020(5):1-9. 被引量：4
2杨频,李涛,赵奎.一种网络舆情的定量分析方法[J].计算机应用研究,2009,26(3):1066-1068. 被引量：19
3申晓晔,封化民,毋非.基于语义的Web新闻内容倾向性分析框架[J].郑州大学学报（理学版）,2009,41(1):33-35.
4罗安,王勇,张福浩,刘纪平.基于角色标注的中文POI名称语义分类方法[J].测绘通报,2012(S1):521-524. 被引量：3
5李国林,万常选,边海容,杨莉,钟敏娟.基于语素的金融证劵域文本情感探测[J].计算机研究与发展,2011,48(S3):54-59. 被引量：7
6徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-100. 被引量：122
7马海兵,刘永丹,王兰成,李荣陆.三种文档语义倾向性识别方法的分析与比较[J].现代图书情报技术,2007(4):43-47. 被引量：15
8姚天昉,娄德成.汉语语句主题语义倾向分析方法的研究[J].中文信息学报,2007,21(5):73-79. 被引量：78
9徐军,丁宇新,王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报,2007,21(6):95-100. 被引量：107
10孙宏纲,陆余良,刘金红,龚笔宏.基于HowNet的VSM模型扩展在文本分类中的应用研究[J].中文信息学报,2007,21(6):101-108. 被引量：8

同被引文献338

1沈艳,陈赟,黄卓.文本大数据分析在经济学和金融学中的应用:一个文献综述[J].经济学（季刊）,2019,18(4):1153-1186. 被引量：86
2刘博,彭凯越,唐晓彬.基于互联网大数据背景下的CPI预测研究[J].经济统计学（季刊）,2018,0(1):104-117. 被引量：2
3张珊,于留宝,胡长军.基于表情图片与情感词的中文微博情感分析[J].计算机科学,2012,39(S3):146-148. 被引量：55
4阳锋,冯时,王琳,李任斐,王大玲,于戈.MICA:一个面向微博数据流的观点挖掘原型系统[J].计算机研究与发展,2011,48(S3):405-409. 被引量：6
5朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
6谭松波.中文情感挖掘语料ChenSentiCorp[EB/OL](2010-06-29)[2011-04-22].http://www.searchforumrg.en/tan-songbo/corpus-senti.htm.
7唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94. 被引量：136
8徐军,丁宇新,王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报,2007,21(6):95-100. 被引量：107
9Turney P D, Littman M L. Measuring praiseand critism in- ference of semantic orientation from as sociation [ J ]. ACM Transon Information Systems,2003,21 (4) : 315-346.
10Ramanathan N, Liu B, Alok C. Sentiment analysis of condi- tional sentences [ C ] //Proceedings of the 2009 Conference on EMNLP. USA Morristown:ACL,2009, 180-189.

引证文献35

1陈培文,傅秀芬.采用SVM方法的文本情感极性分类研究[J].广东工业大学学报,2014,31(3):95-101. 被引量：12
2夏梦南,杜永萍,左本欣.基于依存分析与特征组合的微博情感分析[J].山东大学学报（理学版）,2014,49(11):22-30. 被引量：8
3唐浩浩,王波,周杰,陈东,刘绍毓.基于词亲和度的微博词语语义倾向识别算法[J].数据采集与处理,2015,30(1):137-147. 被引量：4
4高凯,李思雨,阮冬茹,刘邵博,周二亮,乔世权.基于微博的情感倾向性分析方法研究[J].中文信息学报,2015,29(4):40-49. 被引量：4
5陈昀,毕海岩.基于多特征融合的中文评论情感分类算法[J].河北大学学报（自然科学版）,2015,35(6):651-656. 被引量：6
6宋佳颖,贺宇,付国宏.领域相关的汉语情感词典扩展[J].中文信息学报,2015,29(6):75-82. 被引量：1
7王科,夏睿.情感词典自动构建方法综述[J].自动化学报,2016,42(4):495-511. 被引量：71
8彭德焰,胡欣宇.基于SVM的产品评论情感分析系统的设计与实现[J].物联网技术,2016,6(11):76-79. 被引量：2
9梁礼欣,郝志峰,蔡瑞初,温雯.基于混合高斯分布伪样本生成的情感分析方法[J].广东工业大学学报,2016,33(6):85-90. 被引量：1
10李锐,张谦,刘嘉勇.基于加权word2vec的微博情感分析[J].通信技术,2017,50(3):502-506. 被引量：18

二级引证文献300

1孙星恺,王晓,陆浩.面向活动的网络媒体监测与建模分析:IVFC案例解析[J].智能科学与技术学报,2019,1(4):352-368. 被引量：1
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3尹朝.基于内容生成与特征提取的图像情感识别模型研究[J].系统仿真技术,2023,19(2):141-147.
4彭凡会.美食类短视频弹幕中用户情感体验分析——基于B站美食短视频账号“绵羊料理”的文本分析[J].新媒体研究,2023,9(6):28-32. 被引量：2
5杨倩,刁雅静,李家明,葛世伦.基于弹幕的参与式网站用户交互体验研究[J].知识管理论坛,2022(4):417-430. 被引量：1
6江进德,张玉可.皖北乡村旅游的情感特征及其影响因素分析[J].商丘师范学院学报,2023,39(6):64-69.
7冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：11
8冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：7
9包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：5
10刘振宇,李钦富,杨硕,邓应强,刘芬,赖新明,白雪珂.一种基于主动学习和多种监督学习的情感分析模型[J].中国电子科学研究院学报,2020,15(2):171-176. 被引量：2

1Saro.传奇开发团队[J].商业故事（数字通讯）,2013(24):109-111.
2姚刚,阿丽娅.努尔德汉.基于Linux的双语信息发布系统设计与实现[J].计算机光盘软件与应用,2012,15(4):164-164.
3袁楚.关键进行词[J].互联网天地,2007(5):70-70.
4吴涛,尚丽,王伟,陈黎伟.基于关联规则的覆盖领域约简算法[J].计算机工程,2008,34(5):57-59. 被引量：6
5祁金华.存在即被搜索[J].软件世界,2006(9):64-64.
6姜书汉.掘金物联网产业,商业模式是关键[J].物联网技术,2011,1(3):16-16.
7张旻,张铃.基于构造性覆盖算法的离群数据挖掘研究[J].计算机科学,2005,32(4):27-30.
8昝红英,许鸿飞,张坤丽,穗志方.网络用语词典的构建及问题分析[J].中文信息学报,2016,30(6):133-139. 被引量：6
9朱玺,董喜双,关毅,刘志广.基于半监督学习的微博情感倾向性分析[J].山东大学学报（理学版）,2014,49(11):37-42. 被引量：6
10胡默之,姚天昉.中文微博观点句识别及评价对象抽取方法[J].山东大学学报（理学版）,2016,51(7):81-89. 被引量：3

中文信息学报

2013年第6期

浏览历史

内容加载中请稍等...

基于双语信息和标签传播算法的中文情感词典构建方法被引量：35

参考文献17

二级参考文献9

共引文献325

同被引文献338

引证文献35

二级引证文献300

相关作者

相关机构

相关主题

浏览历史

基于双语信息和标签传播算法的中文情感词典构建方法 被引量：35

参考文献17

二级参考文献9

共引文献325

同被引文献338

引证文献35

二级引证文献300

相关作者

相关机构

相关主题

浏览历史

基于双语信息和标签传播算法的中文情感词典构建方法被引量：35