基于分类的微博新情感词抽取方法和特征分析被引量：19

A Classification Based Sentiment Words Extracting Method from Microblogs and Its Feature Engineering

下载PDF

导出

摘要情感或情绪分析在舆情分析、商品评论分析、商品推荐等领域应用广泛,而文本中的情感或情绪分析通常以情感词典为基础.人工情感词典虽然准确但构建代价大、难以及时更新,很难适应微博这类新情感词快速更迭的数据.微博平台为新情感词的发布和传播提供了便捷的途径,是新情感词的重要来源.考虑到已有规模较大的人工情感词典及大量包含新情感词的微博数据,在统计、分析、对比中、英两种语言微博中情感词分布差异的基础上,提出了与特定语言无关的基于分类思想的微博新情感词抽取方法cNSEm.cNSEm根据微博数据集和情感词典自动构建训练数据、训练分类器并判别候选词的情感极性,最后采用投票机制确定候选词的情感极性.通过大量而细致的实验,分析了cNSEm在中、英文两种语言的微博数据上的表现、六类特征的作用和用法以及抽取的新情感词对微博情感分类任务的帮助作用.实验结果表明,cNSEm比经典的基于共现和极性传播的方法要好,特别是当考虑中文微博数据集中的名词类情感词时.对cNSEm抽取的新情感词进行了直接和间接两种方法评测,前者利用人工情感词典作参照,后者考察抽取的新情感词对情感分类的帮助作用,从评测指标上看,cNSEm抽取的新情感词与人工情感词典的质量相当,并且cNSEm能适应有较大差异的中、英两个语种. Text sentiment analysis tries to get the orientation(attitude,point of view,or emotion)of information publishers,which is widely used in the field of public opinion supervision,product reviews analysis,et al.,and has become one of the hottest topics in natural language processing,social media processing,data mining,etc.Sentiment analysis or emotion analysis on text is always based on a sentiment dictionary.Manually-built sentiment dictionary may produces high accuracy however with limited coverage and updating difficulty,which is hard to cope with situation under Web 2.0,where new sentiment words are created more frequently and spread more quickly.Microblog platforms,such as Twitter and Sina Weibo,allow users to publish and transmit information freely,and become important sources of new sentiment words.By using large manually-built sentiment dictionaries and microblog data with mass sentiment words online,this paper analyzes distribution difference of Chinese and English sentiment words,and cNSEm is proposed to extract new sentiment words from microblogs,based on classification principle.cNSEm automatically generates candidate samples,which are classified by a trained classifier,and then sorted and extracted according to a voting strategy.The classification based methods have been used to extract new sentiment words in some related works.However,most of them extracted sentiment words from web pages,Wordnet,or product reviews,and candidate words are usually constrained on adjectives.cNSEm has to deal with not only the informal expression of microblogs but also the expanded POS candidates,especially when nouns are included.Based on some carefully designed experiments,we analyze the performance of cNSEm on both Chinese and English microblogs.We also analyze and compare the impacts of six categories of features used in cNSEm,including context,POS,language mode,modify relationship,sentence feature and co-occurrence with other sentiment words.Experimental results show that six categories of features employed by cNSEm play different roles in sentiment words extraction and polarity setting in different languages.Experimental results on Chinese microblogs also show that the classical co-occurrence besed methods are effective when candidates are adjectives,but their performance degraded when nouns are included.However,cNSEm performs better than co-occurrence based methods,especially when nouns are considered as candidate sentiment words on Chinese microblogs.To evaluate cNSEm performance,we also test the impacts of extracted sentiment words on sentiment classification tasks.Experimental results on Chinese microblogs show that the performance of microblog subjectivity classification and polarity classification has been improved significantly after sentiment dictionary expanded by cNSEm,and cNSEm performs better than benchmark method.As for classifying subjective terms on English microblogs,the benchmark method and cNSEm perform closely,while cNSEm perform better than benchmark method for polarity classification task.Surprisingly,the sentiment words extracted by cNSEm are more helpful for sentiment classification tasks than manual sentiment dictionaries.In conclusion,both the direct evaluation results by ideal sentiment dictionaries and the indirect evaluation results by sentiment classification tasks show that the new sentiment word extracted by cNSEm are competitive with manual sentiment words.Moreover,cNSEm is adaptive to both Chinese and English microblogs,which have great difference between two languages.

作者刘德喜聂建云万常选刘喜平廖述梅廖国琼钟敏娟江腾蛟 LIU De-Xi;NIE Jian-Yun;WAN Chang-Xuan;LIU Xi-Ping;LIAO Shu-Mei;LIAO Guo-Qiong;ZHONG Min-Juan;JIANG Teng-Jiao(School of InforTnation Technology,Jiangxi University of Finance and Economics,Nanchang 330013;Department of Computer Science and Operations Research,University of Montreal,Montreal H3C3J7,Canada)

机构地区江西财经大学信息管理学院蒙特利尔大学计算机科学与运筹学系

出处《计算机学报》 EI CSCD 北大核心 2018年第7期1574-1597,共24页 Chinese Journal of Computers

基金国家自然科学基金(61762042 61363039 61562032) 江西省落地计划项目(KJLD14035) 江西省自然科学基金(20171BAB202021 20152ACB20003)资助~~

关键词微博新情感词抽取 cNSEm方法特征分析 microblogs new sentiment words extraction cNSEm method feature engineering

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1何炎祥,孙松涛,牛菲菲,李飞.用于微博情感分析的一种情感语义增强的深度学习模型[J].计算机学报,2017,40(4):773-790. 被引量：127
2黄发良,冯时,王大玲,于戈.基于多特征融合的微博主题情感挖掘[J].计算机学报,2017,40(4):872-888. 被引量：60
3刘德喜,聂建云,张晶,刘晓华,万常选,廖国琼.中文微博情感词提取:N-Gram为特征的分类方法[J].中文信息学报,2016,30(4):193-205. 被引量：13
4赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：533
5刘德喜.情感词扩展对微博情感分类性能影响的实验分析[J].小型微型计算机系统,2016,37(5):957-965. 被引量：7

二级参考文献19

1朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
2徐琳宏,林鸿飞,赵晶.情感语料库的构建和分析[J].中文信息学报,2008,22(1):116-122. 被引量：110
3徐琳宏,林鸿飞,潘宇,任惠,陈建美.情感词汇本体的构造[J].情报学报,2008,27(2):180-185. 被引量：377
4姚天昉,程希文,徐飞玉,汉思·乌思克尔特,王睿.文本意见挖掘综述[J].中文信息学报,2008,22(3):71-80. 被引量：106
5周立柱,贺宇凯,王建勇.情感分析研究综述[J].计算机应用,2008,28(11):2725-2728. 被引量：73
6刘鸿宇,赵妍妍,秦兵,刘挺.评价对象抽取及其倾向性分析[J].中文信息学报,2010,24(1):84-88. 被引量：99
7杨超,冯时,王大玲,杨楠,于戈.基于情感词典扩展技术的网络舆情倾向性分析[J].小型微型计算机系统,2010,31(4):691-695. 被引量：68
8赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：533
9李海芳,何海鹏,陈俊杰.性格、心情和情感的多层情感建模方法[J].计算机辅助设计与图形学学报,2011,23(4):725-730. 被引量：19
10余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：599

共引文献715

1陈欣,杨小兵,姚雨虹.基于BLSTM算法和字词融合的文本情感分类方法[J].中国计量大学学报,2020(2):225-232. 被引量：3
2包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：5
3王弘睿,刘畅,于东.面向人工智能伦理计算的中文道德词典构建方法研究[J].中文信息学报,2021,35(10):39-47. 被引量：2
4李玉强,黄瑜,孙念,李琳,刘爱华.基于性格情绪特征的改进主题情感模型[J].中文信息学报,2020(7):96-104. 被引量：1
5王昭雨,庄惟敏.情感语义视角:街区更新后评估方法应用研究[J].建筑学报,2020(S02):105-109. 被引量：17
6袁婷婷,杨文忠,仲丽君,张志豪,向进勇.基于性格的微博情感分析模型PLSTM[J].计算机应用研究,2020,37(2):342-346. 被引量：7
7刘栋,张彩环.情境特征及其在情感分类模型中的应用[J].计算机应用研究,2020,37(1):144-147.
8徐晖,王中卿,李寿山,张民.结合情感信息的个性化对话生成[J].计算机科学,2022,49(S02):99-104. 被引量：2
9张良波,任际范,周晶晶,吴欣宇.电商直播中弹幕互动特征对销售效率的影响[J].管理科学,2023,36(4):17-29.
10安颖,葛格.基于平行语料库的英汉电商评价对比研究[J].汉字文化,2022(23):113-115.

同被引文献149

1沈承放,莫达隆,黄文韬.网页数据采集算法及在住户调查中的应用[J].统计与决策,2021(7):52-56. 被引量：2
2郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
3方美玉,郑小林,陈德人,华艺,施艳.商品评论聚焦爬虫算法设计与实现[J].吉林大学学报（工学版）,2012,42(S1):377-381. 被引量：10
4李文亮,翁瑾,杨开忠.旅游系统模型比较研究[J].旅游学刊,2005,20(2):20-24. 被引量：69
5孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量：22
6苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：383
7郭长江,崔晓奇,宋绿叶,韩军青.国内外旅游系统模型研究综述[J].中国人口·资源与环境,2007,17(4):101-106. 被引量：34
8徐琳宏,林鸿飞,潘宇,任惠,陈建美.情感词汇本体的构造[J].情报学报,2008,27(2):180-185. 被引量：377
9黄秀丽,王蔚.一种改进的文本分类特征选择方法[J].计算机工程与应用,2009,45(36):129-130. 被引量：10
10赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：533

引证文献19

1王荣波,沈卓奇,黄孝喜,谌志群.面向中文短文本情感分析的改进特征选择算法[J].杭州电子科技大学学报（自然科学版）,2019,39(1):45-50. 被引量：4
2陈玉,李述山.微博情感对股票市场影响的计量分析[J].山东理工大学学报（社会科学版）,2019,35(5):12-15.
3董露露,马宁.基于改进信息增益的特征选择方法研究[J].萍乡学院学报,2019,36(3):84-90. 被引量：2
4赵乐,麦范金,张兴旺.多特征融合的Voting-SRM情感分类研究[J].小型微型计算机系统,2019,40(11):2269-2273. 被引量：10
5高杨,白凯,马耀峰.赴藏旅游者幸福感的时空结构与特征[J].旅游科学,2019,33(5):45-61. 被引量：15
6尹春勇,章荪.面向短文本情感分类的端到端对抗变分贝叶斯方法[J].计算机应用,2020,40(9):2536-2542. 被引量：2
7王靖,柳青,张德海,赵华,杨云.基于多语义因子分层聚类的文本特征提取方法[J].计算机应用研究,2020,37(10):2951-2955. 被引量：2
8曹锐,孙美凤.基于LDA的舆情评论文本主题提取改进研究[J].软件,2020,41(10):70-75. 被引量：2
9孙美凤,宋晨,王颖.基于PHP的百度贴吧数据爬取[J].软件,2020,41(11):23-26. 被引量：3
10杨戈,杨麓涛.基于爬虫和TFIDF-NB算法的微博情感分析[J].电子技术应用,2021,47(4):59-62. 被引量：6

二级引证文献66

1陈娅玲,张轶群.基于CiteSpace的西藏旅游研究文献综述可视化研究[J].西藏民族大学学报（哲学社会科学版）,2021,42(1):129-136.
2刘海静,杜意权.一套个人情绪日记管理系统的设计与实现[J].电子技术与软件工程,2019(19):55-56.
3方秋莲,王培锦,隋阳,郑涵颖,吕春玥,王艳彤.朴素Bayes分类器文本特征向量的参数优化[J].吉林大学学报（理学版）,2019,57(6):1479-1484. 被引量：4
4褚力其,姜志德,王建浩.牧民草畜平衡维护的影响机制研究:认知局限与情感依赖[J].中国农村经济,2020(6):95-114. 被引量：12
5王丽娜,汪敬琳.基于多特征优化算法的丁酰化修饰位点计算分类[J].湖北文理学院学报,2021,42(2):16-20.
6刘斌,杨钊.国外老年旅游研究进展与理论体系——兼论人文主义地理学研究老年旅游的思路框架[J].人文地理,2020,35(6):18-25. 被引量：8
7吴艾凌,姚延波,吕兴洋.旅游者幸福感的持续性机制研究——基于理论竞争的研究方法[J].旅游科学,2020,34(6):1-15. 被引量：8
8高杨,白凯,马耀峰.旅游者幸福感对其环境责任行为影响的元分析[J].旅游科学,2020,34(6):16-31. 被引量：14
9王磊,刘雨,刘志中,齐俊艳.基于属性离散和特征度量的决策树构建算法[J].河南理工大学学报（自然科学版）,2021,40(3):127-133. 被引量：10
10黄仿元.利用机器学习算法实现对医院评价的情感分析[J].信息技术与信息化,2021(2):37-39. 被引量：3

1李亚政,王峥,孙亚非,张广辉,黄洪雁,刘占生.基于损伤力学和XFEM的舰船蒸汽轮机叶片裂纹扩展研究[J].船舶力学,2018,22(4):490-498. 被引量：6
2J.C.凯特弗,申镇.语言教学法设计(续)[J].南都学坛（南阳师范学院人文社会科学学报）,1982,12(1):87-90.
3田震,李建隆.基于SEM-FCEM的企业职业病防治绩效评估方法研究[J].职业与健康,2018,34(2):272-276. 被引量：1
4孙玉梅,陈小红,郭艳军.基于WEB资源的地勘单位本体自动构建技术研究[J].内蒙古科技与经济,2018(8):51-52. 被引量：1
5李进华,张婷婷.社会化问答知识分享用户感知有用性影响因素研究——以知乎为例[J].现代情报,2018,38(4):20-28. 被引量：17
6胡德焜.关于含有欠测值及参数约束的因子分析的MLE之统一算法[J].北京大学学报（自然科学版）,1988,24(1):47-55.
7郭鹏霞,冯冲,薛严冰,徐丹丹.基于HALCON的PCB图像拼接方法研究[J].大连交通大学学报,2018,39(2):113-117.
8罗帆,王厚峰.结合RNN和CNN层次化网络的中文文本情感分类[J].北京大学学报（自然科学版）,2018,54(3):459-465. 被引量：21
9马恩来.网络流行语的理性与任性[J].中学语文,2018,0(14):14-21.
10朱维明.版画的黑白语言[J].新美术,1987,8(1):11-14. 被引量：3

计算机学报

2018年第7期

浏览历史

内容加载中请稍等...

基于分类的微博新情感词抽取方法和特征分析被引量：19

参考文献5

二级参考文献19

共引文献715

同被引文献149

引证文献19

二级引证文献66

相关作者

相关机构

相关主题

浏览历史

基于分类的微博新情感词抽取方法和特征分析 被引量：19

参考文献5

二级参考文献19

共引文献715

同被引文献149

引证文献19

二级引证文献66

相关作者

相关机构

相关主题

浏览历史

基于分类的微博新情感词抽取方法和特征分析被引量：19