Twitter推文与情感词典SentiWordNet匹配算法研究被引量：2

A Matching Algorithm Between the Tweets in Twitter and SentiWordNet

下载PDF

导出

摘要在Twitter情感分类研究中,经常会采用将推文中的单词匹配情感词典中的同义词条查找相应情感值的方法 .但推文书写比较随意,包含许多俚语、缩写和特殊符号,导致许多词汇与情感词典中的词条无法匹配,匹配率不高直接影响推文的情感分类性能.针对Twitter的语言特征,提出了一套Twitter推文与情感词典SentiWordNet的匹配算法.该算法首先通过对推文内容进行数据清洗、替代处理、词性标注和词形还原等预处理,增加了命名实体识别、对hashtags内容的断词处理、基于Word Clusters的否定句处理和词组匹配等方法 .实验结果表明,采用此方法的匹配率可达90%以上. In the research of the Twitter sentiment classification, a method is widely used to obtain sentiment values by mapping tweets ＊ words with the synonym terms in the sentiment lexicon. However, tweets are usually written informally, which contain slangs, abbreviations and special symbols, many words in the tweets cannot be found in the terms of senti-ment lexicon. Lower matching rate directly impacts the performance of sentiment classification. Based on the features of Twitter, a set of matching algorithm between tweets and sentiment lexicon SentiWordNet is proposed in the article. In this method, tweets are processed by data cleaning, alternative processing, POS tagging and word lemmatizing, along with some algorithms such as named entity recognition, hash tags word segmentation, negated context recognition with Word Clusters and phrase matching. Experimental results show that the matching rate reaches over 90%.

作者易顺明周洪斌周国栋

机构地区沙洲职业工学院电子信息工程系苏州大学计算机科学与技术学院

出处《南京师范大学学报（工程技术版）》 CAS 2016年第3期41-47,53,共8页 Journal of Nanjing Normal University(Engineering and Technology Edition)

基金国家自然科学基金(61003155 61273320)

关键词推文情感分类 SentiWordNet 匹配算法 tweets, sentiment classification, SentiWordNet, matching algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献13

1闫明松,周志华.代价敏感分类算法的实验比较[J].模式识别与人工智能,2005,18(5):628-635. 被引量：14
2赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：544
3梁军,柴玉梅,原慧斌,昝红英,刘铭.基于深度学习的微博情感分析[J].中文信息学报,2014,28(5):155-161. 被引量：110
4栗雨晴,礼欣,韩煦,宋丹丹,廖乐健.基于双语词典的微博多类情感分析方法[J].电子学报,2016,44(9):2068-2073. 被引量：33
5梁斌,刘全,徐进,周倩,章鹏.基于多注意力卷积神经网络的特定目标情感分析[J].计算机研究与发展,2017,54(8):1724-1735. 被引量：139
6李然,林政,林海伦,王伟平,孟丹.文本情绪分析综述[J].计算机研究与发展,2018,55(1):30-52. 被引量：101
7王俊淑,张国明,胡斌.基于深度学习的推荐算法研究综述[J].南京师范大学学报（工程技术版）,2018,18(4):33-43. 被引量：20
8陈思远,彭超,蔡林森,郭兰英.一种用于特定目标情感分析的深度网络模型[J].计算机工程,2019,45(3):286-292. 被引量：5
9武婷,曹春萍.融合位置权重的基于注意力交叉注意力的长短期记忆方面情感分析模型[J].计算机应用,2019,39(8):2198-2203. 被引量：10
10张新生,高腾.多头注意力记忆网络的对象级情感分类[J].模式识别与人工智能,2019,32(11):997-1005. 被引量：10

引证文献2

1马晓慧,马尚才,闫俊伢,陈波.基于距离感知的目标情感分类模型[J].南京师大学报（自然科学版）,2021,44(4):111-116. 被引量：1
2徐源音,柴玉梅,王黎明,刘箴.多语言文本情绪分析模型MF-CSEL[J].小型微型计算机系统,2019,40(5):1026-1033. 被引量：5

二级引证文献6

1胡德敏,褚成伟,胡晨,胡钰媛.预训练模型下融合注意力机制的多语言文本情感分析方法[J].小型微型计算机系统,2020,41(2):278-284. 被引量：4
2王连喜,甘穗福,林楠铠,蒋盛益.涉华信息资源归集与舆情分析框架构建[J].情报杂志,2020,39(6):135-142. 被引量：4
3侯伟立.翻译机器人英文文本自动查错系统设计[J].自动化与仪器仪表,2022(4):232-236. 被引量：2
4周钰颖,闵勇,江婷君,吴晔,金小刚,蔡和.社交媒体机器人的研究现状、挑战与展望[J].小型微型计算机系统,2022,43(10):2113-2121. 被引量：7
5周湘贞,李帅,隋栋.基于深度学习和注意力机制的微博情感分析[J].南京师大学报（自然科学版）,2023,46(2):115-121. 被引量：4
6冯国平,曾祥淦.基于属性概率权重的人工智能翻译文本特征分类算法[J].自动化与仪器仪表,2023(11):29-33.

1刘力.Word2000的“特异功能”[J].计算机应用文摘,2000(6):71-72.
2叶枫.C语言中常见错误的探析[J].自动化技术与应用,2008,27(3):133-134. 被引量：1
3朱超群,吕伟民,陈波,童亚拉.基于单词匹配和编辑距离的钓鱼贝叶斯检测器研究[J].计算机时代,2015(5):16-18.
4八年级(下)语法要点与中考链接[J].中学英语之友（新教材初二版）,2010(5):54-57.
5施建忠.新旧Mac售价相同性能差两三倍谁还愿为IBM Mac买单[J].信息系统工程,2006,19(2):12-12.
6张罡.汉字识别后处理技术[J].图象识别与自动化,2003(1):43-50.
7英汉互译中的谚语巧合[J].中学英语之友（新教材高一版）,2011(6):32-32.
8认识XP系统中的十个特殊文件[J].计算机与网络,2010(3):54-54.
9韩强.基于广义Hough变换的手写文档整词定位[J].安徽电子信息职业技术学院学报,2011,10(5):28-30.
10李晓丽.英语文学中俚语的社会语言学特征分析[J].新课程学习（中）,2012(2):62-62.

南京师范大学学报（工程技术版）

2016年第3期

浏览历史

内容加载中请稍等...

Twitter推文与情感词典SentiWordNet匹配算法研究被引量：2

同被引文献13

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

Twitter推文与情感词典SentiWordNet匹配算法研究 被引量：2

同被引文献13

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

Twitter推文与情感词典SentiWordNet匹配算法研究被引量：2