基于ELMo和Bi-SAN的中文文本情感分析被引量：12

Chinese text sentiment analysis based on ELMo and Bi-SAN

下载PDF

导出

摘要目前情感分析模型通常使用word2vec、GloVe等方法生成静态词向量,并且传统的卷积或循环深度模型无法完整地关注上下文,提取特征不充分,影响情感判断。针对上述问题,提出基于ELMo(embedding from language model)和双向自注意力网络(bidirectional self-attention network,Bi-SAN)的中文文本情感分析模型。首先通过ELMo语言模型训练得到融合词语本身和上下文信息的词向量,解决了一词多义的问题;同时使用预训练的skip-gram算法代替随机初始化的ELMo模型的嵌入层,提高模型的收敛速度;之后使用Bi-SAN提取特征,由于自注意力机制,Bi-SAN可以完整地关注每个词的上下文,提取特征更为全面。同现有的多个情感分析模型对比,该模型在酒店评论数据集上和NLPCC2014 task2中文数据集取得了更高的F 1值,验证了模型的有效性。 Current sentiment analysis models usually use word2vec,GloVe and other methods to generate static word embedding,and traditional convolutional or recurrent depth models cannot fully focus on the context,extract insufficiently features,and reduce the accuracy of sentiment judgment.This paper proposed a Chinese text sentiment analysis model based on ELMo and Bi-SAN.Firstly,through ELMo language model training,the model got the word vector that integrated the word itself and context information to solve the problem of ambiguity of a word.Meanwhile,it used pre-trained skip-gram algorithm to replace the embedding layer of the randomly initialized ELMo model and improved the convergence speed of the model.Then the mo-del used Bi-SAN to extract features.Due to the self-attention mechanism,Bi-SAN could fully focus on the context of each word and extract features more comprehensively.Compared with multiple existing sentiment analysis models,the proposed model achieves higher F 1 in the hotel review dataset and the NLPCC2014 task2 Chinese dataset,which validates the effectiveness of the model.

作者李铮陈莉张爽 Li Zheng;Chen Li;Zhang Shuang(School of Information Science&Technology,Northwest University,Xi’an 710127,China)

机构地区西北大学信息科学与技术学院

出处《计算机应用研究》 CSCD 北大核心 2021年第8期2303-2307,共5页 Application Research of Computers

基金国家重点研发资助项目(2020YFC1523301) 陕西省重点研发计划资助项目(2019ZDLGY10-01)。

关键词情感分析词向量 ELMo 自注意力机制 sentiment analysis word embedding ELMo self-attention

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1陈兴蜀,常天祐,王海舟,赵志龙,张杰.基于微博数据的“新冠肺炎疫情”舆情演化时空分析[J].四川大学学报（自然科学版）,2020,57(2):409-416. 被引量：86
2李寿山,李逸薇,黄居仁,苏艳.基于双语信息和标签传播算法的中文情感词典构建方法[J].中文信息学报,2013,27(6):75-81. 被引量：35
3王志涛,於志文,郭斌,路新江.基于词典和规则集的中文微博情感分析[J].计算机工程与应用,2015,51(8):218-225. 被引量：67
4程艳,叶子铭,王明文,张强,张光河.融合卷积神经网络与层次化注意力网络的中文文本情感倾向性分析[J].中文信息学报,2019,33(1):133-142. 被引量：24
5吴小华,陈莉,魏甜甜,范婷婷.基于Self-Attention和Bi-LSTM的中文短文本情感分析[J].中文信息学报,2019,33(6):100-107. 被引量：50
6赵亚欧,张家重,李贻斌,付宪瑞,生伟.融合基于语言模型的词嵌入和多尺度卷积神经网络的情感分析[J].计算机应用,2020,40(3):651-657. 被引量：26

二级参考文献57

1李健,曹垚,王宗敏,王广印.融合k-means聚类和Hausdorff距离的散乱点云精简算法[J].武汉大学学报（信息科学版）,2020,45(2):250-257. 被引量：16
2许云,樊孝忠,张锋.一种不需分词的中文文本分类方法[J].北京理工大学学报,2005,25(9):778-781. 被引量：5
3朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
4Turney P. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[C]//Proceedings of ACL 02, 2002: 417-424.
5Pang B, L Lee, S Vaithyanathan. Thumbs up? Senti ment Classification using Machine Learning Techniques [C]//Proceedings of EMNLP-02, 2002:79-86.
6Kennedy A, D Inkpen. Sentiment Classification of Movie Reviews using Contextual Valence Shifters[J]. Computational Intelligence, 2006,22(2) : 110-125.
7Wiebe J, R Mihalcea. Word Sense and Subjectivity [C]//Proceeding of ACL-COLING-06, 2006: 1065- 1072.
8Hatzivassiloglou V, K McKeown. Predicting the Se mantic Orientation of Adjectives[C]//Proceedings of ACL-97, 1997: 174-181.
9Wiebe J. Learning Subjective Adjectives from Corpora [C]//Proeeedings of AAAI-2000, 2000: 735-740.
10Pang B, L Lee. A Sentimental Education: Sentiment Analysis using Subjectivity Summarization based on Minimum Cuts [C]//Proceedings of ACL-04, 2004: 271-278.

共引文献267

1方玉婵,梁先锋,褚建勋,安彦青,黄婧晔,陈昕悦,刘益东.社交媒体自然灾害传播中的地域舆论感知差异研究:基于“四川凉山州森林火灾事件”的实证分析[J].中国网络传播研究,2021(4):207-233. 被引量：1
2卢功靖,卢林艳,李媛媛,王成军.基于议题类型的临近预测:使用社交媒体预测新冠肺炎疫情确诊人数[J].中国网络传播研究,2021(4):93-117. 被引量：1
3周金连,王静君.早期参与者的力量:对公共事件微博舆情演化周期的研究[J].中国网络传播研究,2021(1):127-152.
4曾志伟,刁明光,王欣鹏,何炳辉.基于口罩评论数据的用户情感趋势与关注分析[J].计算机系统应用,2020,29(12):263-267.
5杨一璞,朱永华,高海燕,高文靖.一种结合文章信息的新闻评论情感分析方法[J].上海大学学报（自然科学版）,2022,28(1):170-178.
6张剑,张立杰.新时代媒体舆论引导下网络语言信息传播耗损及构建研究[J].情报科学,2022,40(8):71-75.
7孙锐,和世华,李祥华,邰先常.基于爬虫技术“雪茄”关注热点的社会化网络及时空演化分析[J].农村经济与科技,2020,31(24):213-216. 被引量：3
8雍龙泉,贾伟,张建科.基于爬虫技术与智能算法的网络舆情监测[J].智能计算机与应用,2021,11(4):35-38. 被引量：3
9郭荣荣,闵素芹.“线上学习”舆情分析与在线教学提升策略[J].中国传媒大学学报（自然科学版）,2020,27(6):48-54. 被引量：2
10姜耀明,李桓.工业建筑设计应在限制中求发展[J].工业建筑,2000,30(4):24-26.

同被引文献162

1陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79. 被引量：18
2陈祎荻,秦玉平.基于机器学习的文本分类方法综述[J].渤海大学学报（自然科学版）,2010,31(2):201-205. 被引量：12
3林洋港,陈恩红.文本分类中基于概率主题模型的噪声处理方法[J].计算机工程与科学,2010,32(7):89-92. 被引量：9
4林纲.网络新闻文本结构的语法特征[J].社会科学家,2010,25(7):155-157. 被引量：7
5黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：216
6袁柳,张龙波.基于概率主题模型的标签预测[J].计算机科学,2011,38(7):175-180. 被引量：9
7刘剑敏,李润权.论网络的碎片化特征[J].新闻爱好者（下半月）,2011(9):42-43. 被引量：41
8叶春蕾,冷伏海.基于概率模型的主题识别方法实证研究[J].情报科学,2013,31(2):135-139. 被引量：9
9叶春蕾,冷伏海.基于引文—主题概率模型的科技文献主题识别方法研究[J].情报理论与实践,2013,36(9):100-103. 被引量：17
10覃世安,李法运.文本分类中TF-IDF方法的改进研究[J].现代图书情报技术,2013(10):27-30. 被引量：28

引证文献12

1王冬,甘恒,黄文峰,黄政龙,陈中举.基于MLP模型的影评情感分析研究[J].中国科技论文在线精品论文,2021(2):208-211. 被引量：2
2王颖洁,朱久祺,汪祖民,白凤波,弓箭.自然语言处理在文本情感分析领域应用综述[J].计算机应用,2022,42(4):1011-1020. 被引量：39
3邵德奇,关培培,石聪.基于BERT+A-Softmax的多分类模型构建与应用研究[J].情报工程,2022,8(2):51-61.
4谭坤彦,杨孔雨.基于神经网络的舆情情感分析研究热点与趋势——基于CiteSpace的可视化分析[J].智能计算机与应用,2022,12(8):33-42. 被引量：5
5许诺,赵薇,尚柯源,陈浩宇.基于预训练语言模型的健康谣言检测[J].系统科学与数学,2022,42(10):2582-2589. 被引量：4
6李东金,单锐,阴良魁,王芳,程宝娜.基于XLNet的中文文本情感分析[J].燕山大学学报,2022,46(6):547-553. 被引量：1
7刘柏霆,管卫利,李陶深.基于XLNet+BiGRU+Att(Label)的文本分类模型[J].广西科学院学报,2022,38(4):412-419. 被引量：1
8段文婷.基于迁移学习的英语识别方法[J].电子设计工程,2023,31(7):21-24.
9孙耀平,赵洁,李润伟,马强,周琰.融合ChineseBERT的电力安全隐患分类研究[J].电子设计工程,2023,31(11):16-20.
10孟凡会,王玉亮,汪卫霞.基于注意力机制的在线用户痛点信息挖掘[J].情报理论与实践,2023,46(10):192-199.

二级引证文献53

1池亚平,岳梓岩,赵伦.密码算法识别技术研究进展与展望[J].北京电子科技学院学报,2022,30(4):1-14.
2汪欣,张铭毅,刘亚萍.精准推荐技术的工作逻辑和前沿应用[J].传媒论坛,2022,5(16):16-18.
3肖珺,黄枫怡.情感分析在跨文化传播研究中的方法意义:源流、应用与反思[J].中华文化与传播研究,2022(1):82-93. 被引量：1
4苗文凯,刘庆芳,刘海云,苏健.文本情感分析技术在中邮网院的应用研究[J].邮政研究,2022,38(2):28-32.
5陆晓松,王国庆,李勖之,杜俊洋,孙丽.场地环境大数据采集和机器学习方法在污染智能识别中的应用研究进展[J].生态与农村环境学报,2022,38(9):1101-1111. 被引量：9
6萧勋灿,钟纯宜,宋倬君,李祺安,涂东阳.B站优质线上教育视频播放量影响因子的多维度分析[J].新媒体研究,2022,8(15):38-41.
7付念.基于LSTM的自然语言处理校园新闻数据分析[J].电子技术与软件工程,2022(16):204-207.
8胡文烨,郭文涛,李振业,许鸿奎.基于NLP的政企类文本智能分类的实现与应用[J].电子技术与软件工程,2022(16):253-258.
9刘建义,夏换,周洁.基于文本挖掘的后疫情时期民众诉求主题研究[J].计算机时代,2022(10):77-80.
10田雨薇,张智.基于标签推理和注意力融合的多标签文本分类方法[J].计算机应用研究,2022,39(11):3315-3319. 被引量：1

1戴水连.阅读教学中如何培养学生的概括能力[J].小学生作文辅导（语文园地）,2021(2):74-74.
2蒋荣萍.基于N⁃gram算法的网络安全风险检测系统设计[J].现代电子技术,2021,44(1):25-28. 被引量：11
3朱磊,焦瑞,黑新宏,赵钦,姚燕妮,方潇颖,杨明松,盘隆.面向建筑信息领域的自然语言问题生成方法[J].山西大学学报（自然科学版）,2021,44(3):428-437.
4李碧秋,王佳斌,刘雪丽.基于语义相似的中文数据清洗方法[J].现代计算机,2021,27(19):58-61.
5包振山,秘博闻,张文博.基于人工经验网络架构为初始化的NAS算法[J].北京工业大学学报,2021,47(8):854-862. 被引量：3
6祝亮.基于CNN深度学习的自媒体文本分类方法的研究[J].电脑知识与技术,2021,17(21):97-100. 被引量：3
7冯云.一种求解图论中最大独立集问题的启发式算法[J].河北省科学院学报,2021,38(3):9-13. 被引量：1
8Bronson Syiem,Sushanta Kabir Dutta,Juwesh Binong,Lairenlakpam Joyprakash Singh.Comparison of Khasi Speech Representations with Different Spectral Features and Hidden Markov States[J].Journal of Electronic Science and Technology,2021,19(2):155-162.
9王彦武,铁铮,裴强强,郭青林.静荷载作用下掏蚀影响土遗址稳定性的数值分析[J].岩土工程技术,2021,35(4):216-221.
10马扬,刘泽一,梁星星,程光权,阳方杰,成清,刘忠.基于病毒传播网络的基因序列表示学习[J].计算机研究与发展,2021,58(8):1642-1654. 被引量：1

计算机应用研究

2021年第8期

浏览历史

内容加载中请稍等...

基于ELMo和Bi-SAN的中文文本情感分析被引量：12

参考文献6

二级参考文献57

共引文献267

同被引文献162

引证文献12

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

基于ELMo和Bi-SAN的中文文本情感分析 被引量：12

参考文献6

二级参考文献57

共引文献267

同被引文献162

引证文献12

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

基于ELMo和Bi-SAN的中文文本情感分析被引量：12