多层次数据增强的半监督中文情感分析方法被引量：8

A Semi-Supervised Sentiment Analysis Method for Chinese Based on Multi-Level Data Augmentation

导出

摘要【目的】针对在自然语言处理领域中高质量的标签数据较难获取的问题,设计基于多层次数据增强的半监督中文情感分析方法。【方法】采用简单数据增强和反向翻译的文本增强技术获取大量无标签数据,通过对无标签数据计算一致性正则提取无标签数据的数据信号;对弱增强数据计算其预判标签,将强增强数据与预判标签一起构建监督训练信号,通过置信度阈值过滤使模型得出置信度高的预测结果。【结果】在三个公开情感分析数据集上进行实验,在Waimai和Weibo数据集上仅使用1000条有标签文档就可以分别获得超过BERT 2.311%和6.726%的性能提升。【局限】实验均在公开通用语料上进行,未验证在垂直领域数据集上的效果。【结论】所提方法充分挖掘了无标签数据的信息,可以缓解标签数据不易获取的问题,同时具有较强的预测稳定性。 [Objective]This paper designs a semi-supervised model for sentiment analysis based on multi-level data augmentation,aiming to generate high-quality labeled data for natural language processing in Chinese.[Methods]First,we collected large amount of unlabeled data with the help of simple data enhancement and reverse translation of text enhancement techniques.Then,we extracted the data signals of unlabeled samples by calculating their consistency norms.Third,we calculated the pseudo-label of the weakly enhanced samples,and constructed the supervised training signal from the strongly enhanced sample together with the pseudo-label.Finally,we set confidence threshold for the model to generate prediction results.[Results]We examined the proposed model with three publicly available datasets for sentiment analysis.With only 1000 labeled documents from the Waimai and Weibo datasets,the performance of our model was 2.311%and 6.726%better than those of the BERT.[Limitations]We did not evaluate the model’s performance with vertical domain datasets.[Conclusions]The proposed method fully utilizes the information of unlabeled samples to address the issue of insufficient labeled data,and shows strong predicting stability.

作者刘彤刘琛倪维健 Liu Tong;Liu Chen;Ni Weijian(College of Computer Science and Engineering,Shandong University of Science and Technology,Qingdao 266590,China)

机构地区山东科技大学计算机科学与工程学院

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第5期51-58,共8页 Data Analysis and Knowledge Discovery

基金国家自然科学基金项目(项目编号:71704096,61602278) 青岛社会科学规划项目(项目编号:QDSKL2001117)的研究成果之一。

关键词情感分析半监督学习一致性正则数据增强 Sentiment Analysis Semi-Supervised Learning Consistency Regularity Data Augmentation

分类号 TP393 [自动化与计算机技术—计算机应用技术] G250 [文化科学—图书馆学]

引文网络
相关文献

同被引文献109

1张振刚,罗泰晔.基于在线评论数据挖掘和Kano模型的产品需求分析[J].管理评论,2022,34(11):109-117. 被引量：11
2包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：5
3李牧南,王良,赖华鹏.中文科技政策文本分类:增强的TextCNN视角[J].科技管理研究,2023,43(2):160-166. 被引量：3
4王蓬辉,李明正,李思.基于数据增强的中文医疗命名实体识别[J].北京邮电大学学报,2020,43(5):84-90. 被引量：10
5李磊,宋建伟,刘继.基于在线评论情感分析的声誉影响效应研究[J].管理学报,2020(4):583-591. 被引量：21
6王超.深度学习在行业指数技术分析中的应用研究[J].管理评论,2021,33(3):75-83. 被引量：3
7胡裕树,范晓.试论语法研究的三个平面[J].新疆师范大学学报（哲学社会科学版）,1985,6(2):7-15. 被引量：207
8张思洁,张柏然.形合与意合的哲学思维反思[J].中国翻译,2001,22(4):13-18. 被引量：141
9赵琨,孔祥纬,田英杰.带有多面体扰动的半监督v-支持向量分类机[J].中国管理科学,2010,18(1):143-148. 被引量：1
10杨鹏艳.消费金融的理论内涵及其在中国的实践[J].经济问题探索,2011(5):97-101. 被引量：51

引证文献8

1杨秀璋,武帅,张苗,李娜,于小民,范郁锋.基于TextCNN和Attention的微博舆情事件情感分析[J].信息技术与信息化,2021(7):41-46. 被引量：13
2刘赛红,黄馨锋,余意.新型农业经营主体生产性消费金融风险识别——基于文本挖掘及问卷调查研究[J].系统工程,2022,40(1):121-132.
3刘兴丽,范俊杰,马海群.面向小样本命名实体识别的数据增强算法改进策略研究[J].数据分析与知识发现,2022,6(10):128-141. 被引量：3
4夏占杰,张贝克,高东.基于数据增强的HSE检查纪要命名实体识别[J].中国安全科学学报,2022,32(12):53-62. 被引量：1
5周红照.形式语义知识驱动的中文伪情感句智能识别模型[J].外国语,2023,46(3):13-20.
6李牧南,王良,赖华鹏.基于深度学习的我国科技政策属性识别[J].科研管理,2024,45(2):1-11.
7刘彤,任欣儒,尹金辉,倪维健.一种全面的少标签样本情形下的知识蒸馏方法[J].数据分析与知识发现,2024,8(1):104-113.
8江亿平,张婷,夏争鸣,李玉花,张兆同.融合边缘采样和Tri-training的用户评论情感分析方法[J].数据分析与知识发现,2024,8(5):102-112.

二级引证文献17

1刘成.基于AdaBoost算法在电商评论情感中的应用[J].数字技术与应用,2022,40(3):60-62. 被引量：1
2杨秀璋,刘建义,任天舒,宋籍文,武帅,姜婧怡,陈登建,周既松,李娜.基于改进LDA-CNN-BiLSTM模型的社交媒体情感分析研究[J].现代计算机,2022,28(2):29-36. 被引量：4
3杨秀璋,宋籍文,武帅,廖文婧,任天舒,刘建义.一种融合Bert预训练和BiLSTM的场景迁移情感分析研究[J].计算机时代,2022(8):69-74. 被引量：2
4杨秀璋,武帅,宋籍文,廖文婧,任天舒,刘建义.基于LDA和关系图谱的数据治理文献主题演化研究[J].信息技术与信息化,2022(8):6-12. 被引量：2
5杨秀璋,武帅,任天舒,刘建义,宋籍文,廖文婧.融合多头注意力机制和BiLSTM的电商评论情感分析研究[J].信息技术与信息化,2022(10):5-9. 被引量：1
6黄卫东,程小香.基于微博平台的舆情参与主体情感强度研究[J].计算机技术与发展,2022,32(11):140-145. 被引量：1
7曾莉,杨添宝,周慧.基于LDA与注意力机制BiLSTM的微博舆情分析模型[J].南京理工大学学报,2022,46(6):742-748. 被引量：11
8韦斯羽,朱广丽,谈光璞.融合Text-CNN与注意力机制的特产小吃评论情感分析[J].阜阳师范大学学报（自然科学版）,2023,40(1):57-63. 被引量：2
9杨秀璋,武帅,廖文婧,项美玉,于小民,周既松,赵小明.基于LDA⁃BiLSTM模型和知识图谱的电影影评文本挖掘研究[J].现代计算机,2023,29(8):12-19.
10沈洪洲,居玥.社交媒体中应急救援信息分类的影响特征研究[J].智能计算机与应用,2023,13(7):19-26.

1王馨乐,汪红.基于知识增强的情感分析研究[J].内蒙古科技与经济,2020(22):149-152.
2祝鸣,沈建华,汪家财.可扩展物联网教学开发系统的设计与实现[J].华东师范大学学报（自然科学版）,2021(3):78-95. 被引量：1
3李跃艳,王昊,邓三鸿,王伟.近十年信息检索领域的研究热点与演化趋势研究——基于SIGIR会议论文的分析[J].数据分析与知识发现,2021,5(4):13-24. 被引量：12

数据分析与知识发现

2021年第5期

浏览历史

内容加载中请稍等...

多层次数据增强的半监督中文情感分析方法被引量：8

同被引文献109

引证文献8

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

多层次数据增强的半监督中文情感分析方法 被引量：8

同被引文献109

引证文献8

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

多层次数据增强的半监督中文情感分析方法被引量：8