期刊文献+

基于双三元组网络的易混淆文本情感分类方法

Double Triplet Network for Confusing Text Sentiment Classification
下载PDF
导出
摘要 预训练模型的快速发展使得情感分类任务得到了突破性进展,然而互联网提供的海量数据中存在着大量语义模糊、易混淆的文本,制约了当前多数模型的分类效果。针对易混淆文本对情感分类的负面影响,该文提出了一种基于双三元组网络的易混淆文本情感分类方法。该方法有效解决了传统三元组网络中同类文本特征之间仍存在明显差异的问题,改进了三元样本组合的构建方式,分别从易分类文本和普通文本中构建出两对三元样本组合,并以不同权重进行特征相似度比对,让模型深入挖掘易混淆文本和易分类文本的特征编码差异,充分学习同类别文本间的相似性和混淆类别文本间的差异性,提高了文本特征的聚类效果;同时,在训练过程中将本批次的易混淆文本加入到下一批次进一步训练,更有效地利用了易混淆文本的语义信息,以此提升模型整体的分类效果。在nlpcc2014、waimai_10k和ChnSentiCorp数据集上进行对比实验,实验结果表明,与现有的易混淆文本情感分类方法相比,该方法在准确度和F1值上具有更好的表现,其中F1值相较于基准模型提升了3.16%、2.35%和2.5%,验证了所提方法的有效性和合理性。 The rapid development of pre-trained models has made a breakthrough in the task of sentiment classification.However,there is a large number of semantically ambiguous and confusing text in the massive data provided by the Internet,which restricts the effect of most current classification models.To address this issue,a double triplet network for sentiment classification(DTN4SC)is proposed.This method improves the construction method of triplet sample combinations,by extracting and weighing two kinds of triplet samples from straightforward text and ordinary text,respectively,which captures the similarity between texts of the same category and the differences between texts of confusing categories.And during the training process,the confusing text in one batch is added to the next batch for further training.Experimental results on nlpcc2014,waimai_10k and ChnSentiCorp show that the proposed method has better performance in accuracy and F 1 value compared with the existing sentiment classification methods of confusing text,by 3.16%,2.35%and 2.5%improvements,respectively.
作者 徐瑞 曾诚 程世杰 张海丰 何鹏 XU Rui;ZENG Cheng;CHENG Shijie;ZHANG Haifeng;HE Peng(School of Computer Science and Information Engineering,Hubei University,Wuhan,Hubei 430062,China;School of Artifical Intelligence,Hubei University,Wuhan,Hubei 430062,China;School of Cyber Science and Technology,Hubei University,Wuhan,Hubei 430062,China;Key Laboratory of the Intelligent Sensing System and Security(Mimistry of Education),Hubei University,Wuhan,Hubei 430062,China)
出处 《中文信息学报》 CSCD 北大核心 2024年第1期135-145,共11页 Journal of Chinese Information Processing
基金 国家自然科学基金(62102136) 湖北省重点研发计划项目(2021BAA188,2021BAA184,2022BAA044) 湖北省技术创新专项(2020AEA008)。
关键词 情感分类 三元组网络 困难样本 sentiment classification triplet network hard sample
  • 相关文献

参考文献5

二级参考文献73

共引文献102

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部