期刊文献+

面向中文微博的情绪-原因对抽取数据集构建及分析研究

Construction of Chinese Microblog Emotion-Cause Pair Extraction Dataset and A Tentative Model
下载PDF
导出
摘要 情绪-原因对抽取(ECPE)任务旨在从给定文档中同步抽取情绪子句及其对应的原因子句,该任务在新闻领域得到了广泛研究。然而,社交媒体领域ECPE任务的研究相对较少,主要原因在于缺少适用的数据集。与新闻领域相比,该领域更具挑战性和实用性:(1)在社交媒体领域,情绪表达更加多样化、非规范化;(2)以往的研究忽略了情绪造成的主观意图,其对于决策分析有很重要的价值。针对以上问题,该文首先构建了一个面向中文微博的情绪原因抽取数据集,并对其中5009条数据进行了人工标注。该数据集具备以下特点:(1)收录了隐喻、反讽等形式的情绪表达,标注了细粒度的情绪类别;(2)定义了三种类型的意图,并标注了意图子句;(3)当前规模最大的中文情绪-原因对抽取数据集。结合数据集特点,该文提出一种融合情绪类别和意图信息的情绪-原因对抽取方法,并将该方法与多个ECPE主流方法进行了比较分析。实验结果表明,该文方法可以更有效提升社交媒体领域情绪-原因对抽取的效果。 Emotion-cause pair extraction(ECPE)is to extract emotion clauses and corresponding cause clauses simultaneously,which has been widely studied in the news domain.In the social media domain,there are few studies on ECPE task due to the lack of datasets.Compared to the news domain,the social media is more challenging in that:(a)the emotion expression in the social media texts is more diverging or even ill-formed;(b)the human’s subjective intentions have been widely ignored in the prior studies,which are significant for decision analysis.To alleviate these issues,this paper constructs a Chinese Microblog dataset WeiboEmotion for ECPE with 5009 samples manually annotated.This dataset includes emotional expressions in the form of metaphor and irony,and defines fine-grained emotional categories and three types of intentions.Considering the features of this dataset,this paper tentatively proposes an ECPE method integrating emotion category and intention information.Experimental results show the effectiveness of this method compared with the mainstream ones.
作者 陈仲豪 朱军楠 周玉 向露 宗成庆 CHEN Zhonghao;ZHU Junnan;ZHOU Yu;XIANG Lu;ZONG Chengqing(National Key Laboratory of Pattern Recognition,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China;School of Artificial Intelligence,University of China Academy of Sciences,Beijing 100049,China;Fanyu AI Lab,Zhongke Fanyu Technology Co.,Ltd,Beijing 100190,China)
出处 《中文信息学报》 CSCD 北大核心 2024年第10期135-143,共9页 Journal of Chinese Information Processing
基金 科技创新2030-“新一代人工智能”重大项目(2020AAA0108600)。
关键词 情绪-原因对抽取 中文社交媒体 微博数据集 emotion-cause pair extraction Chinese social media weibo dataset

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部