-
题名基于注意力掩码语言模型的隐式篇章关系识别
被引量:1
- 1
-
-
作者
窦祖俊
洪宇
李晓
周国栋
-
机构
苏州大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2022年第10期17-26,共10页
-
基金
科技部重大专项课题(2020YFB1313601)
国家自然科学基金(62076174,61773276)。
-
文摘
隐式篇章关系识别是在缺少显式连接词的条件下,自动判定论元之间的语义关系。其挑战性在于现有训练数据的规模较小,其蕴含的语义多样性也相对有限。针对上述问题,该文利用掩码语言模型架构建立篇章关系分类模型。其动因包括:①掩码语言模型在自监督学习过程中具备局部的语言生成能力,即在理解上下文语义的基础上“重构掩码区域语义表示”的能力;②掩码重构形成了数据增强(潜在的自动数据扩展)的效果,有助于提高篇章关系分类模型的鲁棒性。特别地,该文提出一种基于交互注意力的掩码语言模型,该方法计算论元之间的交互注意力矩阵,并依赖交互注意力动态选择论元之间高关联性的关键词项进行遮蔽、掩码重构,从而形成更有针对性的数据增强(非关键信息的数据增强对关系分类影响不大)。该文利用宾州篇章树库语料进行实验。实验结果表明,相较于基准系统,我们提出的方法的F 1值在四大类关系(对比关系、偶然性关系、扩展关系和时序关系)上分别提高了3.21%、6.46%、2.74%和6.56%。
-
关键词
隐式篇章关系
交互式注意力
掩码语言模型
-
Keywords
implicit discourse relation
interactive-attention
mask language model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于高困惑样本对比学习的隐式篇章关系识别
被引量:1
- 2
-
-
作者
李晓
洪宇
窦祖俊
徐旻涵
陆煜翔
周国栋
-
机构
苏州大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2022年第11期38-49,共12页
-
基金
科技部重大专项课题(2020YFB1313601)
国家自然科学基金(61773276,62076174)。
-
文摘
隐式篇章关系识别是一种自动判别论元语义关系的自然语言处理任务。该任务蕴含的关键科学问题涉及两个方面:其一是准确表征论元语义;其二是基于语义表示,有效地判别论元之间的关系类型。该文将集中在第一个方面开展研究。精准可靠的语义编码有助于关系分类,其根本原因是,编码表示的可靠性促进了正负例样本的可区分性(正例样本特指一对蕴含了“目标关系类”的论元,负例则是一对持有“非目标关系类”的论元)。近期研究显示,集成对比学习机制的语义编码方法能够提升模型在正负例样本上的可辨识性。为此,该文将对比学习机制引入论元语义的表示学习过程,利用“对比损失”驱动正负例样本的“相异性”,即在语义空间中聚合同类正样本,且驱散异类负样本的能力。特别地,该文提出基于条件自编码器的高困惑度负例生成方法,并利用这类负例增强对比学习数据的迷惑性,提升论元语义编码器的鲁棒性。该文使用篇章关系分析的公开语料集PDTB进行实验,实验结果证明,上述方法相较于未采用对比学习的基线模型,在面向对比(Comparison)、偶然(Contingency)、扩展(Expansion)及时序(Temporal)四种PDTB关系类型的二元分类场景中,分别产生了4.68%、4.63%、3.14%、12.77%的F 1值性能提升。
-
关键词
隐式篇章关系识别
对比学习
条件变分编码
-
Keywords
implicit discourse relation recognition
contrastive learning
condition variational auto-encoder
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-