-
题名基于数据增强的中文隐式篇章关系识别方法
被引量:2
- 1
-
-
作者
王体爽
李培峰
朱巧明
-
机构
苏州大学计算机科学与技术学院
江苏省计算机信息技术处理重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2021年第10期85-90,共6页
-
基金
国家自然科学基金(61836007,61772354,61751206)
江苏高校优势学科建设工程资助项目(PAPD)。
-
文摘
由于缺乏显式连接词,隐式篇章关系识别是一个具有挑战性的任务。文中提出了一种结合主动学习和多任务学习来间接扩充隐式篇章关系训练数据的隐式篇章关系识别方法,旨在在增强训练数据的同时尽量少地引入伪隐式篇章关系数据中的噪声。首先,基于BERT模型通过主动学习方法的分类不确定性来选择部分显式篇章关系样本;然后,移除显式篇章关系数据中的显式连接词作为伪隐式篇章关系数据;最后,采用多任务学习方法使伪隐式篇章关系数据有助于隐式篇章关系识别。在中文篇章树库(CDTB)上进行的实验的结果显示,相比基准模型,所提方法在宏平均F1、微平均F1值上均得到了提高。
-
关键词
篇章分析
隐式篇章关系识别
主动学习
多任务学习
-
Keywords
Discourse parsing
Implicit discourse relation recognition
Active learning
Multi-task learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于门控记忆网络的汉语篇章主次关系识别方法
被引量:1
- 2
-
-
作者
王体爽
李培峰
朱巧明
-
机构
苏州大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2019年第5期39-46,共8页
-
基金
国家自然科学基金(61836007
61772354
61773276)
-
文摘
篇章分析是自然语言理解的基础。作为篇章分析的重要任务之一,汉语主次关系识别还处于探索阶段。该文提出了一种基于门控记忆网络(GMN)的汉语篇章主次关系识别方法。该方法首先使用Bi-LSTM和CNN分别获取每个篇章单元的全局信息和局部信息。然后,融合两部分篇章单元信息并从中计算得到一个门控单元。最后,使用这个门控单元捕获各个篇章单元相对于篇章整体来说相对重要的特征表示,从而识别出核心篇章单元。在Chinese Discourse Treebank(CDTB)语料库上的实验显示,和最好的基准系统相比,该文的方法在宏平均F1、微平均F1值上均得到了提高。
-
关键词
篇章分析
主次识别
汉语篇章树库
-
Keywords
discourse parsing
nuclearity recognition
Chinese discourse treebank
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名运用多层注意力神经网络识别中文隐式篇章关系
被引量:10
- 3
-
-
作者
徐昇
王体爽
李培峰
朱巧明
-
机构
苏州大学计算机科学与技术学院
江苏省计算机信息技术处理重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2019年第8期12-19,35,共9页
-
基金
国家自然科学基金(61773276,61772354,61836007)
-
文摘
中文隐式篇章关系识别是一个具有挑战性的任务,其难点在于如何捕获论元的语义信息。该文提出了一个模拟人类双向阅读和重复阅读过程的三层注意力网络模型(TLAN)用于识别中文隐式篇章关系。首先,使用Self-Attention层对论元进行编码;然后,通过细粒度的Interactive Attention层模拟双向阅读过程以生成包含交互信息的论元表示,并且通过非线性变换获得论元对信息的外部记忆;最后,通过包含外部记忆的注意力层来模拟重复阅读过程,在论元对记忆的引导下生成论元的最终表示。在中文篇章树库(CDTB)上进行的隐式篇章关系识别实验结果显示,该文提出的模型TLAN在Micro-F1和Macro-F1上超过了多个基准模型。
-
关键词
篇章分析
隐式篇章关系识别
注意力机制
-
Keywords
discourse parsing
implicit discourse relation recognition
attention mechanism
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-