-
题名AMR文本生成的数据扩充方法
- 1
-
-
作者
付叶蔷
李军辉
-
机构
苏州大学计算机科学与技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2022年第5期91-97,共7页
-
基金
国家自然科学基金(61876120)。
-
文摘
在抽象语义表示(AMR)文本生成过程中,AMR图到文本形式的转换在很大程度上受语料规模的影响。提出一种简单有效的动态数据扩充方法,在已标注数据集规模有限的情况下提高AMR文本生成性能。将AMR文本生成模型解码端视作一个语言模型,使用单词级别的扩充方法,通过动态地对目标端单词进行随机替换,得到带噪声的数据,从而增强模型的泛化能力。在加载数据时,随机选择目标句子中的部分单词做噪声化处理,利用约束编码器预测被覆盖的单词并还原出原始语句,使模型具有更深层的语言表征能力。基于AMR2.0和AMR3.0英文标准数据集进行实验,结果表明,该方法可有效提升AMR文本生成系统性能,与未引入噪声的基准Transformer模型相比,能够获得更优的BLEU、Meteor和chrF++指标,其中BLEU值在人工标注语料场景下分别提升0.68和0.64,且在大规模自动标注语料场景下也能提升0.60和0.68。
-
关键词
抽象语义表示
语料规模
AMR文本生成
动态数据扩充
噪声
-
Keywords
Abstract Meaning Representation(AMR)
corpus size
AMR-to-text generation
dynamic data augmentation
noise
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-