-
题名基于多阶段训练的跨语言摘要技术
- 1
-
-
作者
潘航宇
席耀一
周会娟
陈刚
郭志刚
-
机构
信息工程大学
-
出处
《信息工程大学学报》
2024年第2期139-147,共9页
-
基金
国家社会科学基金资助项目(19CXW027)。
-
文摘
为解决跨语言摘要(Cross-Lingual Summarization,CLS)模型语义理解、跨语言对齐和文本生成能力不高的问题,提出了一个基于多阶段训练的英-中跨语言摘要模型。首先,进行多语言去噪预训练,同时学习中、英文的通用语言知识;其次,进行多语言机器翻译微调,同时学习对英文的语义理解、从英文到中文的跨语言对齐以及中文的文本生成能力;最后,进行CLS微调,进一步学习特定于CLS任务的语义理解、跨语言对齐和文本生成能力,最终获得一个性能优异的英-中跨语言摘要模型。实验结果表明所提模型的CLS性能有明显提升,且多语言去噪预训练和多语言机器翻译均可提高模型性能。与众多基线模型中的最优性能相比,所提模型在英-中跨语言摘要基准集上将ROUGE-1、ROUGE-2和ROUGE-L值分别提升了45.70%、60.53%和43.57%。
-
关键词
跨语言摘要
多阶段训练
多语言去噪预训练
多语言机器翻译
-
Keywords
cross-lingual summarization
multi-stage training
multilingual denoising pre-training
multilingual machine translation
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-