期刊文献+

基于多译文神经机器翻译数据增强方法

A multi-translation-based data augmentation method for low-resource neural machine translation
下载PDF
导出
摘要 神经机器翻译(NMT)是目前机器翻译领域的主流技术之一,然而其翻译性能的优劣很大程度上取决于数据集的规模和质量。为了缓解数据集稀缺的问题,本文提出了一种基于多译文神经机器翻译的数据增强方法。首先,利用已训练的神经机器翻译模型翻译出多译文,接着,利用筛选策略选出多个译文,同时提出生成伪双语数据的2种策略:根据筛选出的译文找到对应的目标原文;利用反向翻译模型对多译文翻译。最后,生成的伪数据与原数据混合,训练增强后的翻译模型。实验结果表明,基于多译文数据增强方法可以有效提高NMT模型的翻译性能。 Neural Machine Translation(NMT)is one of the mainstream technologies in the field of machine translation today,but its translation performance depends largely on the size and quality of the dataset.In order to alleviate the problem of dataset scarcity,this paper proposes a data augmentation method based on multi-translation neural machine translation.Firstly,the trained neural machine translation model is used to translate multiple translations;Then,the multi-translation screening strategy is used to select pseudo-monolingual data,and the target translation is generated using two strategies,which are finding the target text based on the filtered translations and translating multiple translations using a reverse translation model.Finally,the generated pseudo data is mixed with the original data to train an enhanced translation model.Experimental results show that the multi-translation data augmentation method can effectively improve the translation performance of NMT model.
作者 李蔓菁 迟春诚 李付学 闫红 LI Manjing;CHI Chuncheng;LI Fuxue;YAN Hong(College of Computer Science and Technology,Shenyang University of Chemical Technology,Shenyang 110142,China;College of Electrical Engineering,Yingkou Institute of Technology,Yingkou 115014,Liaoning,China)
出处 《智能计算机与应用》 2024年第6期35-40,共6页 Intelligent Computer and Applications
基金 辽宁省自然科学基金(2021-YKLH-12,2022-YKLH-18)。
关键词 神经机器翻译 数据增强 多译文 反向翻译 neural machine translation data augmentation multi-translation back translation
  • 相关文献

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部