摘要
针对源语言到目标语言缺乏平行语料的情况,提出了一种基于增量式自学习策略的多语言翻译模型,即利用中介语双语语料训练源语言到目标语言的翻译模型.在Transformer架构下,相比于基于中介语和直接在伪平行语料上训练的普通双语翻译模型,使用该方法在第十四届全国机器翻译研讨会(CWMT 2018)多语言翻译评测数据集上的机器双语互译评估(BLEU)值提升了0.98个百分点.在此基础上,还对比了不同的预处理方法、训练策略以及多模型的平均和集成策略,其中多模型集成策略的BLEU值上可在多模型策略的基础上进一步提升0.53个百分点.
Without parallel corpus from the source language to the target language,we train multilingual neural machine translation models on bilingual corpus of the pivot language and propose an incremental learning strategy to improve source-language to target-language translation.Experimental results under Transformer framework show that our multilingual iterative method can improve the BLEU score by 0.98 percent point on the China workshop on machine translation(CWMT)2018 multi-language translation evaluation data set,compared to traditional pivot-based translation and the vanilla multilingual neural machine translation(NMT).In addition,we also compared different preprocessing methods,training strategies,multi-model average and ensemble,where multi-model ensemble can further increase the BLEU score by 0.53 percent point unpon common multi-model strategy.
作者
周张萍
黄荣城
王博立
胡金铭
史晓东
陈毅东
ZHOU Zhangping;HUANG Rongcheng;WANG Boli;HU Jinming;SHI Xiaodong;CHEN Yidong(School of Information Science and Engineering,Xiamen University,Xiamen 360001,China)
出处
《厦门大学学报(自然科学版)》
CAS
CSCD
北大核心
2019年第2期170-175,共6页
Journal of Xiamen University:Natural Science
基金
国家科技支撑计划项目(2012BAH14F03)
国家自然科学基金(61573294)
教育部博士点基金(20130121110040)
国家语委委托项目(WT135-10)
国家语委甲骨文专项(YWZ-J010)