摘要
神经机器翻译模型主要是在监督环境下学习模型参数,即编码器将源语言编码为连续的向量表示,解码器从这组连续向量表示中解码出目标语言。对于稀缺资源的语言来说,监督学习方法表现得并不理想。虽然迁移学习方法能够缓解上述问题,但是模型泛化能力较弱,得不到期望的译文。本文受迁移学习启发,提出一种无监督的元学习策略来构建翻译模型,将利用回译方法扩充得到的多语言语料用于元训练,同时采用通用词汇表示方法将多语言词向量映射到共享的向量空间中,实现多语言知识的共享和词向量之间的映射,进而提高翻译质量。此外,本文还设计了一种针对阿尔泰语言的语法约束规则,使得模型在元测试阶段能够快速准确地适应新任务、提升翻译质量。本文在CCMT2019的蒙古语-汉语、维吾尔语-汉语和哈萨克语-汉语等翻译任务中均展现出了显著的效果。
出处
《信息技术与信息化》
2021年第1期241-243,共3页
Information Technology and Informatization