-
题名基于对偶学习的西里尔蒙古语-汉语机器翻译研究
- 1
-
-
作者
苏依拉
孙晓骞
巴图其其格
仁庆道尔吉
-
机构
内蒙古工业大学信息工程学院
-
出处
《计算机应用与软件》
北大核心
2020年第1期172-178,共7页
-
基金
国家自然科学基金项目(61363052,61502255)
内蒙古自治区自然科学基金项目(2016MS0605)
内蒙古自治区民族委员会基金项目(MW-2017-MGYWXXH-03)
-
文摘
目前,基于端到端的神经机器翻译(NMT)在大语种上取得了显著的效果,已经成为学术界非常流行的方法,然而该模型的训练严重依赖平行语料库的大小,通常需要上百万句,而西里尔蒙古语和汉语之间的平行语料库严重匮乏,并且人工构建代价昂贵。因此,提出基于对偶学习的西里尔蒙汉互译方法。为了缓解因未登录词导致的译文质量不高的问题,采用BPE(Byte Pair Encoding)技术对语料进行预处理。将通过单语数据预训练的语言模型和20%的平行双语数据预训练的翻译模型作为该模型训练的初始状态。以NMT为基线系统,实验结果表明,该方法达到了与NMT使用西里尔蒙汉全部双语数据相当的效果,有效缓解了因未登录词较多和平行语料库匮乏导致的译文质量不高的问题。
-
关键词
对偶学习
机器翻译
西里尔蒙古语-汉语
BPE
单语语料库
-
Keywords
Dual learning
Machine translation
Cyrillic Mongolian-Chinese
BPE
Monolingual corpus
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-