-
题名基于编码器-解码器重构框架的蒙汉神经机器翻译
被引量:6
- 1
-
-
作者
孙晓骞
苏依拉
赵亚平
王宇飞
仁庆道尔吉
-
机构
内蒙古工业大学信息工程学院
-
出处
《计算机应用与软件》
北大核心
2020年第4期150-155,163,共7页
-
基金
国家自然科学基金项目(61363052,61502255)
内蒙古自治区自然科学基金项目(2016MS0605)
内蒙古自治区民族委员会基金项目(MW-2017-MGYWXXH-03)。
-
文摘
近年来,端到端的神经机器翻译方法由于翻译准确率高,模型结构简单等优点已经成为机器翻译研究的重点,但其依然存在一个主要的缺点,该模型倾向于反复翻译某些源词,而错误地忽略掉部分词。针对这种情况,采用在端到端模型的基础上添加重构器的方法。首先利用Word2vec技术对蒙汉双语数据集进行向量化表示,然后预训练端到端的蒙汉神经机器翻译模型,最后对基于编码器-解码器重构框架的蒙汉神经机器翻译模型进行训练。将基于注意力机制的蒙汉神经机器翻译模型作为基线系统。实验结果表明,该框架显著提高了蒙汉机器翻译的充分性,比传统的基于注意力机制的蒙汉机器翻译模型具有更好的翻译效果。
-
关键词
蒙汉机器翻译
端到端
重构器
过译漏译
-
Keywords
Mongolian-Chinese machine translation
End-to-end
Reconstructor
Over-translation and missing-translation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于对抗学习的蒙汉神经机器翻译
被引量:7
- 2
-
-
作者
苏依拉
王昊
贺玉玺
孙晓骞
仁庆道尔吉
吉亚图
-
机构
内蒙古工业大学信息工程学院
-
出处
《计算机系统应用》
2022年第1期249-258,共10页
-
基金
内蒙古自治区研究生科研创新项目(S20191149Z)
国家自然科学基金(61966028,61966027)。
-
文摘
在机器翻译模型的构建和训练阶段,为了缓解因端到端机器翻译框架在训练时采用最大似然估计原理导致的翻译模型的质量不高的问题,本文使用对抗学习策略训练生成对抗网络,通过鉴别器协助生成器的方式来提高生成器的翻译质量,通过实验选择出了更适合生成器的机器翻译框架Transformer,更适合鉴别器的卷积神经网络,并且验证了对抗式训练对提高译文的自然度、流利度以及准确性都具有一定的作用.在模型的优化阶段,为了缓解因蒙汉平行数据集匮乏导致的蒙汉机器翻译质量仍然不理想的问题,本文将Dual-GAN (dual-generative adversarial networks,对偶生成对抗网络)算法引入了蒙汉机器翻译中,通过有效的利用大量蒙汉单语数据使用对偶学习策略的方式来进一步提高基于对抗学习的蒙汉机器翻译模型的质量.
-
关键词
蒙汉机器翻译
对抗学习
生成对抗网络
对偶学习
Dual-GAN算法
-
Keywords
Mongolian-Chinese machine translation
adversarial learning
generative adversarial network(GAN)
dual learning
Dual-GAN algorithm
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名基于对偶学习的西里尔蒙古语-汉语机器翻译研究
- 3
-
-
作者
苏依拉
孙晓骞
巴图其其格
仁庆道尔吉
-
机构
内蒙古工业大学信息工程学院
-
出处
《计算机应用与软件》
北大核心
2020年第1期172-178,共7页
-
基金
国家自然科学基金项目(61363052,61502255)
内蒙古自治区自然科学基金项目(2016MS0605)
内蒙古自治区民族委员会基金项目(MW-2017-MGYWXXH-03)
-
文摘
目前,基于端到端的神经机器翻译(NMT)在大语种上取得了显著的效果,已经成为学术界非常流行的方法,然而该模型的训练严重依赖平行语料库的大小,通常需要上百万句,而西里尔蒙古语和汉语之间的平行语料库严重匮乏,并且人工构建代价昂贵。因此,提出基于对偶学习的西里尔蒙汉互译方法。为了缓解因未登录词导致的译文质量不高的问题,采用BPE(Byte Pair Encoding)技术对语料进行预处理。将通过单语数据预训练的语言模型和20%的平行双语数据预训练的翻译模型作为该模型训练的初始状态。以NMT为基线系统,实验结果表明,该方法达到了与NMT使用西里尔蒙汉全部双语数据相当的效果,有效缓解了因未登录词较多和平行语料库匮乏导致的译文质量不高的问题。
-
关键词
对偶学习
机器翻译
西里尔蒙古语-汉语
BPE
单语语料库
-
Keywords
Dual learning
Machine translation
Cyrillic Mongolian-Chinese
BPE
Monolingual corpus
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于参数迁移的蒙汉神经机器翻译模型
被引量:6
- 4
-
-
作者
王宇飞
苏依拉
赵亚平
孙晓骞
仁庆道尔吉
-
机构
内蒙古工业大学信息工程学院
-
出处
《计算机应用与软件》
北大核心
2020年第9期81-87,共7页
-
基金
国家自然科学基金项目(61363052,61502255)
内蒙古自治区自然科学基金项目(2016MS0605)
内蒙古自治区民族事务委员会基金项目(MW-2017-MGYWXXH-03)。
-
文摘
目前在神经网络机器翻译的研究中,大规模的语料库数据是得到理想译文效果的必备条件之一。对于英语、德语等大语种而言,有着丰富的资源和数据供研究人员使用,但是对于很多小语种如蒙古语,其平行语料库数据较少。为了缓解该问题,把参数迁移引入到蒙汉神经机器翻译中,将训练好的英汉神经机器翻译中的模型参数迁移到蒙汉翻译任务中。实验结果表明,迁移学习策略的引入对蒙汉翻译结果有所提升。
-
关键词
神经网络
机器翻译
参数迁移
蒙汉翻译
-
Keywords
Neural network
Machine translation
Parameter transfer
Mongolian-Chinese translation
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-