摘要
在蒙汉神经机器翻译任务中,由于语料稀少使得数据稀疏问题严重,极大影响了模型的翻译效果。该文对子字粒度切分技术在蒙汉神经机器翻译模型中的应用进行了研究。通过BPE算法将切分粒度控制在字符和词之间的子字粒度大小,将低频词切分成相对高频的子字片段,来缓解数据稀疏问题,从而在有限的数据和硬件资源条件下,更高效地提升模型的鲁棒性。实验表明,在两种网络模型中使用子字粒度切分技术,BLEU值分别提升了4.81和2.96,且随着语料的扩大,训练周期缩短效果也更加显著,说明子字粒度切分技术有助于提高蒙汉神经机器翻译效果。
In the Mongolian-Chinese neural machine translation,the data sparse issue is of substantial effect to the translation quality.This paper applies the sub-word granularity segmentation in the Mongolian-Chinese neural machine translation model.The Byte Pair Encoding algorithm is adopted to alleviate the data sparseness by reducing the low-frequency words into relatively high-frequency sub-units.Experiments show that the sub-word segmentation technique can improve the Mongolian-Chinese neural machine translation,achieving 4.81 and 2.96 improvements in BLEU score,respectively.
作者
任众
侯宏旭
吉亚图
武子玉
白天罡
雷颖
REN Zhong;HOU Hongxu;JI Yatu;WU Ziyu;BAI Tiangang;LEI Ying(School of Computer Technology,Inner Mongolia University,Hohhot,Inner Mongolia 010021,China)
出处
《中文信息学报》
CSCD
北大核心
2019年第1期85-92,共8页
Journal of Chinese Information Processing
基金
内蒙古自然科学基金(2018MS06005)
内蒙古蒙古语言文字信息化专项扶持项目(MW-2018-MGYWXXH-302)
内蒙古自治区研究生科研创新项目(10000-16010109-18)
关键词
蒙汉神经机器翻译
数据稀疏
子字粒度切分
Mongolian-Chinese neural machine translation
data sparseness
sub-word segmentation