期刊文献+

子字粒度切分在蒙汉神经机器翻译中的应用 被引量:8

Application of Sub-word Segmentation in Mongolian-Chinese Neural Machine Translation
下载PDF
导出
摘要 在蒙汉神经机器翻译任务中,由于语料稀少使得数据稀疏问题严重,极大影响了模型的翻译效果。该文对子字粒度切分技术在蒙汉神经机器翻译模型中的应用进行了研究。通过BPE算法将切分粒度控制在字符和词之间的子字粒度大小,将低频词切分成相对高频的子字片段,来缓解数据稀疏问题,从而在有限的数据和硬件资源条件下,更高效地提升模型的鲁棒性。实验表明,在两种网络模型中使用子字粒度切分技术,BLEU值分别提升了4.81和2.96,且随着语料的扩大,训练周期缩短效果也更加显著,说明子字粒度切分技术有助于提高蒙汉神经机器翻译效果。 In the Mongolian-Chinese neural machine translation,the data sparse issue is of substantial effect to the translation quality.This paper applies the sub-word granularity segmentation in the Mongolian-Chinese neural machine translation model.The Byte Pair Encoding algorithm is adopted to alleviate the data sparseness by reducing the low-frequency words into relatively high-frequency sub-units.Experiments show that the sub-word segmentation technique can improve the Mongolian-Chinese neural machine translation,achieving 4.81 and 2.96 improvements in BLEU score,respectively.
作者 任众 侯宏旭 吉亚图 武子玉 白天罡 雷颖 REN Zhong;HOU Hongxu;JI Yatu;WU Ziyu;BAI Tiangang;LEI Ying(School of Computer Technology,Inner Mongolia University,Hohhot,Inner Mongolia 010021,China)
出处 《中文信息学报》 CSCD 北大核心 2019年第1期85-92,共8页 Journal of Chinese Information Processing
基金 内蒙古自然科学基金(2018MS06005) 内蒙古蒙古语言文字信息化专项扶持项目(MW-2018-MGYWXXH-302) 内蒙古自治区研究生科研创新项目(10000-16010109-18)
关键词 蒙汉神经机器翻译 数据稀疏 子字粒度切分 Mongolian-Chinese neural machine translation data sparseness sub-word segmentation
  • 相关文献

参考文献1

二级参考文献5

  • 1刘群,赵红梅.第五届全国机器翻译研讨会(CWMT2009)评测报告[R].第五届全国机器翻译研讨会(CWMT2009),2009年10月16-17日,南京.
  • 2赵红梅,吕雅娟,贲国生,等.第七届全国机器翻译研讨会(CWMT2011)评测报告[R].第七届全国机器翻译研讨会(CWMT2011),2011年9月23-24日,厦门.
  • 3David Chiang, Steve DeNeefe, Yee Seng Chan, et al 2008. Decomposability of translation metrics for im proved evaluation and efficient algorithms[C]//Proc EMNLP 200"8, pages 610-619.
  • 4Michael Collins, Philipp Koehn, Ivona Kucerova 2005. Clause restructuring for statistical machine translation[C]//Proc. ACL 2005, pages 531-540.
  • 5Ming Zhou, Bo Wang, Shujie Liu, et al. 2008. Diag nostic Evaluation of Machine Translation Systems U sing Automatically Constructed Linguistic Check Points[C]//Proc. Coling 2008, pages 1121-1128.

共引文献7

同被引文献35

引证文献8

二级引证文献20

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部