子字粒度切分在蒙汉神经机器翻译中的应用被引量：8

Application of Sub-word Segmentation in Mongolian-Chinese Neural Machine Translation

下载PDF

导出

摘要在蒙汉神经机器翻译任务中,由于语料稀少使得数据稀疏问题严重,极大影响了模型的翻译效果。该文对子字粒度切分技术在蒙汉神经机器翻译模型中的应用进行了研究。通过BPE算法将切分粒度控制在字符和词之间的子字粒度大小,将低频词切分成相对高频的子字片段,来缓解数据稀疏问题,从而在有限的数据和硬件资源条件下,更高效地提升模型的鲁棒性。实验表明,在两种网络模型中使用子字粒度切分技术,BLEU值分别提升了4.81和2.96,且随着语料的扩大,训练周期缩短效果也更加显著,说明子字粒度切分技术有助于提高蒙汉神经机器翻译效果。 In the Mongolian-Chinese neural machine translation,the data sparse issue is of substantial effect to the translation quality.This paper applies the sub-word granularity segmentation in the Mongolian-Chinese neural machine translation model.The Byte Pair Encoding algorithm is adopted to alleviate the data sparseness by reducing the low-frequency words into relatively high-frequency sub-units.Experiments show that the sub-word segmentation technique can improve the Mongolian-Chinese neural machine translation,achieving 4.81 and 2.96 improvements in BLEU score,respectively.

作者任众侯宏旭吉亚图武子玉白天罡雷颖 REN Zhong;HOU Hongxu;JI Yatu;WU Ziyu;BAI Tiangang;LEI Ying(School of Computer Technology,Inner Mongolia University,Hohhot,Inner Mongolia 010021,China)

机构地区内蒙古大学计算机学院

出处《中文信息学报》 CSCD 北大核心 2019年第1期85-92,共8页 Journal of Chinese Information Processing

基金内蒙古自然科学基金(2018MS06005) 内蒙古蒙古语言文字信息化专项扶持项目(MW-2018-MGYWXXH-302) 内蒙古自治区研究生科研创新项目(10000-16010109-18)

关键词蒙汉神经机器翻译数据稀疏子字粒度切分 Mongolian-Chinese neural machine translation data sparseness sub-word segmentation

分类号 TP391.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1赵红梅,吕雅娟,贲国生,黄云,刘群.第七届全国机器翻译研讨会机器翻译评测总结[J].中文信息学报,2012,26(1):22-30. 被引量：8

二级参考文献5

1刘群,赵红梅.第五届全国机器翻译研讨会(CWMT2009)评测报告[R].第五届全国机器翻译研讨会(CWMT2009),2009年10月16-17日,南京.
2赵红梅,吕雅娟,贲国生,等.第七届全国机器翻译研讨会(CWMT2011)评测报告[R].第七届全国机器翻译研讨会(CWMT2011),2011年9月23-24日,厦门.
3David Chiang, Steve DeNeefe, Yee Seng Chan, et al 2008. Decomposability of translation metrics for im proved evaluation and efficient algorithms[C]//Proc EMNLP 200"8, pages 610-619.
4Michael Collins, Philipp Koehn, Ivona Kucerova 2005. Clause restructuring for statistical machine translation[C]//Proc. ACL 2005, pages 531-540.
5Ming Zhou, Bo Wang, Shujie Liu, et al. 2008. Diag nostic Evaluation of Machine Translation Systems U sing Automatically Constructed Linguistic Check Points[C]//Proc. Coling 2008, pages 1121-1128.

共引文献7

1杜金华,张萌,宗成庆,孙乐.中国机器翻译研究的机遇与挑战——第八届全国机器翻译研讨会总结与展望[J].中文信息学报,2013,27(4):1-8. 被引量：31
2张珑馨.消失的语言学家:机器翻译发展的现状与歧路[J].西南农业大学学报（社会科学版）,2013,11(10):96-100.
3艾孜孜.吐尔逊,杨雅婷,吐尔洪.吾司曼,周俊林,李晓.维-汉统计机器翻译中维吾尔语预处理研究[J].计算机工程与设计,2014,35(11):4034-4039. 被引量：3
4李业刚,黄河燕,史树敏,冯冲,苏超.多策略机器翻译研究综述[J].中文信息学报,2015,29(2):1-9. 被引量：21
5尹存燕,黄书剑,戴新宇,陈家骏.面向新闻语料的中日命名实体翻译抽取[J].小型微型计算机系统,2015,36(6):1393-1397. 被引量：2
6王宇飞,苏依拉,赵亚平,孙晓骞,仁庆道尔吉.基于参数迁移的蒙汉神经机器翻译模型[J].计算机应用与软件,2020,37(9):81-87. 被引量：6
7谢婧.机器翻译中的翻译单位研究[J].海外英语,2016(23):120-122.

同被引文献35

1百顺.基于派生文法的日—蒙动词短语机器翻译研究[J].中文信息学报,2008,22(2):47-54. 被引量：5
2侯宏旭,刘群,那顺乌日图,牧仁高娃,李锦涛.基于统计语言模型的蒙古文词切分[J].模式识别与人工智能,2009,22(1):108-112. 被引量：14
3那顺乌日图.蒙古文词根、词干、词尾的自动切分系统[J].内蒙古大学学报（哲学社会科学版）,1997,29(2):53-57. 被引量：15
4赵伟,侯宏旭,从伟,宋美娜.基于条件随机场的蒙古语词切分研究[J].中文信息学报,2010,24(5):31-35. 被引量：13
5银花,王斯日古楞,艳红.基于短语的蒙汉统计机器翻译系统的设计与实现[J].内蒙古师范大学学报（自然科学汉文版）,2011,40(1):91-94. 被引量：8
6姜文斌,吴金星,乌日力嘎,那顺乌日图,刘群.蒙古语有向图形态分析器的判别式词干词缀切分[J].中文信息学报,2011,25(4):30-34. 被引量：5
7李文,李淼,梁青,朱海,应玉龙,乌达巴拉.基于短语统计机器翻译模型蒙古文形态切分[J].中文信息学报,2011,25(4):122-128. 被引量：4
8李业刚,黄河燕,史树敏,冯冲,苏超.多策略机器翻译研究综述[J].中文信息学报,2015,29(2):1-9. 被引量：21
9苏依拉,乌尼尔,刘婉婉.基于统计分析的蒙汉自然语言的机器翻译[J].北京工业大学学报,2017,43(1):36-42. 被引量：4
10苏依拉,刘婉婉,乌尼尔.基于实例相似度检测的蒙汉机器翻译方法[J].北京工业大学学报,2017,43(9):1366-1372. 被引量：5

引证文献8

1高芬,苏依拉,牛向华,赵亚平,范婷婷,仁庆道尔吉.基于Transformer的蒙汉神经机器翻译研究[J].计算机应用与软件,2020,37(2):141-146. 被引量：12
2苏依拉,高芬,仁庆道尔吉.中文字粒度切分在蒙汉机器翻译的应用[J].中文信息学报,2019,33(12):54-60. 被引量：2
3高芬,苏依拉,牛向华,赵旭,范婷婷,仁庆道尔吉.基于多粒度的蒙汉神经机器翻译研究[J].计算机应用与软件,2020,37(4):145-149. 被引量：3
4侯宏旭,孙硕,乌尼尔.蒙汉神经机器翻译研究综述[J].计算机科学,2022,49(1):31-40. 被引量：3
5赵旭,苏依拉,仁庆道尔吉,石宝.非自回归翻译模型在蒙汉翻译上的应用[J].计算机工程与应用,2022,58(12):310-316.
6特日格勒呼,王斯日古楞.基于深度学习的生成式蒙古文问答模型研究[J].中央民族大学学报（自然科学版）,2022,31(3):32-41.
7何乌云,王斯日古楞.神经网络词切分在蒙汉机器翻译中的应用[J].中央民族大学学报（自然科学版）,2022,31(4):36-46.
8程永坤,苏依拉,王涵,仁庆道尔吉.嵌入句法信息在汉蒙非自回归机器翻译应用[J].计算机仿真,2023,40(5):486-490.

二级引证文献20

1游新冬,杨海翔,陈海涛,孙甜,吕学强.融合术语信息的新能源专利机器翻译研究[J].中文信息学报,2021,35(12):76-83. 被引量：1
2刘赛虎,珠杰.多注意力机制的藏汉机器翻译方法研究[J].电脑知识与技术,2021,17(10):4-7.
3任欢,王旭光.注意力机制综述[J].计算机应用,2021,41(S01):1-6. 被引量：96
4宋纯花,宋庆伟.一种考虑强调的英语口语翻译模型[J].信息技术,2022,46(2):89-94.
5王雪,王娟,胡仁青.基于数据挖掘的机器英语翻译模型研究[J].电子设计工程,2022,30(15):167-171. 被引量：2
6特日格勒呼,王斯日古楞.基于深度学习的生成式蒙古文问答模型研究[J].中央民族大学学报（自然科学版）,2022,31(3):32-41.
7陈蓝,杨帆,曾桢.优化预训练模型的小语料中文文本分类方法[J].现代计算机,2022,28(16):1-8. 被引量：1
8朱亚辉.基于单语语料库和无监督学习的翻译系统研究[J].自动化与仪器仪表,2022(10):161-165. 被引量：1
9席荣康,蔡满春,芦天亮,李彦霖.基于自注意力机制和时空特征的Tor网站流量分析模型[J].计算机应用,2022,42(10):3084-3090. 被引量：3
10秦煜峰,刘爽.基于RoForm的电商领域命名实体识别[J].大连民族大学学报,2022,24(5):448-454. 被引量：1

1宋奥琳.新媒体时代的网络舆情发展特点——以大熊猫“蜀兰”事件为例[J].视听,2019(2):106-107. 被引量：1
2常森,余敏.硅粉粒度优化控制技术——高品质硅粉优化生产技术的研究(1)[J].太阳能,2018(12):29-33.
3阮建锋.用捆绑变换解决单线段最值范围问题例析[J].数学教学,2018(10):39-42.
4芮斌.信息化背景下软件开发项目管理[J].电子技术与软件工程,2019(5):42-42. 被引量：5
5吴婧阳.英美影视剧字幕特点及其翻译策略[J].科教导刊（电子版）,2019,0(1):204-204.
6任东升,连玉乐.《红岩》、《苦菜花》萃译比较研究[J].外语与翻译,2019,26(1):53-57. 被引量：4
7胡学钢,卜晨阳,刘菲,吴共庆.基于学生解题分析的认知诊断研究[J].计算机教育,2019(2):50-52. 被引量：1
8王嬿钧.阿莫西林颗粒工艺的改进[J].丝路视野,2018,0(36):406-406.
9汪开平.液相法制备锆镨黄色料[J].佛山陶瓷,2019,29(2):23-25.
10谭新,邝少辉,张龙印,熊德意.融入汉字笔画序列的神经机器翻译[J].厦门大学学报（自然科学版）,2019,58(2):164-169. 被引量：1

中文信息学报

2019年第1期

浏览历史

内容加载中请稍等...

子字粒度切分在蒙汉神经机器翻译中的应用被引量：8

参考文献1

二级参考文献5

共引文献7

同被引文献35

引证文献8

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

子字粒度切分在蒙汉神经机器翻译中的应用 被引量：8

参考文献1

二级参考文献5

共引文献7

同被引文献35

引证文献8

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

子字粒度切分在蒙汉神经机器翻译中的应用被引量：8