基于LSTM的蒙汉机器翻译的研究被引量：7

Mongolian-Chinese machine translation based on LSTM

下载PDF

导出

摘要由于内蒙古地区蒙汉机器翻译水平落后、平行双语语料规模较小,利用传统的统计机器翻译方法会出现数据稀疏以及训练过拟合等问题,导致翻译质量不高。针对这种情况,提出基于LSTM的蒙汉神经机器翻译方法,通过利用长短时记忆模型构建端到端的神经网络框架并对蒙汉机器翻译系统进行建模。为了更有效地理解蒙古语语义信息,根据蒙古语的特点将蒙古文单词分割成词素形式,导入模型,并在模型中引入局部注意力机制计算与目标词有关联的源语词素的权重,获得蒙古语和汉语词汇间的对齐概率,从而提升翻译质量。实验结果表明,该方法相比传统蒙汉翻译系统提高了翻译质量。 Due to the small scale of Mongolian-Chinese bilingual parallel corpus and problems such as sparse data and over fitting of data training,the translation quality of traditional statistical machine translation methods for Mongolian-Chinese translation needs to be improved.In view of this situation,we propose a Mongolian-Chinese neural machine translation method based on LSTM.It constructs an end-to-end neural network frame by using the long and short memory model and models the Mongolian-Chinese machine translation system.In order to understand Mongolian sematic information more effectively,Mongolian words are divided into morphemes according to the characteristics of Mongolian language,which are then introduced into the model.Besides,the local attention mechanism is introduced into the model to calculate the weight of the source morphemes that are associated with the target word to achieve the probability of alignment between Mongolian and Chinese vocabularies and improve the translation quality.Experimental results show that compared with the traditional Mongolian-Chinese translation system,the proposed method obtains better translation quality.

作者刘婉婉苏依拉乌尼尔仁庆道尔吉 LIU Wan-wan;SU Yi-la;WU Ni-er;RENQING Dao-er-ji(College of Information Engineering,Inner Mongolia University of Technology,Hohhot 010080,China)

机构地区内蒙古工业大学信息工程学院

出处《计算机工程与科学》 CSCD 北大核心 2018年第10期1890-1896,共7页 Computer Engineering & Science

基金国家自然科学基金(61363052 61502255) 内蒙古自治区自然科学基金(2016MS0605) 内蒙古民族事务委员会基金(MW-2017-MGYWXXH-03)

关键词注意力端到端模型机器翻译蒙汉 LSTM神经网络 attention end-to-end model machine translation Mongolian-Chinese LSTM neural network

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1张霄军,陈小荷.双语平行语料的预处理[J].外语教育,2007(1):145-149. 被引量：1
2杨攀,张建,李淼,乌达巴拉,雪艳.汉蒙统计机器翻译中的形态学方法研究[J].中文信息学报,2009,23(1):50-57. 被引量：10
3刘群.基于句法的统计机器翻译模型与方法[J].中文信息学报,2011,25(6):63-71. 被引量：16
4郑亚楠,珠杰.基于词向量的藏文词性标注方法研究[J].中文信息学报,2017,31(1):112-117. 被引量：10
5德.萨日娜.关于蒙古语语义分析的思考[J].内蒙古社会科学,2004,25(3):95-97. 被引量：3
6哈斯巴特尔.关于蒙古语人称代词词干变格问题[J].民族语文,2001(3):27-33. 被引量：5
7李文,李淼,梁青,朱海,应玉龙,乌达巴拉.基于短语统计机器翻译模型蒙古文形态切分[J].中文信息学报,2011,25(4):122-128. 被引量：4

二级参考文献71

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2陈小荷.用基于词的二元模型消解交集型分词歧义[J].南京师大学报（社会科学版）,2004(6):109-113. 被引量：7
3付雷,刘群.单纯形算法在统计机器翻译Re-ranking中的应用[J].中文信息学报,2007,21(3):28-33. 被引量：2
4侯宏旭,刘群,那顺乌日图.基于实例的汉蒙机器翻译[J].中文信息学报,2007,21(4):65-72. 被引量：16
5Sonja Niessen, Hermann Ney. Statistical Machine translation with Scarce Resources Using Morphosyntatic Information [J]. Computational Linguistics, 2004,30(2) : 181-204.
6Mei Yang, Katrin Kirchhoff. Phrase-based Backoff Models for Machine Translation of Highly Inflected Languages[C]// Proceedings of EACL. 2006: 41-48.
7Young-Suk Lee. Morphological analysis for statistical machine translation[C]//Proceedings of HLT-NAACL 2004-Companion Volume. 2004: 57-60.
8Andreas Zollmann, Ashish Venugopal, Stephan Vogel. Bridging the Inflection Morphology Gap for Arabic Statistical Machine Translation [C]//Proceedings of the Human Language Technology Conference of the NAACL, Companion Volume. 2006: 201-204.
9Maja Popovic, Hermann Ney. Towards the Use of Word Stems and Suffixes for Statistical Machine Translation[C]//Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC). 2004:1585- 1588.
10Sharon Goldwater, David McClosky. Improving Statistical MT Through Morphological Analysis[C]// Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing. 2005 : 676-683.

共引文献42

1杜佳烜,吴长安.类型学视野下看满语bi的显赫性及其动因[J].南开语言学刊,2019(2):146-154. 被引量：1
2德.萨日娜.蒙古语句子切分知识库的建立与应用[J].内蒙古社会科学,2006,27(6):165-167.
3包丽娜.英语形容词性物主代词与蒙古语人称代词领属格比较以及在教学中的应用[J].语文学刊（外语教育与教学）,2013(8):132-133.
4祖生利.元代白话碑文中代词的特殊用法[J].民族语文,2001(5):48-62. 被引量：4
5骆凯,李淼,乌达巴拉,杨攀,朱海.汉蒙翻译模型中的依存语法与形态信息应用研究[J].中文信息学报,2009,23(6):98-104. 被引量：5
6董兴华,周俊林,郭树盛,吐尔洪.吾司曼.基于短语的汉维/维汉统计机器翻译[J].计算机工程,2011,37(9):16-18. 被引量：15
7李文,李淼,梁青,朱海,应玉龙,乌达巴拉.基于短语统计机器翻译模型蒙古文形态切分[J].中文信息学报,2011,25(4):122-128. 被引量：4
8徐春,杨勇,董兴华.汉维/维汉统计机器翻译中若干问题研究[J].计算机工程与应用,2011,47(35):150-154. 被引量：6
9敏春芳.东乡语人称代词词干溯源[J].西北民族大学学报（哲学社会科学版）,2012(2):117-121. 被引量：1
10陈学志,周连军,杨倩,宿淑君,王晓怡,赵澄,卢洁,李坤成.熟练蒙汉双语者语义加工脑机制的fMRI分析[J].中国医学影像技术,2012,28(8):1475-1478. 被引量：3

同被引文献55

1刘迎军,王康,李立.基于LSTM神经网络的流域污染物通量预测[J].水力发电学报,2020,39(10):72-81. 被引量：16
2张庆龙,安再展,刘天云,张兆省,皇甫泽华,李庆斌.土石坝压实的智能控制理论[J].水力发电学报,2020(7):34-40. 被引量：18
3巨同升.机器学习在汉字智能拼音输入中的应用[J].山东理工大学学报（自然科学版）,2005,19(3):86-88. 被引量：1
4王作英,孙健.一般拓扑结构的非齐次隐含马尔科夫模型及其在中、英文语种辨识中的应用[J].电子与信息学报,2007,29(4):867-869. 被引量：1
5尚彦军,杨志法,曾庆利,孙元春,史永跃,袁广祥.TBM施工遇险工程地质问题分析和失误的反思[J].岩石力学与工程学报,2007,26(12):2404-2411. 被引量：104
6银花,王斯日古楞,艳红.基于短语的蒙汉统计机器翻译系统的设计与实现[J].内蒙古师范大学学报（自然科学汉文版）,2011,40(1):91-94. 被引量：8
7麦热哈巴·艾力,王志洋,吐尔根·依布拉音.一种提高维吾尔语-汉语词语对齐的方法研究[J].小型微型计算机系统,2012,33(11):2551-2555. 被引量：9
8袁文浩,林家骏,陈宁,王雨.一种基于Bark域能量分布的噪声分类方法[J].华东理工大学学报（自然科学版）,2013,39(4):472-476. 被引量：5
9朱琦,酆广增,肖海勇.基于模式识别的语音分类方法[J].南京邮电学院学报,2000,20(4):29-33. 被引量：2
10于光峰.船载AIS信息采集与解码技术研究[J].电子技术与软件工程,2013(21):91-92. 被引量：4

引证文献7

1潘明阳,李琦,盛尊阔,韩斌,李超,李邵喜.AIS拼音船名到汉字的智能翻译技术[J].大连海事大学学报,2020,46(2):41-48. 被引量：2
2杨朝强,邵党国,杨志豪,相艳,马磊.多特征融合的中文短文本分类模型[J].小型微型计算机系统,2020,41(7):1421-1426. 被引量：12
3高巍,陈子祥,李大舟,李耀松.预标准化Transformer在乌英机器翻译中的实现[J].小型微型计算机系统,2020,41(11):2286-2291. 被引量：13
4王华朋,牛瑾琳,刘元周,张琨瑶.不同语音特征对声音分类的有效性研究[J].中国刑警学院学报,2020(6):122-128. 被引量：3
5高巍,李耀松,李大舟,陈子祥,孟智慧.基于双向编解码器的乌英机器翻译[J].计算机工程与设计,2021,42(5):1479-1484. 被引量：11
6侯宏旭,孙硕,乌尼尔.蒙汉神经机器翻译研究综述[J].计算机科学,2022,49(1):31-40. 被引量：3
7张庆龙,朱燕文,马睿,严冬,杨传根,崔同欢,李庆斌.基于注意力加强Bi-LSTM模型的TBM掘进参数预测研究[J].现代隧道技术,2022,59(4):69-80. 被引量：6

二级引证文献47

1刘鹏程,孙林夫,张常有,王波.基于交互注意力机制网络模型的故障文本分类[J].计算机集成制造系统,2021,27(1):72-89. 被引量：9
2南兆营.基于参数迁移和C-LSTM的说话人识别研究[J].电声技术,2020,44(11):37-41. 被引量：1
3郭霏霏.基于隐马尔可夫模型的物联网终端语音身份动态识别方法[J].上海电机学院学报,2021,24(6):361-365. 被引量：3
4李艳.计算机翻译技术在非技术文本翻译中的应用[J].电脑编程技巧与维护,2022(1):27-28.
5孙红,陈强越.融合BERT词嵌入和注意力机制的中文文本分类[J].小型微型计算机系统,2022,43(1):22-26. 被引量：19
6侯清睿,安冬.基于人工神经网络的音符识别研究[J].自动化与仪器仪表,2022(1):53-58. 被引量：1
7张超轶,陈媛,张聚伟.融合术语信息的神经机器翻译参数初始化研究[J].河南科技大学学报（自然科学版）,2022,43(4):61-66. 被引量：1
8赵崇俊.基于CNN的英语机器翻译微小误差检测系统设计[J].自动化与仪器仪表,2022(4):210-213. 被引量：5
9陈瑞.基于人机交互增强算法的英语机器翻译系统设计[J].自动化与仪器仪表,2022(4):223-226. 被引量：5
10徐星昊.基于BERT的中文健康问句分类研究[J].电视技术,2022,46(3):67-70.

1刘婉婉,苏依拉,乌尼尔,仁庆道尔吉.基于门控循环神经网络词性标注的蒙汉机器翻译研究[J].中文信息学报,2018,32(8):68-74. 被引量：3
2吴常亮.基于文化差异角度的蒙汉翻译可译性限度问题探讨[J].才智,2018,0(8):193-193. 被引量：2
3洪红霞.试析蒙汉翻译在民族文化传播交流中的作用[J].才智,2018,0(11):191-191. 被引量：4
4邢渊渊.元代蒙汉文学交融研究综述[J].内蒙古大学学报（哲学社会科学版）,2018,50(5):15-20.
5王海坤,伍大勇,刘江,王士进,胡国平,胡郁.基于时域建模的自动语音识别[J].计算机工程与应用,2017,53(20):243-248. 被引量：6
6米平平,郝丽.基于多媒体软件的服饰形象设计应用研究[J].现代电子技术,2018,41(11):179-182.
7窦智.美剧字幕英汉平行语料库的建设[J].中小企业管理与科技,2018,2(21):94-95. 被引量：1
8李亚超,熊德意,张民,江静,马宁,殷建民.藏汉神经网络机器翻译研究[J].中文信息学报,2017,31(6):103-109. 被引量：16
9苏依拉,赵亚平,牛向华.基于统计的蒙汉机器翻译中词对齐方法研究[J].中文信息学报,2018,32(6):44-51. 被引量：2
10王力春,刘乃歌,张辉,宫海峰.高维艺术中悟觉类汉语词汇数据化处理[J].艺术教育,2018(19):37-39. 被引量：1

计算机工程与科学

2018年第10期

浏览历史

内容加载中请稍等...

基于LSTM的蒙汉机器翻译的研究被引量：7

参考文献7

二级参考文献71

共引文献42

同被引文献55

引证文献7

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

基于LSTM的蒙汉机器翻译的研究 被引量：7

参考文献7

二级参考文献71

共引文献42

同被引文献55

引证文献7

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

基于LSTM的蒙汉机器翻译的研究被引量：7