关于日中神经网络机器翻译中的词汇问题的探讨被引量：1

Analyzing the Problems of Vocabulary in Japanese-Chinese Neural Network Machine Translation

下载PDF

导出

摘要近年以来,神经网络机器翻译作为新兴的翻译技术,取得了极大的进步。翻译的译文不仅更加准确也更为流畅。但神经网络翻译同时还有许多问题需要改进。本文旨在以日中神经网络机器翻译为实例,探讨词汇层面的问题和成因,并提出相应的模型改进方法。受限于模型的词表大小和语料资源的领域不匹配等原因,译文中存在未知词和词语的错翻漏翻等问题。因此,本文根据这些原因提出了使用subword,替换低频词,利用外部词典,采用领域自适应训练模型等多个改进方案。使用subword或者利用外部词典,可以克服词表过小的问题。替换低频词可以降低低频词对模型的负影响。领域自适应可以提高模型对特定领域文本的表现。实验结果表明本文提出的模型改进方案相较于一般的神经网络翻译模型,能很好地减少词汇翻译问题的出现次数,从而提高译文的翻译质量。 In recent years, Neural Network Machine Translation (NMT) has made great progress as a new translation technology. Its translation results are not only more accurate but also more fluid. But at the same time, NMT also has many problems that need to be solved. The purpose of this article is to explore problems of vocabulary and their causes, and propose solutions for tuning model of Japanese-Chinese NMT. The limitation of the size of vocabulary and the domain mismatch of corpus could lead some problems such as unknown words and mistranslated words. Therefore, this article proposes several solutions like using subword, replacing low-frequency words, using external dictionaries, and using domain adaptation. Using subword or using external dictionary can overcome the problem caused by small size of vocabulary. Replacing low-frequency words can reduce the negative influence of low-frequency words. Domain adaptation can improve the performance on translating specific domain text. The experimental results showed that compared with the general NMT model, the approaches of tuning model proposed in this article can reduce the number of vocabulary translation problems and improve the translation quality.

作者罗雯涛

机构地区株式会社高电社

出处《计算机科学与应用》 2020年第3期387-397,共11页 Computer Science and Application

关键词神经网络机器翻译词汇问题模型改进

分类号 H31 [语言文字—英语]

引文网络
相关文献

同被引文献12

1贾承勋,赖华,余正涛,文永华,于志强.基于短语替换的汉越伪平行句对生成[J].中文信息学报,2021,35(8):47-55. 被引量：2
2潘一荣,李晓,杨雅婷,董瑞.面向维汉机器翻译的层次化多特征融合模型[J].厦门大学学报（自然科学版）,2020,59(2):206-212. 被引量：4
3张一鸣,刘俊鹏,宋鼎新,黄德根.融合数据增强与多样化解码的神经机器翻译[J].厦门大学学报（自然科学版）,2021,60(4):670-674. 被引量：4
4李洪政,冯冲,黄河燕.稀缺资源语言神经网络机器翻译研究综述[J].自动化学报,2021,47(6):1217-1231. 被引量：19
5尤丛丛,高盛祥,余正涛,毛存礼,潘润海.基于同义词数据增强的汉越神经机器翻译方法[J].计算机工程与科学,2021,43(8):1497-1502. 被引量：11
6满志博,毛存礼,余正涛,李训宇,高盛祥,朱俊国.基于多语言联合训练的汉-英-缅神经机器翻译方法[J].清华大学学报（自然科学版）,2021,61(9):927-935. 被引量：13
7邹翔,朱俊国,高盛祥,余正涛,杨福岸.融入语言差异化特征的汉越神经机器翻译译文质量估计[J].小型微型计算机系统,2022,43(7):1413-1418. 被引量：3
8刘欢,刘俊鹏,黄锴宇,黄德根.面向低资源俄汉机器翻译的领域适应方法[J].厦门大学学报（自然科学版）,2022,61(4):654-659. 被引量：3
9宜年,艾山·吾买尔,买合木提·买买提,吐尔根·依布拉音.基于多种数据筛选的维汉神经机器翻译[J].厦门大学学报（自然科学版）,2022,61(4):660-666. 被引量：3
10朱俊国,杨福岸,余正涛,邹翔,张泽锋.低频词表示增强的低资源神经机器翻译[J].中文信息学报,2022,36(6):44-51. 被引量：5

引证文献1

1张津一,郭聪,高忠辉.基于语言知识的神经机器翻译研究进展[J].人工智能与机器人研究,2023,12(2):97-106.

1王伟.传承与发展——传统文化《狼图腾》英译过程行动者网络翻译效度解析[J].品牌研究,2019,0(14):72-73.
2崔启亮.AI时代的译者技术应用能力研究[J].外国语言与文化,2020,4(1):104-110. 被引量：11
3周纯.神经网络机器翻译技术背景下新闻文本译后编辑研究[J].品位·经典,2020,0(4):29-30. 被引量：1
4张瑞华.基于神经网络翻译的陕西红色旅游文化译后生态研究[J].区域治理,2019,0(37):248-250.
5徐畅,佟南南.新时代对译者身份的几点思考[J].文学少年,2019,0(21):0044-0044.
6赵磊,王榕.基于语义选择的机器翻译方法研究[J].智库时代,2020,0(4):274-275.
7安海莲.对朝鲜语教科书词汇翻译问题的研究——以高中《生物》教科书为中心[J].中国朝鲜语文,2020,0(2):66-73.
8张英杰,余美琪,李文博,李玉萍.探寻人机结合翻译中大学生的就业与实习机遇[J].现代营销（信息版）,2020(1):218-218.
9赵瑛,李琦,王冬晖,于爱萍,谷宇.仿真假体视觉下神经网络算法的应用研究[J].现代电子技术,2020,43(4):164-166. 被引量：1
10马万钟,刘俊华,朱小杰.人工智能机器翻译能力等级评估标准化研究[J].信息技术与标准化,2020(1):21-26. 被引量：3

计算机科学与应用

2020年第3期

浏览历史

内容加载中请稍等...

关于日中神经网络机器翻译中的词汇问题的探讨被引量：1

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

关于日中神经网络机器翻译中的词汇问题的探讨 被引量：1

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

关于日中神经网络机器翻译中的词汇问题的探讨被引量：1