基于适应性训练与丢弃机制的神经机器翻译被引量：2

Neural Machine Translation Based on Adaptive Training and Drop Mechanism

下载PDF

导出

摘要在机器翻译领域中,提升翻译质量的一个重要方法是提高短语的翻译准确率。统计机器翻译模型通过对短语而非单词进行建模,大幅提升了短语翻译准确率。然而,对于神经机器翻译模型,传统的训练目标最小化每个词的损失,而无显式的约束记忆短语存在短语的翻译准确率较低的缺陷,另外基于自回归解码的神经机器翻译模型导致误译的短语会影响后续短语的准确翻译。为了解决上述问题,提出短语感知适应性训练和短语丢弃机制的方法。短语感知适应性训练将句子分割为多个短语片段,借助适应性训练目标为每个词分配合适的权重,以鼓励模型记忆短语,提高模型对短语的翻译准确率,短语丢弃机制通过在训练中随机丢弃目标端短语来增强模型对误译短语的鲁棒性,避免对后续短语的翻译造成影响。在WMT2014英德和NIST中英两个翻译任务上的实验结果表明,与Transformer基线模型相比,提出方法可以使译文的BLEU值分别提高1.64和0.96分。此外还证明了短语知识作为一种通用的知识,可以从教师模型迁移到学生模型,进一步提升翻译质量。 In the field of machine translation,enhancing the translation accuracy of phrases is a key strategy for improving overall translation quality.Although statistical machine translation models have substantially improved phrase translation accuracy by focusing on the phrase level instead of individual words.However,Neural Machine Translation(NMT)models face particular challenges.First,traditional training objectives,which minimize per-word loss,do not impose explicit constraints that encourage NMT models to prioritize phrases.Consequently,this often results in less precise phrase translations.Second,autoregressive decoding in neural machine translation can generate mistranslated phrases,leading to subsequent reduction in the accuracy of later translations.To address these challenges,this study introduces two methods:phrase perception adaptation training and a phrase drop mechanism.The former,known as phrase-aware adaptive training,begins by segmenting sentences into multiple phrase segments.During training,different weights are assigned to target words based on their positions within phrases,with the aim of augmenting the model's comprehension of phrases.Concurrently,the phrase drop mechanism is introduced to improve the model's resilience against mistranslated phrases by randomly omitting phrases during training.Experimental evaluations on two translation benchmarks,Workshop on statistical Machine Translation 2014(WMT2014)English-German and National Institute of Standards and Technology(NIST)Chinese-English,indicate that the proposed strategies enhance the translation BiLingual Evaluation Understudy(BLEU)scores by 1.64 and 0.96 points,respectively,when compared to the baseline model,the Transformer.Additionally,the experiments affirm that phrase knowledge is universally applicable,facilitating its transfer from teacher models to student models and further enhancing translation quality.

作者段仁翀段湘煜 DUAN Renchong;DUAN Xiangyu(School of Computer Science and Technology,Soochow University,Suzhou 215000,Jiangsu,China)

机构地区苏州大学计算机科学与技术学院

出处《计算机工程》 CAS CSCD 北大核心 2023年第10期120-126,135,共8页 Computer Engineering

基金江苏高校优势学科建设工程项目。

关键词机器翻译知识迁移适应性训练短语丢弃机制 machine translation knowledge transfer adaptive training phrase drop mechanism

分类号 TP391.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1阿布都克力木·阿布力孜,张雨宁,阿力木江·亚森,郭文强,哈里旦木·阿布都克里木.预训练语言模型的扩展模型研究综述[J].计算机科学,2022,49(S02):43-54. 被引量：11
2周孝青,段湘煜,俞鸿飞,张民.基于递进式半知识蒸馏的神经机器翻译[J].中文信息学报,2021,35(2):52-60. 被引量：3
3李亚超,熊德意,张民.神经机器翻译综述[J].计算机学报,2018,41(12):2734-2755. 被引量：109
4冯洋,邵晨泽.神经机器翻译前沿综述[J].中文信息学报,2020(7):1-18. 被引量：36
5王亚娟,李晓,杨雅婷,米成刚.基于释义信息的维汉机器翻译系统融合研究[J].计算机工程,2019,45(4):288-295. 被引量：7
6刘群.统计机器翻译综述[J].中文信息学报,2003,17(4):1-12. 被引量：71

二级参考文献22

1俞士汶等.机器翻译译文质量自动评估系统[A]..中国中文信息学会1991年会论文集[C].,.314—319.
2Peter F. Brown, John Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, Fredrick Jelinek, John D. Lafferty, Robert L. Mercer, Paul S. Roossin, A Statistical Approach to Machine Translation [J],Computational Linguistics, 1990.
3Peter. F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, Robert L. Mercer, The Mathematics of Statistical Machine Translation: Parameter Estimation [J], Computational Linguiatics, 19,(2), 1993.
4F. J. Och, C. Tillmann, and H. Ney. Improved alignment models for statistical machine translation[A]. In Proc. of the Joint SIGDAT Conf. On Empirical Methods in Natural Language Processing and Very Large Corpora, pages 20-28, University of Maryland, College Park, MD, June 1999.
5Franz Josef Och, Hermann Ney. What Can Machine Translation Learn from Speech Recognition? [A]In: proceedings of MT 2001 Workshop: Towards a Road Map for MT, 26-31, Santiago de Compostels,Spain, September 2001.
6Franz Josef Och, Hermann Ney, Discriminative Training and Maximum Entropy Models for Statistical Machine Translation [A], ACL2002.
7K. A. Papineni, S. Roukos, and R. T. Ward. Feature-based language understanding[A]. In European Conf. on Speech Communication and Technology, 1435-1438, Rhodes, Greece, September,1997.
8K. A. Papineni, S. Roukos, and R. T. Ward. Maximum likelihood and discriminative training of direct translation models [A] In Proc. Int. Conf. on Accoustics, Speech, and Signal Processing,pages,189-192, Seattle, WA, May, 1998.
9Kishore Papineni, Salim Roukos, Todd Ward, Wei-Jing Zhu, Bleu: a Method for Automatic Evaluation of Machine Translation [R], IBM Research, RC22176 (W0109-022) September 17, 2001.
10Ye-Yi Wang, Grammar Inference and Statistical Machine Translation [D], Ph.D Thesis, Carnegie Mellon University, 1998.

共引文献217

1熊璨.论人工智能翻译的可能性——从翻译的三个层次看非文学与文学翻译[J].中外文化与文论,2020(2):106-115. 被引量：2
2饶高琦,王诚文.面向语言智能的语言资源标准化[J].语言规划学研究,2023(1):20-27.
3熊伟,高娟娟,刘锴.基于GAN模型优化的神经机器翻译[J].计算机系统应用,2022,31(12):95-103. 被引量：3
4唐元楠.论机器翻译的现状[J].南国博览,2019,0(4):380-380.
5贾承勋,赖华,余正涛,文永华,于志强.基于短语替换的汉越伪平行句对生成[J].中文信息学报,2021,35(8):47-55. 被引量：2
6李霞,马骏腾,覃世豪.融合图像注意力的多模态机器翻译模型[J].中文信息学报,2020(7):68-78. 被引量：4
7明玉琴,夏添,彭艳兵.基于GAN模型优化的神经机器翻译[J].中文信息学报,2020(4):47-54. 被引量：7
8邓凌云,余环.中外笔译质量要求的对比研究与启示[J].当代外语研究,2019,0(4):115-123.
9刘光军,马东群.工程咨询服务的智能革命:大模型背景下的能力提升[J].中国工程咨询,2023(12):52-57. 被引量：1
10赵玉蓉,刘欢,龙玟月,杨鑫,杨茜,阮先玉.浅析张培基英译散文风格与AI英译散文风格[J].新东方英语（中英文版）,2019,0(12):101-102.

同被引文献23

1温益平,蒋丽平.人机交互在非物质文化遗产文本英译中的应用——基于双语语料库研究[J].语言与文化研究,2022,23(2):245-249. 被引量：2
2梁华参,赵铁军.统计机器翻译中双语语料的过滤及词对齐的改进[J].智能计算机与应用,2013,3(4):10-13. 被引量：3
3冉茂杨.英语语言理解的名词聚类在收割机控制中的应用[J].农机化研究,2019,41(7):226-229. 被引量：1
4王芹.基于Trados双语语料库在翻译教学中的可行性研究[J].江西电力职业技术学院学报,2020,33(5):124-125. 被引量：2
5李思迪,胡萌萌,陈懿懿.面向俄汉机器翻译的双语语料库建设与管理[J].数字通信世界,2022(3):115-118. 被引量：2
6李玮佳.割草智能机器人英语语言理解系统的设计与研究[J].农机化研究,2022,44(7):215-218. 被引量：1
7贾春巍.应急语言服务汉英双语语料库的构建及其应用研究[J].太原城市职业技术学院学报,2022(9):81-83. 被引量：2
8穆军芳,张丽鑫.国际机器翻译近十年的动态演进--基于CiteSpace和VOSviewer的可视化分析[J].沈阳大学学报（社会科学版）,2022,24(6):643-654. 被引量：5
9王琪.基于字符长度的朝汉双语语料库的构建[J].长江信息通信,2022,35(11):57-59. 被引量：1
10赫兵,李超,刘月月,仲启超,孙鑫,党姝,王帅,陈少鹏,耿艳秋,陈殿元.智能化机器人和ICT技术在智慧农业上的应用前景分析[J].现代化农业,2023(1):94-96. 被引量：3

引证文献2

1连哲,殷雁君,云飞,智敏.基于深度学习的自然场景文本检测综述[J].计算机工程,2024,50(3):16-27. 被引量：2
2徐威.基于深度学习的农机机器英语语料库的设计[J].农机化研究,2024,46(10):208-212.

二级引证文献2

1连哲,殷雁君,智敏,徐巧枝.自然场景文本检测中可微分二值化技术综述[J].计算机科学与探索,2024,18(9):2239-2260.
2米增,连哲.面向通用目标检测的YOLO方法研究综述[J].计算机工程与应用,2024,60(21):38-54.

1吴福培,谢晓扬,黄耿楠,吴涛,李昇平.基于Anchors设计和模型迁移的钢轨内部伤损检测方法[J].铁道学报,2023,45(10):112-119. 被引量：1
2陈锡,陈奥博.基于掩码矩阵⁃BERT注意力机制的神经机器翻译[J].现代电子技术,2023,46(21):111-116. 被引量：1
3马桂花.我国红色旅游外宣翻译研究的发展脉络、热点及趋势(2002—2022)[J].外语与翻译,2023,30(3):43-51.
4渠逸,汪诚,余嘉博,孔亚康,陈贤聪.基于YOLOv5的表面缺陷检测优化算法[J].空军工程大学学报,2023,24(5):80-87. 被引量：4
5谭雨旋,余晋.基于语料库的《杀死一只知更鸟》汉译本AABB式叠词应用研究[J].英语广场（学术研究）,2023(19):51-55.
6谭秀敏,张庆,张坚.归化与异化翻译策略指导下中药学常用术语英译研究[J].湖北开放职业学院学报,2023,36(17):183-185.
7世说新语[J].发明与创新（高中生）,2023(11):50-50.
8郑鑫,陈海龙,马玉群,王青.融合依存句法和LSTM的神经机器翻译模型[J].哈尔滨理工大学学报,2023,28(3):20-27. 被引量：4
9杨向龙.讲好中国故事——谈翻译教学的取舍之道[J].经济与社会发展研究,2023(27):268-270.
10施阿玲.计算机术语的构词与英译——以《世纪汉英大辞典》(上、下卷)中计算机术语为例[J].外文研究,2023,11(3):98-104.

计算机工程

2023年第10期

浏览历史

内容加载中请稍等...

基于适应性训练与丢弃机制的神经机器翻译被引量：2

参考文献6

二级参考文献22

共引文献217

同被引文献23

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于适应性训练与丢弃机制的神经机器翻译 被引量：2

参考文献6

二级参考文献22

共引文献217

同被引文献23

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于适应性训练与丢弃机制的神经机器翻译被引量：2