预训练神经机器翻译研究进展分析

Pre-trained Neural Machine Translation:Progress and Analysis

下载PDF

导出

摘要神经机器翻译(NMT)模型通常使用双语数据进行监督训练,而构建大规模双语数据集是一个巨大挑战。相比之下,大部分语言的单语数据集较为容易获取。近年来,预训练模型(PTM)能够在海量的单语数据上进行训练,从而得到通用表示知识,来帮助下游任务取得显著的性能提升。目前基于预训练的神经机器翻译(PTNMT)在受限资源数据集上已被广泛验证,但如何高效地在高资源NMT模型中利用PTM仍亟待研究。该文致力于对PTNMT的现状和相关问题进行系统性的整理和分析,从引入PTM的预训练方法、使用策略以及特定任务等角度对PTNMT方法进行详细的分类,并对PTNMT方法解决的问题进行总结,最后对PTNMT的研究进行展望。 Neural machine translation(NMT)models are usually trained using bilingual data.Building large-scale bilingual datasets is a huge challenge.In contrast,large-scale monolingual datasets for most languages are easier to construct.Pre-trained models(PTM)proposed in recent years can be trained on massive monolingual data.The generic representation of knowledge learned through pre-training helps achieve significant performance gains in downstream tasks.Currently pre-trained neural machine translation(PTNMT)has been extensively validated on resource-constrained datasets,but how to efficiently utilize PTM on high-resource NMT remains to be discussed.This paper focuses on reviewing and analyzing the current state and related problems of PTNMT,classifing PTNMT methods in terms of PTM's pre-trained methods,strategies,or specific tasks.We summarize the problems solved by PTNMT's methods,and conclude with a future outlook on PTNMT research.

作者曹智泉穆永誉肖桐李北张春良朱靖波 CAO Zhiquan;MU Yongyu;XIAO Tong;LI Bei;ZHANG Chunliang;ZHU Jingbo(NLP Laboratory,Northeastern University,Shenyang,Liaoning 110819,China)

机构地区东北大学自然语言处理实验室

出处《中文信息学报》 CSCD 北大核心 2024年第6期1-23,共23页 Journal of Chinese Information Processing

基金国家自然科学基金(62276056) 科技部科技创新2030—“新一代人工智能”重大项目(2020AAA0107904) 云南省科技厅科技计划项目(202103AA080015) 中央高校基本科研业务费项目(N2216016,N2216001,N2216002) 111引智基地(B16009)。

关键词自然语言处理预训练模型神经机器翻译 natural language processing pre-trained model neural machine translation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1QIU XiPeng,SUN TianXiang,XU YiGe,SHAO YunFan,DAI Ning,HUANG XuanJing.Pre-trained models for natural language processing: A survey[J].Science China(Technological Sciences),2020,63(10):1872-1897. 被引量：154

共引文献153

1王伟,阮文翰,孟祥福.融合对抗训练的中文GPT对话模型研究[J].辽宁工程技术大学学报（自然科学版）,2023(3):378-384.
2邱凯锋,王则远,何志超,付凯利,梅童霖,关英杰,高飞,伍俊妍.人工智能技术在超说明书用药循证中的应用研究[J].中华临床医师杂志（电子版）,2023,17(12):1212-1218.
3余同瑞,金冉,韩晓臻,李家辉,郁婷.自然语言处理预训练模型的研究综述[J].计算机工程与应用,2020,56(23):12-22. 被引量：49
4Yi HAN,Linbo QIAO,Jianming ZHENG,Hefeng WU,Dongsheng LI,Xiangke LIAO.A survey of script learning[J].Frontiers of Information Technology & Electronic Engineering,2021,22(3):341-373.
5郝超,裘杭萍,孙毅,张超然.多标签文本分类研究进展[J].计算机工程与应用,2021,57(10):48-56. 被引量：25
6邱石贵,章化奥,段湘煜,张民.神经机器翻译的词级别正则化[J].厦门大学学报（自然科学版）,2021,60(4):662-669.
7王涛,刘超辉,郑青青,黄嘉曦.基于单向Transformer和孪生网络的多轮任务型对话技术[J].计算机工程,2021,47(7):55-58.
8陈晓玲,唐丽玉,胡颖,江锋,彭巍,冯先超.基于ALBERT模型的园林植物知识实体与关系抽取方法[J].地球信息科学学报,2021,23(7):1208-1220. 被引量：6
9王永鹏,周晓磊,马慧敏,曹吉龙,无.联合知识的融合训练模型[J].计算机系统应用,2021,30(7):50-56. 被引量：1
10杨修远,彭韬,杨亮,林鸿飞.基于知识蒸馏的自适应多领域情感分析[J].山东大学学报（工学版）,2021,51(3):15-21. 被引量：1

1雷璐璐,金胜,魏文博,张乐天,董浩,叶高峰,盛跃.上地幔电导率-温度关系及在大地电磁测深法中应用综述[J].地球物理学报,2023,66(5):1771-1795. 被引量：1
2张宝兴,彭敦陆,王雅峰.GEA-NMT:图卷积增强的多任务低资源机器翻译模型[J].小型微型计算机系统,2024,45(9):2156-2164.
3李泽宇,殷锋,陈赛飞扬,王小雪.基于对比学习的神经机器翻译研究[J].西南民族大学学报（自然科学版）,2024,50(4):436-440.
4丁国忠.厘清数量关系发展模型意识提升应用能力——人教版新教材中“数量关系”主题的编写与思考[J].小学数学教育,2024(13):25-28.
5闻宇,陈艳霞,李菁,孙伯龙,李鑫明,姜健琳.一种基于ICA-FNN的多模型高压网络保护设备异常状态风险预警方法[J].电力科学与技术学报,2024,39(4):78-83.
6班洪达.智慧背景下公共图书馆用户检索意图库构建关键技术研究[J].中文科技期刊数据库（文摘版）图书情报,2024(9):0156-0160.
7桑杰端珠,才让加.自学习和回译的双向增强藏汉机器翻译方法[J].计算机仿真,2024,41(8):544-548.
8胡朝东,叶娜,张桂平,蔡东风.面向低资源场景的神经机器翻译方法[J].中文信息学报,2024,38(6):58-66.
9曹祝兵,董紫薇.宿州方言俗语结构类型与文化内涵探究[J].阜阳师范大学学报（社会科学版）,2024(3):67-73.
10赵峥嵘,张雲飞,赵英利,樊明强.透气钢制备工艺进展及展望[J].河北冶金,2024(8):1-5.

中文信息学报

2024年第6期

浏览历史

内容加载中请稍等...

预训练神经机器翻译研究进展分析

参考文献1

共引文献153

相关作者

相关机构

相关主题

浏览历史