期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
GEA-NMT:图卷积增强的多任务低资源机器翻译模型
1
作者 张宝兴 彭敦陆 王雅峰 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2156-2164,共9页
在低资源语种上训练高质量机器翻译系统的主要障碍是平行语料的稀缺,一些低资源语言在语言上与高资源语言相关或相似,相似的语言可能使用相同的字符集或类似的句法结构.本文利用低资源语种上的单语数据及与之相关联的高资源语种和目标... 在低资源语种上训练高质量机器翻译系统的主要障碍是平行语料的稀缺,一些低资源语言在语言上与高资源语言相关或相似,相似的语言可能使用相同的字符集或类似的句法结构.本文利用低资源语种上的单语数据及与之相关联的高资源语种和目标语言的平行语料,尝试将翻译知识进行迁移,从而完成低资源语种和目标语言间的翻译模型训练.本文提出一种图卷积增强的多任务训练低资源神经机器翻译模型(GCN Enhanced multi-task Adapting Neural Machine Translation,GEA-NMT),结合降噪自编码器、生成对抗训练、回译和桥接方法,并使用图神经网络学习句法依赖关系以进一步提升低资源语种上的神经机器翻译模型效果. 展开更多
关键词 资源神经机器翻译 图神经网络 多任务训练
下载PDF
同源语料增强的低资源神经机器翻译
2
作者 王琳 刘伍颖 《中文信息学报》 CSCD 北大核心 2024年第2期54-60,共7页
缺少平行句对的低资源机器翻译面临跨语言语义转述科学问题。该文围绕具体的低资源印尼语-汉语机器翻译问题,探索了基于同源语料的数据增广方法,并混合同源语料训练出更优的神经机器翻译模型。这种混合语料模型在印尼语-汉语机器翻译实... 缺少平行句对的低资源机器翻译面临跨语言语义转述科学问题。该文围绕具体的低资源印尼语-汉语机器翻译问题,探索了基于同源语料的数据增广方法,并混合同源语料训练出更优的神经机器翻译模型。这种混合语料模型在印尼语-汉语机器翻译实验中提升了3个多点的BLEU4评分。实验结果证明,同源语料能够有效增强低资源神经机器翻译性能,而这种有效性主要是源于同源语言之间的形态相似性和语义等价性。 展开更多
关键词 同源语料 数据增广 低资源机器翻译 印尼语 马来语
下载PDF
一种Mask交互融合预训练知识的低资源神经机器翻译方法
3
作者 朱志国 郭军军 余正涛 《小型微型计算机系统》 CSCD 北大核心 2024年第3期591-597,共7页
融合预训练语言知识是提升低资源神经机器翻译性能的有效手段.现有融合预训练语言知识的方法都比较复杂,计算资源消耗较大.针对以上问题,本文提出了一种简单有效的Mask交互融合预训练知识的低资源神经机器翻译方法,首先利用BERT的句子... 融合预训练语言知识是提升低资源神经机器翻译性能的有效手段.现有融合预训练语言知识的方法都比较复杂,计算资源消耗较大.针对以上问题,本文提出了一种简单有效的Mask交互融合预训练知识的低资源神经机器翻译方法,首先利用BERT的句子表征与源语言表征的自注意力交互计算两种表征的相似度,根据相似度值构造Mask知识矩阵,然后将Mask知识矩阵作用于源语言表征,自适应地将BERT表征中对低资源神经机器翻译任务有益的语言知识融入翻译模型,提升翻译模型对语言知识的表征能力.在IWSLT标准低资源翻译任务上的实验结果表明,与Transformer基线模型相比,所提方法获得了0.9~3.39的BLEU值提升,证明了所提方法能够有效利用预训练语言知识增强神经机器翻译性能. 展开更多
关键词 资源神经机器翻译 知识融合 BERT Mask交互融合
下载PDF
语言模型蒸馏的低资源神经机器翻译方法
4
作者 申影利 赵小兵 《计算机工程与科学》 CSCD 北大核心 2024年第4期743-751,共9页
大规模平行语料库的缺乏是低资源神经机器翻译面临的关键问题之一。提出语言模型蒸馏的神经机器翻译方法,通过单语语言模型对神经机器翻译训练进行正则化,引入语言模型包含的先验知识以提升翻译效果。具体地,借鉴知识蒸馏思想,使用丰富... 大规模平行语料库的缺乏是低资源神经机器翻译面临的关键问题之一。提出语言模型蒸馏的神经机器翻译方法,通过单语语言模型对神经机器翻译训练进行正则化,引入语言模型包含的先验知识以提升翻译效果。具体地,借鉴知识蒸馏思想,使用丰富单语数据训练的目标端语言模型(教师模型)构造低资源神经机器翻译模型(学生模型)的正则化因子,让翻译模型学习到语言模型中高度泛化的先验知识。与传统单语语言模型融合参与解码过程不同的是,本文方法中的语言模型只在训练阶段使用,不参与推断阶段,因此能够有效提升解码速度。在第十七届全国机器翻译大会CCMT2021维吾尔语-汉语和藏语-汉语2种民汉低资源翻译数据集上的实验结果表明,相比目前最先进的语言模型融合方法,BLEU提高了1.42%(藏汉方向)~2.11%(汉维方向)。 展开更多
关键词 语言模型 知识蒸馏 正则化 资源神经机器翻译
下载PDF
低资源维汉神经机器翻译研究 被引量:3
5
作者 王坤 殷明明 +8 位作者 俞鸿飞 韩冬 斯拉吉艾合麦提·如则麦麦提 西热艾力·海热拉 刘文其 艾山·吾买尔 李军辉 段湘煜 张民 《江西师范大学学报(自然科学版)》 CAS 北大核心 2019年第6期638-642,共5页
该文介绍了在第15届全国机器翻译大会的机器翻译评测项目中苏州大学的参赛情况,主要介绍参评系统使用的神经机器翻译模型基准结构以及采用的策略、方法,并介绍该系统在评测数据上的实验性能.
关键词 神经机器翻译 维汉翻译 低资源机器翻译
下载PDF
基于句法结构特征的汉越神经机器翻译
6
作者 裴非非 杨舰 《信息技术》 2024年第2期15-21,共7页
在低资源神经机器翻译中,长句译文质量普遍不佳,而汉-越语言差异较大,是典型的资源匮乏型语种,对于长句的处理应尽可能保持句子语义信息不变。因此,提出一种基于句法结构特征处理长句的方法。首先,对原有语料库中长句进行句法树解析,然... 在低资源神经机器翻译中,长句译文质量普遍不佳,而汉-越语言差异较大,是典型的资源匮乏型语种,对于长句的处理应尽可能保持句子语义信息不变。因此,提出一种基于句法结构特征处理长句的方法。首先,对原有语料库中长句进行句法树解析,然后,根据句法解析树提取短句和对远离根节点的叶子节点词进行标记,最后,对提取的短句进行反向翻译生成伪平行数据作为扩充,对原有长句中标记词进行与该词语义相近词的加权组合替换训练。实验表明,该方法提高了模型性能,显著改善了长句译文质量。 展开更多
关键词 资源神经机器翻译 长句译文 汉-越语言 语义信息 句法结构特征
下载PDF
基于多任务学习的民汉神经机器翻译数据增强方法 被引量:3
7
作者 申影利 周毛克 赵小兵 《中文信息学报》 CSCD 北大核心 2023年第2期97-106,共10页
神经机器翻译在资源丰富语言对中取得良好性能,但这种性能的取得通常以大规模的平行语料为前提。在民族语言与汉语之间仅存在小规模双语平行句对的情况下,该文提出把机器翻译中的数据增强技术融入多任务学习框架提升翻译性能。首先,通... 神经机器翻译在资源丰富语言对中取得良好性能,但这种性能的取得通常以大规模的平行语料为前提。在民族语言与汉语之间仅存在小规模双语平行句对的情况下,该文提出把机器翻译中的数据增强技术融入多任务学习框架提升翻译性能。首先,通过对目标端句子进行简单的变换(如词序调整、词替换等)以产生非准确的新句子增强噪声;其次,将上述扩增的伪平行语料作为辅助任务融入一个多任务学习框架中以充分训练编码器,并使神经网络将注意力转移到如何使编码器中的源语言句子拥有更丰富准确的表示。通过在全国机器翻译大会(CCMT 2021)蒙汉、藏汉以及维汉3种机器翻译评测数据集上进行6个方向的互译实验,结果表明,在上述民汉翻译任务上,该文方法均显著优于基线系统及多种常见的机器翻译数据增强方法。 展开更多
关键词 多任务学习 数据增强 低资源机器翻译
下载PDF
面向神经机器翻译的枢轴方法研究综述 被引量:1
8
作者 黎家全 王丽清 +2 位作者 李鹏 蒋晓敏 徐永跃 《计算机工程与应用》 CSCD 北大核心 2022年第16期49-55,共7页
低资源语言的神经机器翻译(neural machine translation,NMT)一直是机器翻译领域研究的难点和热点,基于枢轴的方法为其性能的提升和改进提供了思路。针对枢轴思想在低资源语言神经机器翻译中的应用,从枢轴翻译、基于枢轴的伪平行数据生... 低资源语言的神经机器翻译(neural machine translation,NMT)一直是机器翻译领域研究的难点和热点,基于枢轴的方法为其性能的提升和改进提供了思路。针对枢轴思想在低资源语言神经机器翻译中的应用,从枢轴翻译、基于枢轴的伪平行数据生成和基于枢轴的模型构建三方面,对不同方法的国内外研究现状、主要问题和趋势进行了分析和比较,为该领域的研究提供参考和借鉴。 展开更多
关键词 枢轴方法 神经机器翻译(NMT) 低资源机器翻译
下载PDF
低资源语种傣汉神经机器翻译方法 被引量:2
9
作者 高翊 付莎 +3 位作者 胡泽林 李淼 冯韬 麻之润 《昆明理工大学学报(自然科学版)》 CAS 北大核心 2020年第4期57-63,共7页
近年来随着人工智能和深度学习的发展,在神经机器翻译(NMT)的加持下,机器翻译的水平取得了长足的进步,但是在较大语料的情况下才能取得好的效果.此外,NMT的成功需要依赖于大量高质量的双语语料作为训练数据.在英法等丰富资源的语种(Rich... 近年来随着人工智能和深度学习的发展,在神经机器翻译(NMT)的加持下,机器翻译的水平取得了长足的进步,但是在较大语料的情况下才能取得好的效果.此外,NMT的成功需要依赖于大量高质量的双语语料作为训练数据.在英法等丰富资源的语种(Rich resource language)翻译任务上,神经机器翻译机器的表现几乎可以媲美人类的水平.对于一些小语种(俗称低资源语种:Low resource language),无法提供足够多的双语数据,导致NMT出现过拟合问题,从而降低翻译效果.据此本文以低资源的汉傣语翻译为例,针对神经机器在低资源汉傣语机器翻译表现不佳的问题现状,开展了如下研究:(1)构造了以词向量为基础的初始化模型,利用傣汉词向量空间对齐的方法,来初始化神经翻译模型的词嵌入层以提高翻译的性能;(2)设计了傣汉词向量空间的对齐方法;(3)提出了一种基于词对齐的神经机器翻译框架.通过汉/傣、傣/汉双向翻译实验证明,该方法可以分别使汉/傣、傣/汉机器翻译的BLEU值提高2.38个和0.43个BLEU点. 展开更多
关键词 资源神经机器翻译 初始化模型 词向量对齐 注意力机制
原文传递
基于预训练语言模型及交互注意力的平行句对抽取方法 被引量:2
10
作者 张乐乐 郭军军 王繁 《通信技术》 2022年第4期443-452,共10页
从互联网可比语料中筛选高质量的平行句对,是提升低资源机器翻译性能的有效手段之一。针对该问题,融合预训练语义表征提出一种基于双向交互注意力机制的跨语言文本语义匹配方法,首先利用预训练语言模型分别获得源语言和目标语言的双语表... 从互联网可比语料中筛选高质量的平行句对,是提升低资源机器翻译性能的有效手段之一。针对该问题,融合预训练语义表征提出一种基于双向交互注意力机制的跨语言文本语义匹配方法,首先利用预训练语言模型分别获得源语言和目标语言的双语表征,其次基于双向交互注意力机制实现跨语言特征的空间语义对齐,最后基于多视角特征融合后的语义表征实现跨语言句对的关系判定。实验结果表明,所提方法优于已有的平行句对抽取模型。此外,借助抽取出的平行语料,机器翻译模型的性能得到了明显的改善。 展开更多
关键词 预训练语言模型 交互注意力机制 平行句对抽取 语义匹配 资源神经机器翻译
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部