期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于双语词典的远距离语对无监督神经机器翻译方法
1
作者 黄孟钦 《现代电子技术》 北大核心 2024年第7期161-164,共4页
为了缓解大型平行语料库稀缺性对机器翻译质量的影响,无监督方法在神经机器翻译领域备受关注,但其在远距离语言对上的翻译表现仍有待提高。因此,文中引入了翻译语言模型(TLM)并提出了Dict-TLM方法。该方法的核心思想是结合单语语料和无... 为了缓解大型平行语料库稀缺性对机器翻译质量的影响,无监督方法在神经机器翻译领域备受关注,但其在远距离语言对上的翻译表现仍有待提高。因此,文中引入了翻译语言模型(TLM)并提出了Dict-TLM方法。该方法的核心思想是结合单语语料和无监督双语词典训练语言模型。具体而言,模型首先接受源语言句子作为输入,然后,不同于传统TLM只接受平行语料,Dict-TLM模型还接受源语言句子通过无监督双语词典处理后的数据作为输入,在这种输入中,模型将源语言句子中在双语词典中出现的单词替换为相应的目标语言翻译词,重要的是,该方法中的双语词典是无监督获得的。实验表明,Dict-TLM相对于传统无监督机器翻译在中英语言对上提高了3个BLEU分数。 展开更多
关键词 无监督神经机器翻译 远距离语言对 预训练 TLM 双语词典 双语词嵌入
下载PDF
抑制无监督神经机器翻译模型退化的简单方法 被引量:1
2
作者 吴霖 陈杭英 +3 位作者 李亚 余正涛 杨晓霞 王振晗 《中文信息学报》 CSCD 北大核心 2022年第9期57-66,共10页
在中英语料下复现Facebook提出的无监督神经机器翻译方法时,我们发现模型出现了退化现象。该文分析了退化的可能原因并提出三种简单方法来抑制模型退化。方法一,遮蔽非目标语输出;方法二,双语词典逐词翻译退化译文;方法三,在训练过程中... 在中英语料下复现Facebook提出的无监督神经机器翻译方法时,我们发现模型出现了退化现象。该文分析了退化的可能原因并提出三种简单方法来抑制模型退化。方法一,遮蔽非目标语输出;方法二,双语词典逐词翻译退化译文;方法三,在训练过程中,添加10万句对的平行语料。结果显示,三种方法都能有效抑制模型退化。在无监督条件下,方法二的性能更好,BLEU值为7.87;在10万语料的低资源条件下,方法一效果更好,BLEU值为14.28,该文还分析了产生此现象的原因。 展开更多
关键词 无监督神经机器翻译 低资源 模型退化
下载PDF
无监督机器翻译综述 被引量:1
3
作者 杨晓霞 李亚 《通信技术》 2021年第6期1301-1306,共6页
由于缺乏高质量大规模的平行语料,低资源语言对上的机器翻译研究较为落后。无监督机器翻译方法利用大量的单语语料来实现机器翻译,不再依赖于大量的平行语料,适合低资源语言的翻译场景。首先,重点介绍无监督机器翻译发展历程中具有里程... 由于缺乏高质量大规模的平行语料,低资源语言对上的机器翻译研究较为落后。无监督机器翻译方法利用大量的单语语料来实现机器翻译,不再依赖于大量的平行语料,适合低资源语言的翻译场景。首先,重点介绍无监督机器翻译发展历程中具有里程碑意义的研究工作,阐述无监督机器翻译中常用的技术;其次,论述无监督机器翻译面临的挑战;最后,展望无监督机器翻译的发展趋势。 展开更多
关键词 低资源 无监督神经机器翻译 跨语言词嵌入 预训练
下载PDF
利用质量估计改进无监督神经机器翻译 被引量:4
4
作者 徐佳 叶娜 +1 位作者 张桂平 黎天宇 《中文信息学报》 CSCD 北大核心 2021年第3期51-59,共9页
传统上神经机器翻译依赖于大规模双语平行语料,而无监督神经机器翻译的方法避免了神经机器翻译对大量双语平行语料的过度依赖,更适合低资源语言或领域。无监督神经机器翻译训练时会产生伪平行数据,这些伪平行数据质量对机器翻译最终质... 传统上神经机器翻译依赖于大规模双语平行语料,而无监督神经机器翻译的方法避免了神经机器翻译对大量双语平行语料的过度依赖,更适合低资源语言或领域。无监督神经机器翻译训练时会产生伪平行数据,这些伪平行数据质量对机器翻译最终质量起到了决定性的作用。因此,该文提出利用质量估计的无监督神经机器翻译模型,通过在反向翻译的过程中使用质量估计对生成的伪平行数据评分,再选择评分(HTER)较高的平行数据训练神经网络。利用质量估计的方法可以控制反向翻译生成的伪平行数据的质量,为对抗生成网络提供了更丰富的训练样本,使对抗生成网络训练得更加充分。与基线模型相比,该模型在WMT 2019德语—英语和捷克语—英语新闻单语语料上BLEU值分别提升了0.79和0.55。 展开更多
关键词 无监督神经机器翻译 反向翻译 质量估计
下载PDF
无监督神经机器翻译综述 被引量:1
5
作者 孙海鹏 赵铁军 《智能计算机与应用》 2021年第2期1-6,共6页
神经机器翻译模型的学习往往依赖于大规模的平行语料,然而并不是所有语言对都有充足的平行语料。为了解决神经机器翻译中平行语料缺失的问题,研究人员提出了无监督神经机器翻译,通过无监督预训练策略、去噪自编码器、反向翻译和共享潜... 神经机器翻译模型的学习往往依赖于大规模的平行语料,然而并不是所有语言对都有充足的平行语料。为了解决神经机器翻译中平行语料缺失的问题,研究人员提出了无监督神经机器翻译,通过无监督预训练策略、去噪自编码器、反向翻译和共享潜在表示机制仅依赖于单语语料对翻译任务进行建模。本文从模型主要机制、训练过程出发来分析无监督神经机器翻译,并介绍无监督神经机器翻译现阶段的发展以及存在的挑战。 展开更多
关键词 无监督神经机器翻译 去噪自编码器 反向翻译
下载PDF
稀缺资源语言神经网络机器翻译研究综述 被引量:16
6
作者 李洪政 冯冲 黄河燕 《自动化学报》 EI CAS CSCD 北大核心 2021年第6期1217-1231,共15页
作为目前主流翻译方法的神经网络机器翻译已经取得了很大突破,在很多具有丰富数据资源的语言上的翻译质量也不断得到改善,但对于稀缺资源语言的翻译效果却仍然并不理想.稀缺资源语言机器翻译是目前机器翻译领域的重要研究热点之一,近几... 作为目前主流翻译方法的神经网络机器翻译已经取得了很大突破,在很多具有丰富数据资源的语言上的翻译质量也不断得到改善,但对于稀缺资源语言的翻译效果却仍然并不理想.稀缺资源语言机器翻译是目前机器翻译领域的重要研究热点之一,近几年来吸引了国内外的广泛关注.本文对稀缺资源语言机器翻译的研究进行比较全面的回顾,首先简要介绍了与稀缺资源语言翻译相关的学术活动和数据集,然后重点梳理了目前主要的研究方法和一些研究结论,总结了每类方法的特点,在此基础上总结了不同方法之间的关系并分析了目前的研究现状.最后,对稀缺资源语言机器翻译未来可能的研究趋势和发展方向进行了展望,并给出了相关建议. 展开更多
关键词 稀缺资源语言 神经网络机器翻译 迁移学习 枢轴语言 回译 多语言翻译 无监督翻译
下载PDF
基于最优传输理论的联合分布匹配方法及应用 被引量:4
7
作者 曹杰彰 莫朗元 +4 位作者 杜卿 国雍 赵沛霖 黄俊洲 谭明奎 《计算机学报》 EI CAS CSCD 北大核心 2021年第6期1233-1245,共13页
联合分布匹配问题是机器学习和计算机视觉领域的研究热点之一.该问题旨在学习双向映射以匹配两个域的联合分布,目前仍然面临两个重要挑战:第一:两个不同域之间的相关性信息难以被充分利用.第二:联合分布匹配问题难以建模和优化.基于最... 联合分布匹配问题是机器学习和计算机视觉领域的研究热点之一.该问题旨在学习双向映射以匹配两个域的联合分布,目前仍然面临两个重要挑战:第一:两个不同域之间的相关性信息难以被充分利用.第二:联合分布匹配问题难以建模和优化.基于最优传输理论,本文通过最小化两个域间联合分布的Wasserstein距离来解决上述挑战.首先,本文提出一个定理将难以求解的Wasserstein距离原问题转化为一个简单的优化问题,并设计了一个联合Wasserstein自编码器模型(JWAE)来求解该问题.然后,本文将JWAE成功应用在无监督图像翻译和跨域视频合成任务中,并生成高质量的图像和连贯的视频.实验结果表明,JWAE在两种任务中的定性和定量指标上均优于现有方法.比如,在“街景→语义分割”图像翻译任务中,JWAE的IS值比CycleGAN高0.59,FID值比CycleGAN小65.8.在“冬季→夏季”跨域视频合成任务中,JWAE的FID4video值比Slomo-Cycle小2.2. 展开更多
关键词 联合分布匹配 最优传输理论 Wasserstein距离 无监督图像翻译 跨域视频合成
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部