-
题名基于枢轴语言的平行语料构建方法
被引量:2
- 1
-
-
作者
单华
张玉洁
周雯
徐金安
陈钰枫
-
机构
北京交通大学计算机与信息技术学院
-
出处
《情报工程》
2017年第3期29-39,共11页
-
基金
国家自然科学基金(61370130
61473294)的资助
-
文摘
平行语料库的规模对于统计机器翻译性能的提高具有重要作用,但是平行语料库的人工构建成本很高。针对这个问题,本文提出了一种低成本高效率的平行语料构建方法,利用枢轴语言作为桥梁,借助已有的机器翻译技术并融合主动学习方法构建目标语言对的大规模高质量平行语料库。本文通过以英语作为枢轴语言构建日汉平行语料库的实例研究,利用成熟的基于短语的统计机器翻译技术,描述了基于译文自动评测的良好译文选择方法、基于主动学习的语料选取方法、以及翻译系统的更新迭代和评价实验。实验结果表明,本文提出的方法能够快速构建日汉平行语料,并有效提高日汉翻译系统的性能。
-
关键词
枢轴语言
机器翻译
平行语料
主动学习
-
Keywords
Pivot language, machine translation, parallel corpus, active learning
-
分类号
G35
[文化科学—情报学]
-
-
题名基于枢轴语言的图像描述生成研究
被引量:3
- 2
-
-
作者
张凯
李军辉
周国栋
-
机构
苏州大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2019年第3期110-117,共8页
-
基金
国家自然科学基金(61401295)
-
文摘
当前图像描述生成的研究主要仅限于单语言(如英文),这得益于大规模的已人工标注的图像及其英文描述语料。该文探索零标注资源情况下,以英文作为枢轴语言的图像中文描述生成研究。具体地,借助于神经机器翻译技术,该文提出并比较了两种图像中文描述生成的方法:(1)串行法,该方法首先将图像生成英文描述,然后由英文描述翻译成中文描述;(2)构建伪训练语料法,该方法首先将训练集中图像的英文描述翻译为中文描述,得到图像-中文描述的伪标注语料,然后训练一个图像中文描述生成模型。特别地,对于第二种方法,该文还比较了基于词和基于字的中文描述生成模型。实验结果表明,采用构建伪训练语料法优于串行法,同时基于字的中文描述生成模型也要优于基于词的模型,BLEU_4值达到0.341。
-
关键词
图像描述生成
机器翻译
神经网络
枢轴语言
-
Keywords
image caption
machine translation
neural network
pivot language
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名稀缺资源语言神经网络机器翻译研究综述
被引量:19
- 3
-
-
作者
李洪政
冯冲
黄河燕
-
机构
北京理工大学计算机学院
北京市海量语言信息处理与云计算应用工程技术研究中心
北京理工大学外国语学院
语言工程与认知计算工信部重点实验室
-
出处
《自动化学报》
EI
CAS
CSCD
北大核心
2021年第6期1217-1231,共15页
-
基金
中国博士后科学基金(2018M640069)
国家自然科学基金(61902024,61732005)
国家重点研发计划(2018YFC0832104)资助。
-
文摘
作为目前主流翻译方法的神经网络机器翻译已经取得了很大突破,在很多具有丰富数据资源的语言上的翻译质量也不断得到改善,但对于稀缺资源语言的翻译效果却仍然并不理想.稀缺资源语言机器翻译是目前机器翻译领域的重要研究热点之一,近几年来吸引了国内外的广泛关注.本文对稀缺资源语言机器翻译的研究进行比较全面的回顾,首先简要介绍了与稀缺资源语言翻译相关的学术活动和数据集,然后重点梳理了目前主要的研究方法和一些研究结论,总结了每类方法的特点,在此基础上总结了不同方法之间的关系并分析了目前的研究现状.最后,对稀缺资源语言机器翻译未来可能的研究趋势和发展方向进行了展望,并给出了相关建议.
-
关键词
稀缺资源语言
神经网络机器翻译
迁移学习
枢轴语言
回译
多语言翻译
无监督翻译
-
Keywords
Low-resource language
neural machine translation
transfer learning
pivot language
back translation
multilingual translation
unsupervised translation
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
TP183
[自动化与计算机技术—控制理论与控制工程]
-