-
题名基于熵的机器翻译伪并行语料库选择方法
- 1
-
-
作者
刘婉月
艾山・吾买尔
敖乃翔
郭锐
-
机构
新疆大学信息科学与工程学院
新疆大学新疆多语种信息技术实验室
中国电子科技集团公司电子科学研究院
新疆联海创智信息科技有限公司
-
出处
《现代计算机》
2021年第19期9-14,18,共7页
-
基金
国家自然科学基金项目(No.61662077、61262060)
新疆多语种信息技术实验室开放课题(No.2016D03023)。
-
文摘
为了获得高质量的NMT模型,大规模并行语料库是必不可少的。使用反向翻译构造伪造语料库,这些伪造语料中存在大量的噪声,这些噪声会降低NMT模型的翻译质量。为了从反向翻译的伪造语料中选取高质量的语料,对此,提出了多种基于熵过滤伪造语料的方法,使用单个或多个语言模型按照不同的困惑度选择方法筛选伪造语料,实验表明,联合不同语言模型能够筛选高质量语料,并提高模型的质量。
-
关键词
大规模并行语料库
语言模型
伪造语料库
困惑度
-
Keywords
Large-Scale Parallel Corpus
Language Model
Forgery of Corpus
Perplexity
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-