-
题名基于归一化点向互信息的低资源平行语料过滤方法
- 1
-
-
作者
吴霖
章浩然
-
机构
昆明理工大学
-
出处
《通信技术》
2021年第12期2606-2613,共8页
-
文摘
神经机器翻译的效果严重依赖于平行语料的规模和质量,而当前的平行语料抽取方法和生成方法只能提供规模足够但质量不佳的平行语料。因此,要在这些大规模低质平行语料上训练高质量的神经机器翻译系统,需要对这些平行语料进行有效过滤。针对这一问题,引入了归一化点向互信息算法来抽取噪声语料中的对齐信息,利用其中可靠性高的对齐信息来过滤噪声语料。利用该方法在OpenSubtitles的泰语—汉语翻译方向上提高了5.8个双语评估替补(Bilingual Evaluation Understudy,BLEU)值,汉语—泰语翻译方向上提高了10个BLEU值。此外,该方法在2020年国际机器翻译大赛给出的柬埔寨语—英语单向翻译任务中实验,得到的结果比基线高了0.4个BLEU值。
-
关键词
神经机器翻译
过滤
归一化点向互信息算法
平行语料
对齐信息
-
Keywords
neural machine translation
filtering
npmi(normalized pointwise mutual information)
parallel corpus
alignment information
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-