-
题名基于多亚词序列融合的神经机器翻译
- 1
-
-
作者
刘婉月
艾山·吾买尔
李哲
韩越
张大任
宜年
-
机构
新疆大学信息科学与工程学院
新疆大学新疆多语种信息技术实验室
新疆大学软件学院
-
出处
《中文信息学报》
CSCD
北大核心
2023年第2期87-96,106,共11页
-
基金
国家自然科学基金(62166044,61662077)
国家语委重点项目(ZDI135-54)
自治区“天山创新团队计划”申报书(202101642)。
-
文摘
在神经机器翻译模型中,BPE(Byte Pair Encoding)方法用于解决模型不能正确翻译罕见词和不可见词的问题。但是BPE只能将单词切分成唯一的亚词序列,面对形态丰富的语言,同一个词存在多种不同的组合,但是模型只能学习单词的一种组合方式,这会阻碍模型更好地学习单词的不同组合特性。该文提出一种加标签融合多种亚词序列的方法,不同BPE融合次数切分相同的训练数据,得到不同的亚词序列,进行加标签融合,其中相同单词的不同亚词参与训练,使模型能够更好地学习词的不同的组合形式。该文中的方法在形态复杂的语言和形态简单的语言对上均有了0.5个BLEU值以上的提高。实验表明,不同的亚词序列质量越好,相似度越低,融合后训练的翻译模型质量越好。
-
关键词
BPE
亚词序列
加标签融合
-
Keywords
BPE
subword sequence
tagging and fusing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-