-
题名基于短语替换的汉越伪平行句对生成
被引量:2
- 1
-
-
作者
贾承勋
赖华
余正涛
文永华
于志强
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2021年第8期47-55,共9页
-
基金
国家重点研发计划(2019QY1801)
国家自然科学基金(61672271,61732005,61761026,61762056,61866020)
云南省高新技术产业专项(201606)
-
文摘
神经机器翻译在语料丰富的语种上取得了良好的翻译效果,但是在汉语-越南语这类双语资源稀缺的语种上性能不佳,通过对现有小规模双语语料进行词级替换生成伪平行句对可以较好地缓解此类问题。考虑到汉越词级替换中易存在一词多译问题,该文对基于更大粒度的替换进行了研究,提出了一种基于短语替换的汉越伪平行句对生成方法。利用小规模双语语料进行短语抽取构建短语对齐表,并通过在维基百科中抽取的实体词组对其进行扩充,在对双语数据的汉语和越南语分别进行短语识别后,利用短语对齐表中与识别出的短语相似性较高的短语对进行替换,以此实现短语级的数据增强,并将生成的伪平行句对与原始数据一起训练最终的神经机器翻译模型。在汉-越翻译任务上的实验结果表明,通过短语替换生成的伪平行句对可以有效提高汉-越神经机器翻译的性能。
-
关键词
汉-越神经机器翻译
数据增强
伪平行句对
短语对齐表
短语替换
-
Keywords
Chinese-Vietnamese neural machine translation
data augmentation
pseudo-parallel sentence pairs
phrase alignment table
phrase substitute
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-