摘要
领域自适应研究的目标是建立一种动态调整翻译模型,使翻译模型对目标领域的语言特征具备较强的学习和处理能力,借以保证翻译系统在不同领域获得平衡可靠的翻译能力。现有翻译模型的自适应研究已经取得显著进展,但调序过程的领域适应性研究相对较少。在该文前期工作中通过对大规模源语言和目标语言的真实互译样本统计发现,在语义等价的短语级互译对子中,36.17%的样本在不同领域中的语序存在显著差异。针对这一问题,该文从主题角度出发,探索不同主题分布下的短语调序差异,提出一种融合主题信息的领域自适应调序模型。实验结果显示,嵌入调序适应性模型的翻译系统取得了较为明显的性能优势。
The research on domain adaptation(DA)for statistical machine translation(SMT)aims at dynamically adjusting the translation model to ensure balanced and reliable translation quality in different domains.Existing researches on adaptation of translation model have made remarkable progress,but neglect the reordering issue.This paper investigates the translation samples in a large scale source bilingual corpus,revealing that 36.17% samples exhibits clear word order differences in phrase level translation pairs.Therefore,we propose a domain adaptive reordering model based on fusing topic information,to explore the reordering differences of phrases under different topic distribution.Experimental results show that translation systems with adaptive reordering model yield obvious performance improvements.
出处
《中文信息学报》
CSCD
北大核心
2017年第5期50-58,共9页
Journal of Chinese Information Processing
基金
国家自然科学基金(61373097
61672368
61672367
61331011)
江苏省科技计划(SBK2015022101)
教育部-中国移动科研基金(MCM20150602)
关键词
统计机器翻译
领域适应性
调序模型
主题模型
statistical machine translation
domain adaptation
reordering model
topic model