期刊文献+

面向藏汉神经机器翻译的数据筛选方法

Data Filtering Strategies for Tibetan-Chinese Neural Machine Translation
下载PDF
导出
摘要 针对目前在藏汉机器翻译中使用传统数据增强方法会导致数据的语法和语义损失等问题,本文在传统数据增强方法的基础上,提出将句子困惑度与语义相似度相结合的伪数据筛选方法,通过困惑度降低伪数据的语法错误率,同时通过语义相似度减少伪数据的语义偏差,以更好地缓解低资源下平行数据质量欠佳和稀缺等问题。本文使用伪数据筛选方法在藏汉、英汉2对双向语种上进行实验,结果比传统的数据增强方法的BLEU值分别提升了0.11、0.53、1.18、1.08。由此表明,本文提出的伪数据筛选方法有效地改善了翻译模型在语法和语义上的缺陷,从而增强了翻译系统的性能以及提升了翻译模型的泛化能力,验证了本文方法的有效性。 Data syntax and semantic losses arise in Tibetan-Chinese machine translation when traditional data augmentation methods are employed.To address this issue,this paper proposes a pseudo-data filtering method combining sentence confusion degree with semantic similarity degree on the basis of traditional data enhancement methods.This strategy effectively tackles chal‐lenges such as the inadequate quality and scarcity of parallel data,particularly in low-resource settings.The results of this study demonstrate that the pseudo data filtering approach significantly improves both Tibetan-Chinese and English-Chinese bidirec‐tional language translation tasks.The proposed pseudo-data filtering method effectively improves the grammatical and semantic defects of the translation model,thus enhancing the performance of the translation system and the generalization ability of the translation model,and verifies the effectiveness of the proposed method.
作者 仁青卓玛 拥措 唐超超 Renqingzhuoma;Yongcuo;TANG Chaochao(College of Information Science and Technology,Tibet University,Lhasa 850000,China;Key Laboratory of Tibetan Information Technology and Artificial Intelligence of Tibet Autonomous Region,Lhasa 850000,China;Engineering Research Center of Tibetan Information Technology,Ministry of Education,Lhasa 850000,China)
出处 《计算机与现代化》 2024年第6期19-24,共6页 Computer and Modernization
基金 科技创新2030—“新一代人工智能”重大项目(2022ZD0116100) 西藏自治区科技创新基地自主研究项目(XZ2021JR0002G) 西藏大学学科建设能力提升计划项目(藏财预指[2023]1号)。
关键词 回译 数据筛选 藏汉神经机器翻译 困惑度 语义相似度 back translation data selection Tibetan Chinese neural machine translation perplexity semantic similarity
  • 相关文献

参考文献2

共引文献7

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部