期刊文献+

蒙汉机器翻译校正数据集 被引量:1

A dataset of Mongolian-Chinese machine translation correction
下载PDF
导出
摘要 机器翻译数据集的精确度对翻译模型的性能起决定性作用。传统蒙古语由于字符编码的特殊性,拼写错误十分普遍,网络开放资源字符编码准确性不足20%,这给其文本智能处理造成重大障碍。本文以第十七届全国机器翻译大会(CCMT 2021)蒙汉双语公开评测数据集作为原始语料,进行蒙文文本自动校正,构建面向机器翻译的高质量蒙汉句对校正数据集。在CWMT2017测试集上的实验结果表明,经过蒙文文本校正后的蒙汉双语平行句对在蒙汉、汉蒙两个方向上均优于原始评测数据的翻译效果,验证了蒙文校正文本的使用对提升下游自然语言处理任务性能的有效性及实用性。 The accuracy of machine translation datasets plays a decisive role in the performance of translation models.Due to the particularity of character encoding in traditional Mongolian,spelling errors are very common,and the accuracy of character encoding of open resources on the Internet is less than 20%,which poses a major obstacle to intelligent text processing.In this paper,we used the Mongolian-Chinese bilingual public evaluation dataset of the 17th China Conference on Machine Translation(CCMT 2021)as the original corpus to complete automatic Mongolian correction,and constructed a high-quality Mongolian-Chinese sentence pair correction dataset for machine translation.The experimental results on the CWMT2017 test set show that the Mongolian-Chinese bilingual parallel sentence pair after the Mongolian text correction is better than the translation effect of the original evaluation data in both Mongolian->Chinese and Chinese->Mongolian directions,which verifies the effectiveness and practicability of the Mongolian corrected text for improving the performance of downstream natural language processing tasks.
作者 申影利 包乌格德勒 赵小兵 SHEN Yingli;BAO Wugedele;ZHAO Xiaobing(School of Chinese Ethnic Minority Languages and Literatures,Minzu University of China,Beijing 100081,P.R.China;Hohhot Minzu College,Hohhot 010051,P.R.China;School of Information Engineering,Minzu University of China,Beijing 100081,P.R.China;National Language Resource Monitoring&Research Center of Minority Languages,Beijing 100081,P.R.China)
出处 《中国科学数据(中英文网络版)》 CSCD 2022年第2期55-61,共7页 China Scientific Data
基金 国家语委重点项目(ZDI135-118) 中央民族大学研究生科研实践项目(BZKY2021062)
关键词 机器翻译 传统蒙古文 文本校正 数据集 machine translation traditional Mongolian text correction dataset
  • 相关文献

参考文献3

二级参考文献21

  • 1张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量:39
  • 2赵军,敖其尔.基于统计语言模型蒙古文词汇分析校正器的设计与实现[C] ∥民族语言文字信息技术研究--第11届全国民族语言文字信息学术研讨会论文集.西双版纳:西苑出版社,2007.
  • 3巩政.蒙古文编码转换研究[D].内蒙古大学,2007.
  • 4张谨.规则与统计相结合的蒙古文编码转换研究与实现[D].内蒙古大学,2009.
  • 5Joseph J. Pollock. Automatic Spelling Correction in Scientific and Scholarly Text [J]. Communication of the ACM, 1984, (4): 358-368.
  • 6K Kukich. Techniques for Automatically Correcting Words in Text[J]. ACM Computing Surveys, 1992, 24(4) : 377-438.
  • 7斯·劳格劳.基于DFA的蒙古文自动校对算法[C].第二届少数民族青年自然语言处理研讨会,2010.
  • 8敖敏,熊子瑜,呼和.基于蒙科立输入法的同形异码词研究[C].第十一届全国人机语音通讯学术会议,2011,10.
  • 9Philipp Koehn, Franz Josef Och, Daniel Marcu. Sta-tistical Phrase-Based Translation[C]//Proceedings of HLT-NAACL, 2003: 127-133.
  • 10Peter F Brown, John Cocke, Stephen A Delia Pietra. A Statistical Approach to Machine Translation [J]. Computational Linguistics, 1990, 16(6): 79-85.

共引文献11

同被引文献3

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部