蒙汉机器翻译校正数据集被引量：1

A dataset of Mongolian-Chinese machine translation correction

下载PDF

导出

摘要机器翻译数据集的精确度对翻译模型的性能起决定性作用。传统蒙古语由于字符编码的特殊性,拼写错误十分普遍,网络开放资源字符编码准确性不足20%,这给其文本智能处理造成重大障碍。本文以第十七届全国机器翻译大会(CCMT 2021)蒙汉双语公开评测数据集作为原始语料,进行蒙文文本自动校正,构建面向机器翻译的高质量蒙汉句对校正数据集。在CWMT2017测试集上的实验结果表明,经过蒙文文本校正后的蒙汉双语平行句对在蒙汉、汉蒙两个方向上均优于原始评测数据的翻译效果,验证了蒙文校正文本的使用对提升下游自然语言处理任务性能的有效性及实用性。 The accuracy of machine translation datasets plays a decisive role in the performance of translation models.Due to the particularity of character encoding in traditional Mongolian,spelling errors are very common,and the accuracy of character encoding of open resources on the Internet is less than 20%,which poses a major obstacle to intelligent text processing.In this paper,we used the Mongolian-Chinese bilingual public evaluation dataset of the 17th China Conference on Machine Translation(CCMT 2021)as the original corpus to complete automatic Mongolian correction,and constructed a high-quality Mongolian-Chinese sentence pair correction dataset for machine translation.The experimental results on the CWMT2017 test set show that the Mongolian-Chinese bilingual parallel sentence pair after the Mongolian text correction is better than the translation effect of the original evaluation data in both Mongolian->Chinese and Chinese->Mongolian directions,which verifies the effectiveness and practicability of the Mongolian corrected text for improving the performance of downstream natural language processing tasks.

作者申影利包乌格德勒赵小兵 SHEN Yingli;BAO Wugedele;ZHAO Xiaobing(School of Chinese Ethnic Minority Languages and Literatures,Minzu University of China,Beijing 100081,P.R.China;Hohhot Minzu College,Hohhot 010051,P.R.China;School of Information Engineering,Minzu University of China,Beijing 100081,P.R.China;National Language Resource Monitoring&Research Center of Minority Languages,Beijing 100081,P.R.China)

机构地区中央民族大学中国少数民族语言文学学院呼和浩特民族学院中央民族大学信息工程学院国家语言资源监测与研究少数民族语言中心

出处《中国科学数据（中英文网络版）》 CSCD 2022年第2期55-61,共7页 China Scientific Data

基金国家语委重点项目(ZDI135-118) 中央民族大学研究生科研实践项目(BZKY2021062)

关键词机器翻译传统蒙古文文本校正数据集 machine translation traditional Mongolian text correction dataset

分类号 TP391.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1金良,林民.三种蒙古文编码之间的差异性研究[J].内蒙古师范大学学报（自然科学汉文版）,2013,42(2):225-227. 被引量：2
2华沙宝.现代蒙古文自动校对系统——MHAHP[J].内蒙古大学学报（哲学社会科学版）,1997,29(4):49-53. 被引量：4
3苏传捷,侯宏旭,杨萍,员华瑞.基于统计翻译框架的蒙古文自动拼写校对方法[J].中文信息学报,2013,27(6):175-179. 被引量：10

二级参考文献21

1张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006,23(6):8-12. 被引量：39
2赵军,敖其尔.基于统计语言模型蒙古文词汇分析校正器的设计与实现[C] ∥民族语言文字信息技术研究--第11届全国民族语言文字信息学术研讨会论文集.西双版纳:西苑出版社,2007.
3巩政.蒙古文编码转换研究[D].内蒙古大学,2007.
4张谨.规则与统计相结合的蒙古文编码转换研究与实现[D].内蒙古大学,2009.
5Joseph J. Pollock. Automatic Spelling Correction in Scientific and Scholarly Text [J]. Communication of the ACM, 1984, (4): 358-368.
6K Kukich. Techniques for Automatically Correcting Words in Text[J]. ACM Computing Surveys, 1992, 24(4) : 377-438.
7斯·劳格劳.基于DFA的蒙古文自动校对算法[C].第二届少数民族青年自然语言处理研讨会,2010.
8敖敏,熊子瑜,呼和.基于蒙科立输入法的同形异码词研究[C].第十一届全国人机语音通讯学术会议,2011,10.
9Philipp Koehn, Franz Josef Och, Daniel Marcu. Sta-tistical Phrase-Based Translation[C]//Proceedings of HLT-NAACL, 2003: 127-133.
10Peter F Brown, John Cocke, Stephen A Delia Pietra. A Statistical Approach to Machine Translation [J]. Computational Linguistics, 1990, 16(6): 79-85.

共引文献11

1斯·劳格劳,白斯勤,白庆格勒图.一种传统蒙古文拼写检查系统的实现[J].中央民族大学学报（哲学社会科学版）,2021,48(1):158-168. 被引量：1
2孙瑞.基于英语翻译应用视角下的计算机智能校对系统开发研究[J].微型电脑应用,2020,36(2):145-148. 被引量：6
3斯.劳格劳.蒙古文编码转换通用算法研究[J].内蒙古大学学报（哲学社会科学版）,2009,41(2):133-136. 被引量：2
4呼日乐吐什,德.萨日娜,额尔敦朝鲁.蒙古文网络资源检索难点分析[J].呼伦贝尔学院学报,2016,24(2):9-13.
5白双成.蒙古文原始语料统计建模研究[J].中文信息学报,2017,31(1):118-125. 被引量：1
6张睿.基于短语相似度的统计机器翻译系统设计[J].自动化与仪器仪表,2017(8):66-67. 被引量：6
7陈功,梁茂成.面向中国学生的英语书面语动词形式错误自动检查——基于链语法的研究[J].中文信息学报,2017,31(6):196-204. 被引量：3
8包乌格德勒,李娟.蒙古文文本自动校对研究综述[J].电脑知识与技术（过刊）,2016,22(12X):227-229. 被引量：1
9杨利润,斯琴巴图,锡林宝力尔.关于解决蒙古文形对码错错误的研究综述[J].现代计算机,2020,26(4):29-31.
10张蕾,王剑楠.基于短语翻译模型的英语翻译计算机智能校对方法[J].自动化技术与应用,2021,40(2):55-58. 被引量：8

同被引文献3

1特日格勒呼,王斯日古楞,韩永顺,爱丽雅,娜何雅.蒙古文日常问答语料数据集[J].中国科学数据（中英文网络版）,2022,7(2):62-70. 被引量：2
2戚肖克,特尼格尔,孙媛,赵小兵.蒙汉语音翻译数据集[J].中国科学数据（中英文网络版）,2022,7(2):84-90. 被引量：2
3特日格勒呼,王斯日古楞.基于深度学习的生成式蒙古文问答模型研究[J].中央民族大学学报（自然科学版）,2022,31(3):32-41. 被引量：1

引证文献1

1朝木尔力格,王斯日古楞.汉蒙双语法律领域问答语料数据集[J].中国科学数据（中英文网络版）,2024,9(4):76-84.

1车万翔,刘挺.自然语言处理新范式:基于预训练模型的方法[J].中兴通讯技术,2022,28(2):3-9. 被引量：12
2赵雨露.扎根内蒙古,做独具民族特色的血糖管理带头人--专访内蒙古民族大学附属医院内分泌科主任韩立坤[J].糖尿病之友,2022(5):72-73.
3赵旭,苏依拉,仁庆道尔吉,石宝.非自回归翻译模型在蒙汉翻译上的应用[J].计算机工程与应用,2022,58(12):310-316. 被引量：2
4关于开展CCMT2022春燕奖评选和表彰活动的通知[J].中国超硬材料,2021(3):106-106.
5王亮伟,蒿巧利,赵晏强.区域科技创新平台优化发展研究--以湖北省为例[J].科技促进发展,2021,17(12):2088-2092. 被引量：3
6陈玲,陈含,张永发.基于Markov/CCMT方法的数字化紧急停堆系统可靠性分析[J].核动力工程,2021,42(6):155-160. 被引量：1
7无.专注高端智能精细磨削[J].金属加工（冷加工）,2022(4):14-15.
8张春青.语料库辅助读后续写样文关键词分析及对教学的启示[J].中小学数字化教学,2022(6):10-14. 被引量：1
9戚肖克,特尼格尔,孙媛,赵小兵.蒙汉语音翻译数据集[J].中国科学数据（中英文网络版）,2022,7(2):84-90. 被引量：2
10张玲,安伊凡,樊勇,于潇.内蒙古自治区19-22岁蒙汉城乡大学生运动能力比较研究[J].冰雪体育创新研究,2021(17):188-189.

中国科学数据（中英文网络版）

2022年第2期

浏览历史

内容加载中请稍等...

蒙汉机器翻译校正数据集被引量：1

参考文献3

二级参考文献21

共引文献11

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

蒙汉机器翻译校正数据集 被引量：1

参考文献3

二级参考文献21

共引文献11

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

蒙汉机器翻译校正数据集被引量：1