期刊文献+

“细粒度英汉机器翻译错误分析语料库”的构建与思考 被引量:3

Construction of Fine-Grained Error Analysis Corpus of English-Chinese Machine Translation
下载PDF
导出
摘要 机器翻译错误分析旨在找出机器译文中存在的错误,包括错误类型、错误分布等,它在机器翻译研究和应用中发挥着重要作用。该文将人工译后编辑与错误分析结合起来,对译后编辑操作进行错误标注,采用自动标注和人工标注相结合的方法,构建了一个细粒度英汉机器翻译错误分析语料库,其中每一个标注样本包括源语言句子、机器译文、人工参考译文、译后编辑译文、词错误率和错误类型标注;标注的错误类型包括增词、漏词、错词、词序错误、未译和命名实体翻译错误等。标注的一致性检验表明了标注的有效性;对标注语料的统计分析结果能有效地指导机器翻译系统的开发和人工译员的后编辑。 Machine translation error analysis,including error classes and error distribution etc.Error analysis of machine translaution output,plays an important role in the research and application of machine translation.In this paper,post-editing is introduced into error analysis to annotate error labels.Automatic error annotation and manual annotation are applied to build a Fine-grained Error Analysis Corpus of English-Chinese Machine Translation(ErrAC),in which every annotated sample includes a source sentence,MT output,reference,post-edit,WER and error type.The annotated error types include addition,omission,lexical error,word order error,untranslated word,named entity translation error etc.Annotator agreement analysis shows the effectiveness of the annotation.The statistics and analysis based on the corpus provide effective guidance for the development of machine translation system and post-editing practice.
作者 裘白莲 王明文 李茂西 陈聪 徐凡 QIU Bailian;WANG Mingwen;LI Maoxi;CHEN Cong;XU Fan(School of Computer and Information Engineering,Jiangxi Normal University,Nanchang,Jiangxi 330022,China;School of Foreign Languages,East China Jiaotong University,Nanchang,Jiangxi 330013,China)
出处 《中文信息学报》 CSCD 北大核心 2022年第1期47-55,共9页 Journal of Chinese Information Processing
基金 国家自然科学基金(61876074,61662031,61772246) 国家社会科学基金(19BYY121) 教育部人文社科基金(21YJC740040)。
关键词 机器翻译 错误分析 错误标注 译后编辑 machine translation error analysis error annotation post-editing
  • 相关文献

参考文献3

二级参考文献23

共引文献96

同被引文献40

引证文献3

二级引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部