摘要
标记语言翻译相比于纯文本类型翻译任务来说,存在标记格式复杂多样造成的译文质量低和译文端格式难以保持等技术难题。针对这些难题,该文提出基于组合泛化的标记语言建模方法。同时,针对标记语言的格式还原问题,该文提出使用标签位置准确率、正确率、召回率和F_(1)值等指标来衡量标记语言格式还原效果。实验发现,该文所提出的泛化方法相较于基于截断、基于词对齐和已有的泛化方法,BLEU均有较大提升,格式还原率接近100%。
Compared with plain text translation tasks,the markup language translation is obstructed by low translation quality caused by complex and diverse markup formats.This paper proposes a combined generalization-based markup language translation method.As for the format restoration of markup language,this paper proposes to measure its quality by tag position precision,accuracy,recall rate and F_(1) value.Compared with truncation-based,word alignment-based and existing generalization methods,the proposed method has significant improvement in BLEU,and the format restoration rate is close to 100%.
作者
杜权
曾信
李北
刘辉
李垠桥
肖桐
朱靖波
DU Quan;ZENG Xin;LI Bei;LIU Hui;LI Yinqiao;XIAO Tong;ZHU Jingbo(NLP Laboratory,Northeastern University,Shenyang,Liaoning 110819,China)
出处
《中文信息学报》
CSCD
北大核心
2024年第8期68-75,共8页
Journal of Chinese Information Processing
基金
国家自然科学基金(61876035,61732005)。
关键词
标记语言
机器翻译
基于泛化的建模方法
markup language
machine translation
generalization-based modeling approach