-
题名自纠正词对齐
- 1
-
-
作者
龚慧敏
段湘煜
张民
-
机构
苏州大学计算机科学与技术学院
-
出处
《计算机科学》
CSCD
北大核心
2017年第12期216-220,238,共6页
-
基金
国家自然科学基金:面向统计机器翻译的同步短语树结构规约机制研究(61273319)资助
-
文摘
词对齐是统计机器翻译系统的重要一环,但词对齐的获得往往基于序列模型的计算,而没有考虑语言的结构化信息及语言特征,从而造成词对齐中出现一些不符合语言特征的结果。文中提出一种词对齐的自纠正机制,以纠正词对齐中的错误部分。该机制使用一些语言学上的先验知识,对词对齐结果进行由粗颗粒度到细颗粒度的纠正。首先采用基于标点的方法对句对进行粗粒度化纠正,然后采用基于统计特征的方法对子句对进行细粒度化纠正。该自纠正过程不需要借助任何其他词对齐工具和新语料。实验结果显示,自纠正词对齐显著提高了词对齐的准确率,并提高了机器翻译的质量,其中粗粒度的纠正方法对翻译质量的提高最为显著,细粒度的纠正方法也提升了翻译质量,最终通过结合粗颗粒度和细颗粒度的纠正方法,使翻译结果相对基准系统取得了显著的提高。
-
关键词
自纠正
词对齐
粗颗粒度到细颗粒度
-
Keywords
Self-correction
Word alignment
Coarse-to-fine
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-