期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种基于分类的平行语料选择方法 被引量:4
1
作者 王星 涂兆鹏 +2 位作者 谢军 吕雅娟 姚建民 《中文信息学报》 CSCD 北大核心 2013年第6期144-150,共7页
大规模高质量双语平行语料库是构造高质量统计机器翻译系统的重要基础,但语料库中的噪声影响着统计机器翻译系统的性能,因此有必要对大规模语料库中语料进行筛选。区别于传统的语料选择排序模型,本文提出一种基于分类的平行语料选择方... 大规模高质量双语平行语料库是构造高质量统计机器翻译系统的重要基础,但语料库中的噪声影响着统计机器翻译系统的性能,因此有必要对大规模语料库中语料进行筛选。区别于传统的语料选择排序模型,本文提出一种基于分类的平行语料选择方法。通过少数句对特征构造差异较大的分类器训练句对,在该训练句对上使用更多的句对特征对分类器进行训练,然后对其他未分类句对进行分类。相比于基准系统,我们的方法不仅缩减40%训练语料规模,同时在NIST测试数据集合上将BLEU值提高了0.87个百分点。 展开更多
关键词 统计机器翻译 平行语料选择
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部