-
题名层次短语翻译模型的介词短语调序
被引量:3
- 1
-
-
作者
冯洋
张冬冬
刘群
-
机构
中国科学院计算技术研究所智能信息处理重点实验室
微软亚洲研究院
-
出处
《中文信息学报》
CSCD
北大核心
2012年第1期31-36,共6页
-
文摘
在不同的语言中,句法成分的相对位置往往不同,介词短语表现尤为明显,因此正确的对介词短语进行调序对提高翻译质量至关重要。层次短语模型借助于形式语法规则,具有较强的处理长距离调序的能力,但是其并不对短语的句法成分进行区分,这会导致规则的使用不当,从而引起翻译错误。该文在层次短语模型的基础上,针对介词短语进行处理。首先利用条件随机场模型识别出介词短语,然后抽取出带有介词短语的规则,构建一个新的同步上下文无关文法。解码的时候,在这个同步上下文无关文法定义的空间里搜索找到最优的译文。相对于层次短语模型,该方法在我们内部的英汉数据集上调高了0.8个BLEU百分点,在NIST 2008英汉翻译数据集上提高了0.5个BLEU百分点。
-
关键词
统计机器翻译
层次短语模型
介词短语调序
条件随机场
-
Keywords
statistical machine translation
hierarchical phrase-based translation
prepositional phrase reordering
conditional random field
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名引入集成学习的最大熵短语调序模型
被引量:3
- 2
-
-
作者
何钟豪
苏劲松
史晓东
陈毅东
黄研洲
-
机构
厦门大学智能科学与技术系
厦门大学软件学院
-
出处
《中文信息学报》
CSCD
北大核心
2014年第1期87-93,共7页
-
基金
国家自然科学基金(61303082
61005052)
+1 种基金
国家科技支撑计划(2012BAH14F03)
高等学校博士学科点专项科研基金(20120121120046)
-
文摘
基于最大熵的括号转录语法模型具有翻译能力强、模型训练简单的优点,成为近些年统计机器翻译研究的热点。然而,该模型存在短语调序实例样本分布不平衡的缺点。针对该问题,该文提出了一种引入集成学习的短语调序模型训练方法。在大规模数据集上的实验结果表明,我们的方法能有效改善调序模型的训练效果,显著提高翻译系统性能。
-
关键词
最大熵
短语调序
不平衡分类
集成学习
-
Keywords
maximum entropy
phrase reordering
imbalanced classifier
ensemble learning
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-