期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
使用源语言复述知识改善统计机器翻译性能 被引量:4
1
作者 苏晨 张玉洁 +1 位作者 郭振 徐金安 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第2期342-348,共7页
为了缓解双语语料不足导致的翻译知识欠缺问题,提出基于复述技术的翻译框架。此框架利用第三种语言获取带有概率的复述知识表,以Lattice表示输入句子的多种复述形式,扩展解码器使之可以对Lattice形式的输入进行解码,将复述知识作为特征... 为了缓解双语语料不足导致的翻译知识欠缺问题,提出基于复述技术的翻译框架。此框架利用第三种语言获取带有概率的复述知识表,以Lattice表示输入句子的多种复述形式,扩展解码器使之可以对Lattice形式的输入进行解码,将复述知识作为特征加入到对数线性模型的目标函数中。在保持原始翻译知识表不变的情况下,此框架不仅可以增大短语翻译表对源语言现象的覆盖率,也能够增加候选译文表现形式的多样性。在3个不同规模训练集上的对比实验结果表明,在训练语料规模最小的情况下(10 K句对),系统性能有明显提升(BLEU+1.4%);在训练语料规模最大的情况下(1 M句对),系统性能也取得一定提升(BLEU+0.32%)。 展开更多
关键词 复述知识 短语翻译表 特征 解码器
下载PDF
一种基于词素媒介的汉蒙统计机器翻译方法 被引量:2
2
作者 杨振新 李淼 +3 位作者 陈雷 卫林钰 陈晟 孙凯 《中文信息学报》 CSCD 北大核心 2017年第4期57-62,69,共7页
汉蒙语形态差异性及平行语料库规模小制约了汉蒙统计机器翻译性能的提升。该文将蒙古语形态信息引入汉蒙统计机器翻译中,通过将蒙古语切分成词素的形式,构造汉语词和蒙古语词素,以及蒙古语词素和蒙古语的映射关系,弥补汉蒙形态结构上的... 汉蒙语形态差异性及平行语料库规模小制约了汉蒙统计机器翻译性能的提升。该文将蒙古语形态信息引入汉蒙统计机器翻译中,通过将蒙古语切分成词素的形式,构造汉语词和蒙古语词素,以及蒙古语词素和蒙古语的映射关系,弥补汉蒙形态结构上的非对称性,并将词素作为中间语言,通过训练汉语—蒙古语词素以及蒙古语词素-蒙古语统计机器翻译系统,构建出新的短语翻译表和调序模型,并采用多路径解码及多特征的方式融入汉蒙统计机器翻译。实验结果表明,将基于词素媒介构建出的短语翻译表和调序模型引入现有统计机器翻译方法,使得译文在BLEU值上比基线系统有了明显提高,一定程度上消解了数据稀疏和形态差异对汉蒙统计机器翻译的影响。该方法是一种通用的方法,通过词素和短语两个层面信息的结合,实现了两种语言在形态结构上的对称,不仅适用于汉蒙统计机器翻译,还适用于形态非对称且低资源的语言对。 展开更多
关键词 中间语言 词素 统计机器翻译 短语翻译表 调序模型
下载PDF
LOOSE PHRASE EXTRACTION WITH n-BEST ALIGNMENTS
3
作者 Xue Yongzeng Li Sheng 《Journal of Electronics(China)》 2007年第4期567-571,共5页
Loose phrase extraction method is proposed and applied for phrase-based statistical ma- chine translation. The method extracts phrase pairs that are not strictly consistent with word align- ments. Two types of constra... Loose phrase extraction method is proposed and applied for phrase-based statistical ma- chine translation. The method extracts phrase pairs that are not strictly consistent with word align- ments. Two types of constraints on word positions are investigated for this method. Furthermore, n-best alignments are introduced for phrase extraction instead of the one-best. Experimental results show that the proposed approach outperforms the baseline system, Pharaoh system, for both one-best and n-best alignments. 展开更多
关键词 Statistical machine translation Phrase-based ALIGNMENT n-best Phrase extraction
下载PDF
基于随机行走N步的汉语复述短语获取方法 被引量:1
4
作者 马军 张玉洁 +1 位作者 徐金安 陈钰枫 《中国科学:信息科学》 CSCD 北大核心 2017年第8期1066-1077,共12页
在利用大规模双语语料获取复述知识方面,传统的基于"枢轴"方法只能考虑两步以内的复述现象.本文针对已有方法的局限性,对不同语言之间互为翻译的短语对构建翻译关系图,提出基于随机行走N步的复述获取算法,改进已有方法以获取... 在利用大规模双语语料获取复述知识方面,传统的基于"枢轴"方法只能考虑两步以内的复述现象.本文针对已有方法的局限性,对不同语言之间互为翻译的短语对构建翻译关系图,提出基于随机行走N步的复述获取算法,改进已有方法以获取更多潜在的复述知识.本文描述了由汉英短语翻译表构建翻译关系图的方法、基于N步的随机行走算法和基于期望步数的复述短语可信度计算方法.同时,本文提出面向多语言对的翻译关系图扩展方法.在NTCIR汉英和英日双语平行语料上进行了实验与评测,并与传统方法进行了对比.实验结果表明本文所提出的方法能够获取更多的复述知识,而且扩展语言对的翻译关系图能够有效获取更多潜在的复述知识. 展开更多
关键词 复述获取 短语翻译表 翻译关系图 随机行走 期望步数
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部