期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
基于短语相似度的统计机器翻译模型 被引量:3
1
作者 何中军 刘群 林守勋 《高技术通讯》 EI CAS CSCD 北大核心 2009年第4期337-341,共5页
针对基于短语的统计机器翻译(SMT)模型中由于采用精确匹配策略导致的短语稀疏问题,提出了一种基于短语相似度的统计机器翻译模型。该模型将基于实例的翻译方法引入到统计机器翻译中。翻译时,对于训练语料库中未出现过的短语,通过计算源... 针对基于短语的统计机器翻译(SMT)模型中由于采用精确匹配策略导致的短语稀疏问题,提出了一种基于短语相似度的统计机器翻译模型。该模型将基于实例的翻译方法引入到统计机器翻译中。翻译时,对于训练语料库中未出现过的短语,通过计算源语言短语之间的相似度,采用模糊匹配策略从短语表中查找相似的实例短语,并根据实例短语为其构造翻译。与精确匹配策略相比,利用相似度进行模糊匹配增加了对短语表的利用程度,缓解了短语稀疏问题。实验表明,该模型能够明显地提高统计机器翻译的质量,效果超过了当前最好的短语系统'摩西(Moses)'。 展开更多
关键词 相似度 基于短语的统计机器翻译 基于实例的机器翻译
下载PDF
基于短语的贝叶斯中文垃圾邮件过滤方法 被引量:10
2
作者 王青松 魏如玉 《计算机科学》 CSCD 北大核心 2016年第4期256-259,269,共5页
朴素贝叶斯算法在垃圾邮件过滤领域得到了广泛应用,该算法中,特征提取是一个必不可少的环节。过去针对中文的垃圾邮件过滤方法都以词作为文本的特征项单位进行提取,面对大规模的邮件训练样本,这种算法的时间效率会成为邮件过滤技术中的... 朴素贝叶斯算法在垃圾邮件过滤领域得到了广泛应用,该算法中,特征提取是一个必不可少的环节。过去针对中文的垃圾邮件过滤方法都以词作为文本的特征项单位进行提取,面对大规模的邮件训练样本,这种算法的时间效率会成为邮件过滤技术中的一个瓶颈。对此,提出一种基于短语的贝叶斯中文垃圾邮件过滤方法,在特征项提取阶段结合文本分类领域提出的新的短语分析方法,按照基本名词短语、基本动词短语、基本语义分析规则,以短语为单位进行提取。通过分别以词和短语为单位进行垃圾邮件过滤的对比测试实验证实了所提出方法的有效性。 展开更多
关键词 垃圾邮件过滤 贝叶斯 特征项提取 基于短语 中文分词
下载PDF
基于短语的统计机器翻译中汉维短语对抽取算法改进
3
作者 任高举 吐尔根.伊布拉音 艾山.吾买尔 《现代计算机》 2010年第5期9-11,共3页
提出一种改进的短语抽取算法,该算法首先考虑词对齐矩阵中一个汉语词对齐到多个维语词的情况(包括不连续),然后采用Och方法进行判断。如果满足条件则进行短语抽取。试验结果表明,改进后的短语抽取算法能够抽取出更多汉维短语对,提高短... 提出一种改进的短语抽取算法,该算法首先考虑词对齐矩阵中一个汉语词对齐到多个维语词的情况(包括不连续),然后采用Och方法进行判断。如果满足条件则进行短语抽取。试验结果表明,改进后的短语抽取算法能够抽取出更多汉维短语对,提高短语翻译对抽取的效果。 展开更多
关键词 基于短语的统计机器翻译 短语抽取 汉维短语 翻译模型
下载PDF
基于短语串实例的汉藏辅助翻译 被引量:2
4
作者 熊维 吴健 +1 位作者 刘汇丹 张立强 《中文信息学报》 CSCD 北大核心 2013年第3期84-90,共7页
目前汉藏机器翻译的研究主要集中在基于规则的方法上,主要原因在于汉藏的平行语料等基础资源相对匮乏,不方便做大规模的基于统计的汉藏机器翻译实验。该文依据汉藏辅助翻译项目的实际需求,在平行语料资源较少的情况下,提出了一种基于短... 目前汉藏机器翻译的研究主要集中在基于规则的方法上,主要原因在于汉藏的平行语料等基础资源相对匮乏,不方便做大规模的基于统计的汉藏机器翻译实验。该文依据汉藏辅助翻译项目的实际需求,在平行语料资源较少的情况下,提出了一种基于短语串实例的机器翻译方法,为辅助翻译提供候选译文。该方法主要利用词语对齐信息来充分挖掘现有平行语料资源信息。实验结果表明,该文提出的基于短语串实例方法优于传统基于句子实例的翻译,能够检索出任意长度的短语串翻译实例。在实验测试集上,该方法与默认参数下的Moses相比,翻译的BULE值接近Moses,短语翻译实例串的召回率提高了约9.71%。在平均句长为20个词的测试语料上,翻译速度达到平均每句0.175s,满足辅助翻译实时性的要求。 展开更多
关键词 机器翻译 辅助翻译 基于短语的机器翻译 基于实例的机器翻译
下载PDF
基于短语模糊匹配和句子扩展的统计翻译方法 被引量:4
5
作者 刘鹏 宗成庆 《中文信息学报》 CSCD 北大核心 2009年第5期40-46,共7页
近几年来,基于短语的统计翻译模型在机器翻译研究中受到普遍关注,并取得了较好的翻译性能。但是,由于目前基于短语的翻译系统在解码时采用精确匹配的策略,常常导致数据稀疏,一方面,有些短语在训练获得的短语表中找不到精确的匹配,使其... 近几年来,基于短语的统计翻译模型在机器翻译研究中受到普遍关注,并取得了较好的翻译性能。但是,由于目前基于短语的翻译系统在解码时采用精确匹配的策略,常常导致数据稀疏,一方面,有些短语在训练获得的短语表中找不到精确的匹配,使其成为未知短语;另一方面,短语表中大量的短语无法得到充分的利用。为此,我们提出了基于短语模糊匹配和句子扩展的翻译方法。对于不存在于短语表中的短语,通过模糊匹配的办法,寻找与其相似的短语,然后将所有相似短语用于替换原短语,从而生成扩展句子,在此基础上对所有扩展的句子进行翻译。由于并不是所有扩展后的句子都能提高原始句子的翻译效果,因此,我们在句子翻译完成后设置了组合分类器用于选择最优翻译结果。实验证明,这种方法可以有效地提高翻译系统的译文质量。 展开更多
关键词 人工智能 机器翻译 基于短语的统计机器翻译 模糊匹配 组合分类器
下载PDF
统计机器翻译中实例短语对研究 被引量:3
6
作者 李强 李沐 +1 位作者 张冬冬 朱靖波 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第1期113-119,共7页
针对由于数据的稀疏性和双语数据规模的局限性造成的大量高质量短语对没有生成的问题,在基于短语的统计机器翻译系统中,通过对传统短语抽取算法抽取的短语对进行分解、替换、生成等操作,生成传统方法无法抽取的实例短语对。在汉英新闻... 针对由于数据的稀疏性和双语数据规模的局限性造成的大量高质量短语对没有生成的问题,在基于短语的统计机器翻译系统中,通过对传统短语抽取算法抽取的短语对进行分解、替换、生成等操作,生成传统方法无法抽取的实例短语对。在汉英新闻和汉英口语翻译任务上,与基线系统相比,该方法在多个测试集上明显提高了翻译系统的翻译质量,在部分测试集上BLEU值可提高1%左右。 展开更多
关键词 统计机器翻译 基于短语 基于实例 短语
下载PDF
基于立方剪枝的短语机器解码算法改进
7
作者 朱海 李淼 +1 位作者 乌达巴拉 张建 《微电子学与计算机》 CSCD 北大核心 2011年第2期153-156,共4页
柱搜索算法是短语统计机器翻译广泛使用的解码算法.文中在立方剪枝算法的基础上提出了另一种对柱搜索算法的改进算法-基于立方剪枝的逆向递归算法.柱搜索算法对栈中所有的假进行扩展,立方剪枝算法有选择地扩展栈中的前k个最好假设,而基... 柱搜索算法是短语统计机器翻译广泛使用的解码算法.文中在立方剪枝算法的基础上提出了另一种对柱搜索算法的改进算法-基于立方剪枝的逆向递归算法.柱搜索算法对栈中所有的假进行扩展,立方剪枝算法有选择地扩展栈中的前k个最好假设,而基于立方剪枝的逆向递归算法只扩展栈中评分高的假设.实验结果表明获得相同的翻译质量,立方剪枝算法比柱搜索算法快10倍,立方剪枝的改进算法在大规模语料中比立方剪枝算法更节省时间. 展开更多
关键词 基于短语统计机器翻译系统 柱搜索算法 立方剪枝 逆向递归
下载PDF
基于虚拟上下文的统计机器翻译短语表的过滤 被引量:1
8
作者 殷乐 张玉洁 徐金安 《中文信息学报》 CSCD 北大核心 2013年第6期139-143,共5页
在基于短语的统计机器翻译系统中,自动抽取的短语表中不可避免的包含大量的冗余和错误的短语对,这浪费了解码资源又影响翻译质量。为了缓解这个问题,该文提出一种基于虚拟上下文的过滤短语表的方法。该方法引入虚拟上下文计算短语对的... 在基于短语的统计机器翻译系统中,自动抽取的短语表中不可避免的包含大量的冗余和错误的短语对,这浪费了解码资源又影响翻译质量。为了缓解这个问题,该文提出一种基于虚拟上下文的过滤短语表的方法。该方法引入虚拟上下文计算短语对的得分增量;并通过计算最大和最小的短语对的得分增量,设计了一种对短语对重排序的过滤策略。我们在NTCIR-9的中英数据上进行了验证实验,结果显示,当短语表的规模下降到原来的47%时,翻译质量的BLEU值提高了0.000 5;当短语表的规模下降到原来的30%时,BLEU值仅下降0.000 6。实验结果表明,在大规模短语表的过滤中,该文的方法是有效可行的。 展开更多
关键词 基于短语的统计机器翻译 短语表过滤 虚拟上下文
下载PDF
2005统计机器翻译研讨班研究报告 被引量:10
9
作者 徐波 史晓东 +11 位作者 刘群 宗成庆 庞薇 陈振标 杨振东 魏玮 杜金华 陈毅东 刘洋 熊德意 侯宏旭 何中军 《中文信息学报》 CSCD 北大核心 2006年第5期1-9,共9页
2005年7月13日至15日,中国科学院自动化研究所、计算技术研究所和厦门大学计算机系联合举办了我国首届统计机器翻译研讨班。本文主要介绍本次研讨班参加单位的测试系统和实验结果,并给出相应的分析。测试结果表明,我国的统计机器翻译研... 2005年7月13日至15日,中国科学院自动化研究所、计算技术研究所和厦门大学计算机系联合举办了我国首届统计机器翻译研讨班。本文主要介绍本次研讨班参加单位的测试系统和实验结果,并给出相应的分析。测试结果表明,我国的统计机器翻译研究起步虽晚,但已有快速进展,参评系统在短期内得到了较好的翻译质量,与往年参加863评测的基于规则方法的系统相比性能虽还有差距,但差距已经不大。从目前国际统计机器翻译研究的现状和发展趋势来看,随着数据资源规模的不断扩大和计算机性能的迅速提高,统计机器翻译还有很大的发展空间。在未来几年内,在基于短语的主流统计翻译方法中融入句法、语义信息,必将成为机器翻译发展的趋势。 展开更多
关键词 人工智能 机器翻译 统计机器翻译 基于短语的翻译模型 机器翻译评测
下载PDF
统计机器翻译和翻译记忆的动态融合方法研究 被引量:6
10
作者 汪昆 宗成庆 苏克毅 《中文信息学报》 CSCD 北大核心 2015年第2期87-94,102,共9页
在融合翻译记忆和统计机器翻译的整合式模型的基础上,该文提出在解码过程中进一步地动态加入翻译记忆中新发现的短语对。它在机器翻译解码过程中,动态地加入翻译记忆片段作为候选,并利用翻译记忆的相关信息,指导基于短语的翻译模型进行... 在融合翻译记忆和统计机器翻译的整合式模型的基础上,该文提出在解码过程中进一步地动态加入翻译记忆中新发现的短语对。它在机器翻译解码过程中,动态地加入翻译记忆片段作为候选,并利用翻译记忆的相关信息,指导基于短语的翻译模型进行解码。实验结果表明该方法显著提高了翻译质量:与翻译记忆系统相比,该方法提高了21.15个BLEU值,降低了21.47个TER值;与基于短语的翻译系统相比,该方法提高了5.16个BLEU值,降低了4.05个TER值。 展开更多
关键词 统计机器翻译 基于短语的翻译模型 翻译记忆 模型融合 动态加入翻译记忆短语
下载PDF
快速混合Web文档聚类 被引量:3
11
作者 杨瑞龙 朱庆生 谢洪涛 《计算机工程与应用》 CSCD 北大核心 2010年第22期12-15,共4页
提出了一种使用后缀树聚类算法优化K-means文档聚类初始值的快速混合聚类方法STK-means。该方法首先构建文档集的后缀树模型,使用后缀树聚类算法识别初始聚类、提取K-means聚类算法初始值中心值。然后,把后缀树模型的节点映射到M维向量... 提出了一种使用后缀树聚类算法优化K-means文档聚类初始值的快速混合聚类方法STK-means。该方法首先构建文档集的后缀树模型,使用后缀树聚类算法识别初始聚类、提取K-means聚类算法初始值中心值。然后,把后缀树模型的节点映射到M维向量空间模型中的特征项,利用TF-IDF方案计算基于短语的文档向量特征值。最后,使用K-means算法产生聚类结果。实验结果表明该方法优于传统K-means聚类算法和后缀树聚类算法,并具备了这些算法聚类速度快的优点。 展开更多
关键词 聚类算法 K-MEANS算法 后缀树 WEB文档聚类 基于短语的相似度
下载PDF
神经网络语言模型在统计机器翻译中的应用 被引量:11
12
作者 张家俊 宗成庆 《情报工程》 2017年第3期21-28,共8页
近两年来,神经机器翻译(Neural Machine Translation,NMT)模型主导了机器翻译的研究,但是统计机器翻译(Statistical Machine Translation,SMT)在很多应用场合(尤其是专业领域)仍有较强的竞争力。如何利用深度学习技术提升现有统计机器... 近两年来,神经机器翻译(Neural Machine Translation,NMT)模型主导了机器翻译的研究,但是统计机器翻译(Statistical Machine Translation,SMT)在很多应用场合(尤其是专业领域)仍有较强的竞争力。如何利用深度学习技术提升现有统计机器翻译的水平成为研究者们关注的主要问题。由于语言模型是统计机器翻译中最核心的模块之一,本文主要从语言模型的角度入手,探索神经网络语言模型在统计机器翻译中的应用。本文分别探讨了基于词和基于短语的神经网络语言模型,在汉语到英语和汉语到日语的翻译实验表明神经网络语言模型能够显著改善统计机器翻译的译文质量。 展开更多
关键词 统计机器翻译 神经网络语言模型 基于词的语言模型 基于短语的语言模型
下载PDF
一种基于统计和模板的双层翻译研究
13
作者 张贯虹 高玲玲 《电脑知识与技术》 2008年第11Z期1247-1249,共3页
为了提高翻译系统的翻译准确率,在短语基础上结合模板的方法自动抽取模板结构;解码时,首先进行模板匹配,套用模板结构进行翻译,然后再按照Beam Search搜索算法进行后续翻译。因此,该方法可以有效地解决单一的统计翻译中语序错误。以汉... 为了提高翻译系统的翻译准确率,在短语基础上结合模板的方法自动抽取模板结构;解码时,首先进行模板匹配,套用模板结构进行翻译,然后再按照Beam Search搜索算法进行后续翻译。因此,该方法可以有效地解决单一的统计翻译中语序错误。以汉蒙翻译为例,实验结果显示此方法可以有效地提高翻译效果,翻译效率比基于短语的统计翻译方法提高10%。 展开更多
关键词 基于短语的统计机器翻译 模板抽取 短语模型 语言模型 翻译模型
下载PDF
汉语语言模型的规模对统计机器翻译系统的影响 被引量:1
14
作者 王韦华 徐波 《微计算机信息》 2010年第27期108-109,共2页
本文专门研究了汉语语言模型的规模大小,语法元数在英汉统计机器翻译系统中的影响。实验表明,对于同样的语言模型,基于层次短语的翻译系统明显比基于短语的翻译系统性能要好。对于不同的语言模型,它的元数和规模对翻译的结果有较大的影... 本文专门研究了汉语语言模型的规模大小,语法元数在英汉统计机器翻译系统中的影响。实验表明,对于同样的语言模型,基于层次短语的翻译系统明显比基于短语的翻译系统性能要好。对于不同的语言模型,它的元数和规模对翻译的结果有较大的影响,但不一定元数或者规模越大,所得到结果就越好。 展开更多
关键词 N元语法 语言模型 基于短语的统计机器翻译系统 层次短语
下载PDF
人机互助的交互式口语翻译方法
15
作者 刘鹏 宗成庆 《中文信息学报》 CSCD 北大核心 2009年第3期58-64,共7页
基于短语的统计翻译模型是目前机器翻译领域广泛使用的模型之一。但是,由于在解码时采用短语精确匹配的策略,造成了严重的数据稀疏问题,短语表中的大量短语无法得到充分利用。为此,该文提出了人机互助的交互式翻译方法。对于翻译短语表... 基于短语的统计翻译模型是目前机器翻译领域广泛使用的模型之一。但是,由于在解码时采用短语精确匹配的策略,造成了严重的数据稀疏问题,短语表中的大量短语无法得到充分利用。为此,该文提出了人机互助的交互式翻译方法。对于翻译短语表中找不到的短语,首先通过模糊匹配的方法,在短语表中寻找与其相似的短语。然后利用组合分类器,判断哪些相似短语可能提高句子的翻译质量。最后,通过人机交互的方法,选择可能提高翻译质量且保持原句语义的短语。在口语语料上的实验结果证明,这种方法可以有效地提高翻译系统的译文质量。 展开更多
关键词 人工智能 机器翻译 口语翻译 基于短语的统计机器翻译 人机交互 模糊匹配
下载PDF
研究汉语语言模型的规模对统计机器翻译系统的影响
16
作者 刘林 付琦 武丽萍 《电脑知识与技术(过刊)》 2016年第12X期198-199,共2页
文章主要针对汉语语言模型规模大小的具体情况以及语法元数在英汉统计机器翻译系统的影响进行研究分析。在研究过程中,主要是通过相应的模型进行实验,通过相应的研究分析,最终表明层次短语的翻译系统的翻译效果明显高于基于短语的翻译系... 文章主要针对汉语语言模型规模大小的具体情况以及语法元数在英汉统计机器翻译系统的影响进行研究分析。在研究过程中,主要是通过相应的模型进行实验,通过相应的研究分析,最终表明层次短语的翻译系统的翻译效果明显高于基于短语的翻译系统,对于不同语言的模型来说,其元数以及规模对具体的翻译效果都具有很大的影响。 展开更多
关键词 语言模型 基于短语的统计机器翻译系统 层次短语
下载PDF
Improving Phrase-Based Statistical Machine Translation Models by Incorporating Syntax-Based Language Models
17
作者 陈毅东 史晓东 《Journal of Donghua University(English Edition)》 EI CAS 2010年第2期185-188,共4页
This paper proposed a method to incorporate syntax-based language models in phrase-based statistical machine translation (SMT) systems. The syntax-based language model used in this paper is based on link grammar,which... This paper proposed a method to incorporate syntax-based language models in phrase-based statistical machine translation (SMT) systems. The syntax-based language model used in this paper is based on link grammar,which is a high lexical formalism. In order to apply language models based on link grammar in phrase-based models,the concept of linked phrases,an extension of the concept of traditional phrases in phrase-based models was brought out. Experiments were conducted and the results showed that the use of syntax-based language models could improve the performance of the phrase-based models greatly. 展开更多
关键词 statistical machine translation phrase-based translation models syntax-based language models linkage grammar
下载PDF
机器翻译研究新进展 被引量:42
18
作者 刘群 《当代语言学》 CSSCI 北大核心 2009年第2期147-158,共12页
本文介绍近年来国际机器翻译研究领域取得的一些进展,着重介绍统计机器翻译方面取得的进展。具体包括:统计机器翻译的原理和特点、统计机器翻译的发展历程和现状、基于词的统计机器翻译方法、基于短语的统计机器翻译方法、基于句法的统... 本文介绍近年来国际机器翻译研究领域取得的一些进展,着重介绍统计机器翻译方面取得的进展。具体包括:统计机器翻译的原理和特点、统计机器翻译的发展历程和现状、基于词的统计机器翻译方法、基于短语的统计机器翻译方法、基于句法的统计机器翻译方法等。最后对机器翻译研究今后的发展进行了讨论和展望。 展开更多
关键词 统计机器翻译 基于词的方法 基于短语的方法 基于句法的方法
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部