期刊文献+
共找到181篇文章
< 1 2 10 >
每页显示 20 50 100
Korean Morphological Analysis for Korean-Vietnamese Statistical Machine Translation
1
作者 Quang-Phuoc Nguyen Joon-Choul Shin Cheol-Young Ock 《Journal of Electronic Science and Technology》 CAS CSCD 2017年第4期413-419,共7页
This paper describes the experiments with Korean-to-Vietnamese statistical machine translation(SMT). The fact that Korean is a morphologically complex language that does not have clear optimal word boundaries causes a... This paper describes the experiments with Korean-to-Vietnamese statistical machine translation(SMT). The fact that Korean is a morphologically complex language that does not have clear optimal word boundaries causes a major problem of translating into or from Korean. To solve this problem, we present a method to conduct a Korean morphological analysis by using a pre-analyzed partial word-phrase dictionary(PWD).Besides, we build a Korean-Vietnamese parallel corpus for training SMT models by collecting text from multilingual magazines. Then, we apply such a morphology analysis to Korean sentences that are included in the collected parallel corpus as a preprocessing step. The experiment results demonstrate a remarkable improvement of Korean-to-Vietnamese translation quality in term of bi-lingual evaluation understudy(BLEU). 展开更多
关键词 Factored translation models Korean-Vietnamese parallel corpus morphological analysis statistical machine translation(smt)
下载PDF
Graph-based Lexicalized Reordering Models for Statistical Machine Translation
2
作者 SU Jinsong LIU Yang +1 位作者 LIU Qun DONG Huailin 《China Communications》 SCIE CSCD 2014年第5期71-82,共12页
Lexicalized reordering models are very important components of phrasebased translation systems.By examining the reordering relationships between adjacent phrases,conventional methods learn these models from the word a... Lexicalized reordering models are very important components of phrasebased translation systems.By examining the reordering relationships between adjacent phrases,conventional methods learn these models from the word aligned bilingual corpus,while ignoring the effect of the number of adjacent bilingual phrases.In this paper,we propose a method to take the number of adjacent phrases into account for better estimation of reordering models.Instead of just checking whether there is one phrase adjacent to a given phrase,our method firstly uses a compact structure named reordering graph to represent all phrase segmentations of a parallel sentence,then the effect of the adjacent phrase number can be quantified in a forward-backward fashion,and finally incorporated into the estimation of reordering models.Experimental results on the NIST Chinese-English and WMT French-Spanish data sets show that our approach significantly outperforms the baseline method. 展开更多
关键词 排序模型 统计机器翻译 词汇 图形 组成部分 翻译系统 NIST 短语
下载PDF
Improving Phrase-Based Statistical Machine Translation Models by Incorporating Syntax-Based Language Models
3
作者 陈毅东 史晓东 《Journal of Donghua University(English Edition)》 EI CAS 2010年第2期185-188,共4页
This paper proposed a method to incorporate syntax-based language models in phrase-based statistical machine translation (SMT) systems. The syntax-based language model used in this paper is based on link grammar,which... This paper proposed a method to incorporate syntax-based language models in phrase-based statistical machine translation (SMT) systems. The syntax-based language model used in this paper is based on link grammar,which is a high lexical formalism. In order to apply language models based on link grammar in phrase-based models,the concept of linked phrases,an extension of the concept of traditional phrases in phrase-based models was brought out. Experiments were conducted and the results showed that the use of syntax-based language models could improve the performance of the phrase-based models greatly. 展开更多
关键词 统计机器翻译 基于短语的翻译当模特儿 基于句法的语言当模特儿 连接语法
下载PDF
RM-structure alignment based statistical machine translation model
4
作者 孙加东 Zhao Tiejun 《High Technology Letters》 EI CAS 2008年第3期271-275,共5页
A novel model based on structure alignments is proposed for statistical machine translation in thispaper.Meta-stnlcture and sequence of meta-structure for a parse tree are defined.During the translationprocess,a parse... A novel model based on structure alignments is proposed for statistical machine translation in thispaper.Meta-stnlcture and sequence of meta-structure for a parse tree are defined.During the translationprocess,a parse tree is decomposed to deal with the structure divergence and the alignments can be con-stmcted at different levels of recombination of meta-structure(RM).This method can perform the struc-ture mapping across the sub-tree structure between languages.As a result,we get not only the translationfor the target language,but sequence of meta-structure of its parse tree at the same time.Experimentsshow that the model in the framework of log-linear model has better generative ability and significantlyoutperforms Pharaoh,a phrase-based system. 展开更多
关键词 计算机翻译 线性语言模型 机器翻译 统计模型
下载PDF
Understanding and improving online statistical translation method
5
作者 CHENG Shui-ying 《Sino-US English Teaching》 2008年第9期38-44,共7页
关键词 在线翻译法 英语 翻译方法 学习方法
下载PDF
Research on high-performance English translation based on topic model
6
作者 Yumin Shen Hongyu Guo 《Digital Communications and Networks》 SCIE CSCD 2023年第2期505-511,共7页
Retelling extraction is an important branch of Natural Language Processing(NLP),and high-quality retelling resources are very helpful to improve the performance of machine translation.However,traditional methods based... Retelling extraction is an important branch of Natural Language Processing(NLP),and high-quality retelling resources are very helpful to improve the performance of machine translation.However,traditional methods based on the bilingual parallel corpus often ignore the document background in the process of retelling acquisition and application.In order to solve this problem,we introduce topic model information into the translation mode and propose a topic-based statistical machine translation method to improve the translation performance.In this method,Probabilistic Latent Semantic Analysis(PLSA)is used to obtains the co-occurrence relationship between words and documents by the hybrid matrix decomposition.Then we design a decoder to simplify the decoding process.Experiments show that the proposed method can effectively improve the accuracy of translation. 展开更多
关键词 machine translation Topic model statistical machine translation Bilingual word vector RETELLING
下载PDF
A Substitution-Translation-Restoration Framework for Handling Unknown Words in Statistical Machine Translation 被引量:2
7
作者 张家俊 翟飞飞 宗成庆 《Journal of Computer Science & Technology》 SCIE EI CSCD 2013年第5期907-918,共12页
Unknown words are one of the key factors that greatly affect the translation quality. Traditionally, nearly all the related researches focus on obtaining the translation of the unknown words. However, these approaches... Unknown words are one of the key factors that greatly affect the translation quality. Traditionally, nearly all the related researches focus on obtaining the translation of the unknown words. However, these approaches have two disadvantages. On the one hand, they usually rely on many additional resources such as bilingual web data; on the other hand, they cannot guarantee good reordering and lexical selection of surrounding words. This paper gives a new perspective on handling unknown words in statistical machine translation (SMT). Instead of making great efforts to find the translation of unknown words, we focus on determining the semantic function of the unknown word in the test sentence and keeping the semantic function unchanged in the translation process. In this way, unknown words can help the phrase reordering and lexical selection of their surrounding words even though they still remain untranslated. In order to determine the semantic function of an unknown word, we employ the distributional semantic model and the bidirectional language model. Extensive experiments on both phrase-based and linguistically syntax-based SMT models in Chinese-to-English translation show that our method can substantially improve the translation quality. 展开更多
关键词 statistical machine translation distributional semantics bidirectional language model
原文传递
Topic-aware pivot language approach for statistical machine translation
8
作者 Jin-song SU Xiao-dong SHI +4 位作者 Yan-zhou HUANG Yang LIU Qing-qiang WU Yi-dong CHEN Huai-lin DONG 《Journal of Zhejiang University-Science C(Computers and Electronics)》 SCIE EI 2014年第4期241-253,共13页
The pivot language approach for statistical machine translation(SMT) is a good method to break the resource bottleneck for certain language pairs. However, in the implementation of conventional approaches, pivotside c... The pivot language approach for statistical machine translation(SMT) is a good method to break the resource bottleneck for certain language pairs. However, in the implementation of conventional approaches, pivotside context information is far from fully utilized, resulting in erroneous estimations of translation probabilities. In this study, we propose two topic-aware pivot language approaches to use different levels of pivot-side context. The first method takes advantage of document-level context by assuming that the bridged phrase pairs should be similar in the document-level topic distributions. The second method focuses on the effect of local context. Central to this approach are that the phrase sense can be reflected by local context in the form of probabilistic topics, and that bridged phrase pairs should be compatible in the latent sense distributions. Then, we build an interpolated model bringing the above methods together to further enhance the system performance. Experimental results on French-Spanish and French-German translations using English as the pivot language demonstrate the effectiveness of topic-based context in pivot-based SMT. 展开更多
关键词 Natural language processing Pivot-based statistical machine translation Topical context information
原文传递
基于中心/修饰依存重排序模型的短语SMT 被引量:1
9
作者 刘水 李生 +1 位作者 赵铁军 刘鹏远 《软件学报》 EI CSCD 北大核心 2012年第5期1120-1131,共12页
为了提高基于短语的机器翻译系统的重排序能力,提出了一个基于源语言端的中心-修饰依存结构的重排序模型,并将该重排序模型以软约束的方式加入到机器翻译系统中.该排序模型提出了一种在机器翻译中应用句法树资源的方法,将句法树结构,通... 为了提高基于短语的机器翻译系统的重排序能力,提出了一个基于源语言端的中心-修饰依存结构的重排序模型,并将该重排序模型以软约束的方式加入到机器翻译系统中.该排序模型提出了一种在机器翻译中应用句法树资源的方法,将句法树结构,通过将句法树映射成中心-修饰词的依存关系集合.该重排序模型在基于短语系统的默认参数设置下,显著地提升了系统的翻译质量.在系统原有的词汇化的重排序模型基础上,该重排序模型在翻译模型中融入了句法信息.实验结果显示,该模型可以明显地改善机器翻译系统的局部调序. 展开更多
关键词 短语机器翻译 重排序模型 中心修饰依存关系 无词汇化
下载PDF
维吾尔语机器翻译研究综述
10
作者 哈里旦木·阿布都克里木 侯钰涛 +2 位作者 姚登峰 阿布都克力木·阿布力孜 陈吉尚 《计算机工程》 CSCD 北大核心 2024年第1期1-16,共16页
维吾尔语机器翻译作为我国低资源机器翻译研究的重要任务之一,其发展与应用可以更好地促进不同地区和民族之间的文化交流与贸易往来。然而,维吾尔语作为一种黏着性语言,在机器翻译领域存在形态复杂、语料稀缺等问题。近年来,在维吾尔语... 维吾尔语机器翻译作为我国低资源机器翻译研究的重要任务之一,其发展与应用可以更好地促进不同地区和民族之间的文化交流与贸易往来。然而,维吾尔语作为一种黏着性语言,在机器翻译领域存在形态复杂、语料稀缺等问题。近年来,在维吾尔语机器翻译发展的不同阶段,研究人员针对其特点在算法和模型上不断优化与创新,取得了一定的研究成果,但缺乏系统性的综述。全面回顾维吾尔语机器翻译的相关研究,并根据方法的不同将其分为基于规则和实例的维吾尔语机器翻译、基于统计的维吾尔语机器翻译以及基于神经网络的维吾尔语机器翻译3种类型,同时对相关学术活动和语料库资源进行汇总。为进一步探索维吾尔语机器翻译的潜力,采用ChatGPT模型对维吾尔语-汉语机器翻译任务进行初步研究,实验结果表明,在Few-shot情景下,随着示例数的增加,翻译性能先升后降,在10-shot时表现最佳。此外,思维链方法在维吾尔语机器翻译任务中并未展示出更优的翻译能力。最后对维吾尔语机器翻译未来的研究方向进行了展望。 展开更多
关键词 维吾尔语 基于规则和实例的机器翻译 统计机器翻译 神经机器翻译 大语言模型
下载PDF
特定句法增强的SMT调序模型
11
作者 杜金华 张喜媛 《西安理工大学学报》 CAS 北大核心 2015年第3期277-281,共5页
面向基于短语的汉英统计机器翻译,提出了一种基于特定句法(汉语"的"结构)增强的调序方法,该方法首先在词对齐和源端词性(POS)信息的约束下抽取基本调序规则,然后根据中文端特定句法结构—"的"字结构,将抽取的基本... 面向基于短语的汉英统计机器翻译,提出了一种基于特定句法(汉语"的"结构)增强的调序方法,该方法首先在词对齐和源端词性(POS)信息的约束下抽取基本调序规则,然后根据中文端特定句法结构—"的"字结构,将抽取的基本规则自动分类为"调序倾向性强"和"调序倾向性弱"两类,最后采用不同的优化和剪枝策略对两类规则进行处理,得到最终的源语言端调序规则集合。在NIST汉英数据集上的实验表明,相对于基线系统,本文所提方法在NIST MT2005测试集上显著提高了0.69BLEU值。 展开更多
关键词 统计机器翻译 特定句法结构 “的”结构 POS调序模型
下载PDF
基于分析和生成的复述与SMT语料扩展 被引量:3
12
作者 和为 刘挺 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2013年第5期45-50,共6页
为了解决统计机器翻译语料对调序现象覆盖不足的问题,采用复述方法对语料进行扩展.提出了一种基于依存分析和句子生成的复述方法.对句子进行依存分析得到依存树,然后从依存树生成多个自然语言句子.生成的句子与原句相比没有词汇上的改变... 为了解决统计机器翻译语料对调序现象覆盖不足的问题,采用复述方法对语料进行扩展.提出了一种基于依存分析和句子生成的复述方法.对句子进行依存分析得到依存树,然后从依存树生成多个自然语言句子.生成的句子与原句相比没有词汇上的改变,但可以在词序方面进行变换.实验表明方法在不引入额外资源的前提下,有效缓解了语料覆盖不足的问题,提高了机器翻译质量. 展开更多
关键词 复述 统计机器翻译 依存分析 句子生成
下载PDF
交互式机器翻译综述 被引量:1
13
作者 廖兴滨 秦小林 +1 位作者 张思齐 钱杨舸 《计算机应用》 CSCD 北大核心 2023年第2期329-334,共6页
随着深度学习的发展和成熟,神经机器翻译的质量也越来越高,然而仍不完美,为了达到可接受的翻译效果,需要人工进行后期编辑。交互式机器翻译(IMT)是这种串行工作的一个替代,即在翻译过程中进行人工互动,由用户对翻译系统产生的候选翻译... 随着深度学习的发展和成熟,神经机器翻译的质量也越来越高,然而仍不完美,为了达到可接受的翻译效果,需要人工进行后期编辑。交互式机器翻译(IMT)是这种串行工作的一个替代,即在翻译过程中进行人工互动,由用户对翻译系统产生的候选翻译进行验证,并且,如有必要,由用户提供新的输入,系统根据用户当前的反馈生成新的候选译文,如此往复,直到产生一个使用户满意的输出。首先,介绍了IMT的基本概念以及当前的研究进展;然后,分类对一些常用方法和前沿工作加以介绍,并简述每个工作的背景和创新之处;最后,探讨了IMT的发展趋势和研究难点。 展开更多
关键词 机器翻译 交互式机器翻译 交互式统计机器翻译 交互式神经机器翻译 强化学习 自然语言处理
下载PDF
面向医药领域的深层语义解析
14
作者 陈敏隽 《计算机应用文摘》 2023年第21期75-77,共3页
基于医药领域中文文本的解析难点,文章提出了一种面向中文医药领域的深层语义解析模型DSACM,该模型可将中文医药文本翻译为相应的意义,并将其视为一个机器翻译过程。具体而言,该模型通过统计词对齐模型获取双语词典,词典中包含自然语言... 基于医药领域中文文本的解析难点,文章提出了一种面向中文医药领域的深层语义解析模型DSACM,该模型可将中文医药文本翻译为相应的意义,并将其视为一个机器翻译过程。具体而言,该模型通过统计词对齐模型获取双语词典,词典中包含自然语言字符串及其对应的MRL表示。文章用函数式查询语言(Med-FunQL)构造了可用于评测深层语义解析模型的性能的数据集(MEDQUARY),同时融入了美国国家地理数据库(GEOQUERY),为中文医药领域的研究提供了中文评测数据集。实验结果表明,文章提出的方法在数据集MEDQUERY中的实验结果准确率为80.4%,召回率为62.3%,F1值为70.8%;在中文版GEOQUERY中的实验结果准确率为71.9%,召回率为56.4%,F1值为62.1%,以上数据说明该统计机器翻译技术可被用于医药领域的中文语义解析。 展开更多
关键词 统计机器翻译 医药领域 深层语义解析
下载PDF
基于句法的统计机器翻译综述 被引量:13
15
作者 熊德意 刘群 林守勋 《中文信息学报》 CSCD 北大核心 2008年第2期28-39,共12页
本文对基于句法的统计机器翻译进行了综述。按照模型所基于的语法不同,将基于句法的统计机器翻译分为两大类:基于形式化语法和基于语言学语法。对这两个不同类别,我们分别介绍它们代表性的工作,包括模型的构建、训练和解码器的设计等,... 本文对基于句法的统计机器翻译进行了综述。按照模型所基于的语法不同,将基于句法的统计机器翻译分为两大类:基于形式化语法和基于语言学语法。对这两个不同类别,我们分别介绍它们代表性的工作,包括模型的构建、训练和解码器的设计等,并对比了各个模型的优点和缺点。最后我们对基于句法的统计机器翻译进行了总结,指出设计句法模型时要注意的问题,并对未来的发展趋势进行了预测。 展开更多
关键词 人工智能 机器翻译 统计机器翻译 基于句法的统计机器翻译 树到串 树到树 依存语法
下载PDF
2005统计机器翻译研讨班研究报告 被引量:10
16
作者 徐波 史晓东 +11 位作者 刘群 宗成庆 庞薇 陈振标 杨振东 魏玮 杜金华 陈毅东 刘洋 熊德意 侯宏旭 何中军 《中文信息学报》 CSCD 北大核心 2006年第5期1-9,共9页
2005年7月13日至15日,中国科学院自动化研究所、计算技术研究所和厦门大学计算机系联合举办了我国首届统计机器翻译研讨班。本文主要介绍本次研讨班参加单位的测试系统和实验结果,并给出相应的分析。测试结果表明,我国的统计机器翻译研... 2005年7月13日至15日,中国科学院自动化研究所、计算技术研究所和厦门大学计算机系联合举办了我国首届统计机器翻译研讨班。本文主要介绍本次研讨班参加单位的测试系统和实验结果,并给出相应的分析。测试结果表明,我国的统计机器翻译研究起步虽晚,但已有快速进展,参评系统在短期内得到了较好的翻译质量,与往年参加863评测的基于规则方法的系统相比性能虽还有差距,但差距已经不大。从目前国际统计机器翻译研究的现状和发展趋势来看,随着数据资源规模的不断扩大和计算机性能的迅速提高,统计机器翻译还有很大的发展空间。在未来几年内,在基于短语的主流统计翻译方法中融入句法、语义信息,必将成为机器翻译发展的趋势。 展开更多
关键词 人工智能 机器翻译 统计机器翻译 基于短语的翻译模型 机器翻译评测
下载PDF
基于主题模型和统计机器翻译方法的中文格律诗自动生成 被引量:15
17
作者 蒋锐滢 崔磊 +2 位作者 何晶 周明 潘志庚 《计算机学报》 EI CSCD 北大核心 2015年第12期2426-2436,共11页
文中针对格律诗自动生成进行了研究.首先根据创作者提交的若干关键词,利用主题模型进行扩展得到更多的主题相关词,然后通过语言模型自动生成首句.在此基础上通过统计机器翻译的方法生成后续句.在生成过程中,利用主题模型进行诗词的意境... 文中针对格律诗自动生成进行了研究.首先根据创作者提交的若干关键词,利用主题模型进行扩展得到更多的主题相关词,然后通过语言模型自动生成首句.在此基础上通过统计机器翻译的方法生成后续句.在生成过程中,利用主题模型进行诗词的意境扩展,从而得到更加丰富的句子候选.该研究的主要特点和贡献是:首先提出以统计机器翻译为理论基础,将格律诗的上下句关系映射为统计翻译模型中源语言与目标语言的关系,设计了融入诗词领域知识的统计机器翻译模型.其次主题模型用来在生成过程中进行词汇集扩展,从而加强了诗词的主题及意境.另外文中还论述了基于BLEU的诗句生成的自动评测方法,并配合所设计的人工评价标准,形成了比较完备的诗词评价体系.实验结果证实了该方法的有效性. 展开更多
关键词 律诗生成 主题模型 统计机器翻译 自动评测
下载PDF
一种面向汉英口语翻译的双语语块处理方法 被引量:7
18
作者 程葳 赵军 +1 位作者 徐波 刘非凡 《中文信息学报》 CSCD 北大核心 2003年第2期21-27,共7页
基于语块的处理方法是近年来自然语言处理领域兴起的一条新思路。但是 ,要将其应用于口语翻译当中 ,还需按照口语特点对涉及双语的语块概念做出合理界定。本文在已有单语语块定义的基础上 ,根据中、英文差异和口语翻译特性 ,从句法和语... 基于语块的处理方法是近年来自然语言处理领域兴起的一条新思路。但是 ,要将其应用于口语翻译当中 ,还需按照口语特点对涉及双语的语块概念做出合理界定。本文在已有单语语块定义的基础上 ,根据中、英文差异和口语翻译特性 ,从句法和语义两个层次提出了一种汉英双语语块概念 ,并对其特点进行了分析。同时 ,针对中、英文并行语料库 ,建立了一套计算机自动划分与人工校对相结合的双语语块加工方法。应用该方法 ,对汉英句子级对齐的口语语料进行双语语块划分和对整 ,并以此为基础进行了基于双语语块的口语统计机器翻译实验。结果表明 ,本文提出的双语语块定义符合口语翻译的实际需要 ,使用基于双语语块的语料处理方法 。 展开更多
关键词 人工智能 机器翻译 统计机器翻译 口语翻译 语料库 语块
下载PDF
汉语-盲文机器翻译系统的研究与实现 被引量:6
19
作者 李宏乔 樊孝忠 +1 位作者 李良富 杨峰 《计算机应用》 CSCD 北大核心 2002年第11期3-6,共4页
对汉语 -盲文 (简称汉盲 )翻译的原理进行了研究 ,提出了一个盲文形式模型和汉语 -盲文机器翻译的方法 :采用基于词频和词分级加权评估的逆向全切分算法进行分词 ,采用规则和统计相结合的方法进行词性标注和连写块识别 ,并在此基础上设... 对汉语 -盲文 (简称汉盲 )翻译的原理进行了研究 ,提出了一个盲文形式模型和汉语 -盲文机器翻译的方法 :采用基于词频和词分级加权评估的逆向全切分算法进行分词 ,采用规则和统计相结合的方法进行词性标注和连写块识别 ,并在此基础上设计开发了一个实用的汉语 -盲文机器翻译系统。 展开更多
关键词 汉语-盲文机器翻译系统 盲文 汉语 规则 汉字信息处理 计算机
下载PDF
汉蒙统计机器翻译中的形态学方法研究 被引量:10
20
作者 杨攀 张建 +2 位作者 李淼 乌达巴拉 雪艳 《中文信息学报》 CSCD 北大核心 2009年第1期50-57,共8页
该文将形态学方法引入到汉蒙统计机器翻译的研究中,尝试解决译文词形选择及语序混乱问题。首先介绍语料库的准备:对原始汉蒙平行语料库进行词法分析及标注,得到两组基础语料库,再由基础语料库生成两组用于形态学实验的派生语料库。其次... 该文将形态学方法引入到汉蒙统计机器翻译的研究中,尝试解决译文词形选择及语序混乱问题。首先介绍语料库的准备:对原始汉蒙平行语料库进行词法分析及标注,得到两组基础语料库,再由基础语料库生成两组用于形态学实验的派生语料库。其次阐述统计模型的训练,包括语言模型、翻译模型及生成模型。同时讨论了解码的扩展问题。最后重点分析两组形态学方法实验:词素模型实验和factored方法实验。结果表明,相对于基线(baseline)实验,引入形态学方法后两组实验的BLEU评分均有所提高,译文词形选择及语序混乱问题得到了一定程度的解决。 展开更多
关键词 计算机应用 中文信息处理 形态学 统计机器翻译 语料库 统计模型 解码
下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部