期刊文献+
共找到55篇文章
< 1 2 3 >
每页显示 20 50 100
Improving Parallel Corpus Quality for Chinese-Vietnamese Statistical Machine Translation
1
作者 Huu-anh Tran Yuhang Guo +2 位作者 Ping Jian Shumin Shi Heyan Huang 《Journal of Beijing Institute of Technology》 EI CAS 2018年第1期127-136,共10页
The performance of a machine translation system heavily depends on the quantity and quality of the bilingual language resource. However,getting a parallel corpus,which has a large scale and is of high quality,is a ver... The performance of a machine translation system heavily depends on the quantity and quality of the bilingual language resource. However,getting a parallel corpus,which has a large scale and is of high quality,is a very difficult task especially for low resource languages such as Chinese-Vietnamese. Fortunately,multilingual user generated contents( UGC),such as bilingual movie subtitles,provide us access to automatic construction of the parallel corpus. Although the amount of UGC parallel corpora can be considerable,the original corpus is not suitable for statistical machine translation( SMT) systems. The corpus may contain translation errors,sentence mismatching,free translations,etc. To improve the quality of the bilingual corpus for SMT systems,three filtering methods are proposed: sentence length difference,the semantic of sentence pairs,and machine learning. Experiments are conducted on the Chinese to Vietnamese translation corpus.Experimental results demonstrate that all the three methods effectively improve the corpus quality,and the machine translation performance( BLEU score) can be improved by 1. 32. 展开更多
关键词 parallel corpus filtering low resource languages bilingual movie subtitles machine translation chinese-Vietnamese translation
下载PDF
Integrating Pronunciation into Chinese-Vietnamese Statistical Machine Translation 被引量:2
2
作者 Anh Tran Huu Heyan Huang +2 位作者 Yuhang Guo Shumin Shi Ping Jian 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2018年第6期715-723,共9页
Statistical machine translation for low-resource language suffers from the lack of abundant training corpora. Several methods, such as the use of a pivot language, have been proposed as a bridge to translate from one ... Statistical machine translation for low-resource language suffers from the lack of abundant training corpora. Several methods, such as the use of a pivot language, have been proposed as a bridge to translate from one language to another. However, errors will accumulate during the extensive translation pipelines. In this paper, we propose an approach to low-resource language translation by exploiting the pronunciation correlations between languages. We find that the pronunciation features can improve both Chinese-Vietnamese and Vietnamese- Chinese translation qualities. Experimental results show that our proposed model yields effective improvements, and the translation performance (bilingual evaluation understudy score) is improved by a maximum value of 1.03. 展开更多
关键词 pronunciation integration low-resource languages chinese-Vietnamese machine translation Sino-Vietnamese words
原文传递
Study on Translating Chinese into Chinese Sign Language 被引量:1
3
作者 徐琳 高文 《Journal of Computer Science & Technology》 SCIE EI CSCD 2000年第5期485-490,共6页
Sign language is a visual-gestural language mainly used by hearingimpaired people to communicate with each other. Gesture and facial expression are important grammar parts of sign language. In this paper, a text-base... Sign language is a visual-gestural language mainly used by hearingimpaired people to communicate with each other. Gesture and facial expression are important grammar parts of sign language. In this paper, a text-based transformation method of Chinese-Chinese sign language machine translation is proposed. Gesture and facial expression models are created. And a practical system is implemented. The input of the system is Chinese text. The output of the system is 'graphics person' who can gesticulate Chinese sign language accompanied by facial expression that corresponds to the Chinese text entered so as to realize automatic translation from Chinese text to Chinese sign language. 展开更多
关键词 machine translation chinese chinese sign language RULE
原文传递
低资源场景下印尼语-汉语机器翻译模型对比分析研究 被引量:8
4
作者 李霞 马骏腾 +1 位作者 肖莉娴 王连喜 《湖南工业大学学报》 2020年第3期10-16,共7页
低资源场景下神经机器翻译模型的翻译效果通常不如大规模训练数据下的模型翻译效果好。针对这个问题,选取RNN-based和Transformer-based两个主流神经机器翻译模型进行研究,探究在印尼语到汉语翻译在低资源场景下的机器翻译效果,并通过... 低资源场景下神经机器翻译模型的翻译效果通常不如大规模训练数据下的模型翻译效果好。针对这个问题,选取RNN-based和Transformer-based两个主流神经机器翻译模型进行研究,探究在印尼语到汉语翻译在低资源场景下的机器翻译效果,并通过实验分析和案例分析,给出两种模型在印尼语到汉语低资源场景下翻译的适应性分析。 展开更多
关键词 神经机器翻译 序列到序列翻译模型 低资源语言 印尼语-汉语 TRANSFORMER
下载PDF
基于句法结构特征的汉越神经机器翻译
5
作者 裴非非 杨舰 《信息技术》 2024年第2期15-21,共7页
在低资源神经机器翻译中,长句译文质量普遍不佳,而汉-越语言差异较大,是典型的资源匮乏型语种,对于长句的处理应尽可能保持句子语义信息不变。因此,提出一种基于句法结构特征处理长句的方法。首先,对原有语料库中长句进行句法树解析,然... 在低资源神经机器翻译中,长句译文质量普遍不佳,而汉-越语言差异较大,是典型的资源匮乏型语种,对于长句的处理应尽可能保持句子语义信息不变。因此,提出一种基于句法结构特征处理长句的方法。首先,对原有语料库中长句进行句法树解析,然后,根据句法解析树提取短句和对远离根节点的叶子节点词进行标记,最后,对提取的短句进行反向翻译生成伪平行数据作为扩充,对原有长句中标记词进行与该词语义相近词的加权组合替换训练。实验表明,该方法提高了模型性能,显著改善了长句译文质量。 展开更多
关键词 低资源神经机器翻译 长句译文 -越语言 语义信息 句法结构特征
下载PDF
维-汉统计机器翻译中维吾尔语预处理研究 被引量:3
6
作者 艾孜孜.吐尔逊 杨雅婷 +2 位作者 吐尔洪.吾司曼 周俊林 李晓 《计算机工程与设计》 CSCD 北大核心 2014年第11期4034-4039,共6页
为有效降低维-汉统计机器翻译中语料质量对翻译质量的影响,对维吾尔语文本预处理技术进行研究,结合维吾尔语文本语料的语言特征和多样性,提出基于语法规则和词法规则结合的维吾尔语文本预处理方法。在对维吾尔语文本中的语义单元、对偶... 为有效降低维-汉统计机器翻译中语料质量对翻译质量的影响,对维吾尔语文本预处理技术进行研究,结合维吾尔语文本语料的语言特征和多样性,提出基于语法规则和词法规则结合的维吾尔语文本预处理方法。在对维吾尔语文本中的语义单元、对偶词和标点符号进行特征分析的基础上,导出维吾尔语文本词例化和标点符号规范化的规则和处理流程。实验结果表明,该研究有效降低了词对齐阶段的单词数量、缓解了数据稀疏,提高了翻译质量。 展开更多
关键词 维汉机器翻译 维吾尔语 单词 词例化 标点符号
下载PDF
汉文-维吾尔文双语语料库中基于词典译文的句子对齐方法研究 被引量:4
7
作者 热西旦.塔依 吐尔根.依布拉音 《新疆大学学报(自然科学版)》 CAS 2009年第3期359-363,共5页
双语语料库的自动对齐已成为机器翻译研究中一个十分重要的研究课题.目前的句子对齐方法有基于长度的方法和基于词汇的方法,本文根据汉文-维吾尔文的特点,在分析目前双语句子对齐方法的基础上,提出了基于译文的对齐方法,通过使用一部翻... 双语语料库的自动对齐已成为机器翻译研究中一个十分重要的研究课题.目前的句子对齐方法有基于长度的方法和基于词汇的方法,本文根据汉文-维吾尔文的特点,在分析目前双语句子对齐方法的基础上,提出了基于译文的对齐方法,通过使用一部翻译较完整的词典作为桥梁,将汉维句子关联起来.根据维吾尔语文本中的单词,在词典中找到其对应的译文,并将译文到汉语句子中去匹配,根据评价函数和动态规划算法找到对齐句对. 展开更多
关键词 汉文 维吾尔文 机器翻译 句子对齐 双语语料库
下载PDF
英文文献的《中图法》分类号自动标注研究--基于文本增强与类目映射策略 被引量:2
8
作者 蒋彦廷 吴钰洁 《数字图书馆论坛》 CSSCI 2022年第5期39-46,共8页
给英文文献自动标注《中图法》分类号,能减轻图书馆与文献数据库工作人员的负担,促进跨语言知识检索与中外知识交流。面对既有的标注《中图法》分类号的英文文献数据不足的问题,本文面向预训练语言模型BERT,提出中文文献机器翻译、原始... 给英文文献自动标注《中图法》分类号,能减轻图书馆与文献数据库工作人员的负担,促进跨语言知识检索与中外知识交流。面对既有的标注《中图法》分类号的英文文献数据不足的问题,本文面向预训练语言模型BERT,提出中文文献机器翻译、原始英文文本插入标点或语法词以增强分类模型泛化能力等文本增强策略,以及《美国国会图书馆分类法》到《中图法》的类目映射策略扩充文本数据。实验表明,3种策略均能有效提高文本分类效果。通过上述策略,分类的正确率与宏F1值分别提升约6.1个百分点与7.4个百分点。最后开发并发布了一个小程序,实现给英文文献自动、批量标注《中图法》20类一级分类号的功能。 展开更多
关键词 预训练语言模型 《中国图书馆分类法》 机器翻译 文本增强 类目映射
下载PDF
计量语言学视域下的和歌汉译研究——以《小仓百人一首》为例 被引量:1
9
作者 陈玉平 焦育玲 《安康学院学报》 2023年第1期82-90,共9页
为了系统、动态、深层次地考察和歌汉译实践,本研究基于计量语言特征,采用定性与定量相结合的方法对比分析了日本经典和歌集《小仓百人一首》和它的6个汉译本在词汇、句法和语篇层面的差异,进而考察各译本的跨文化审美效果。研究发现:6... 为了系统、动态、深层次地考察和歌汉译实践,本研究基于计量语言特征,采用定性与定量相结合的方法对比分析了日本经典和歌集《小仓百人一首》和它的6个汉译本在词汇、句法和语篇层面的差异,进而考察各译本的跨文化审美效果。研究发现:6个汉译本的信息密度、内容量和文本从众性普遍大于源文本,而源文本的词汇复杂度和功能词频率大于各译本,从计量角度揭示了中日语言结构和表达习惯的显著差异,以及由此带来的加译和显化翻译等问题。加译和显译不仅降低了对原文的忠实度,也损害了和歌的审美特性和文学话语规则。因此,汉诗和译需要在充分关注中日语言表达和诗歌美学异质性的基础上探寻两者之间的最大公约数,只有如此,方能实现有效的跨文化审美欣赏。 展开更多
关键词 和歌汉译 《小仓百人一首》 机器学习算法 语言结构 文学审美
下载PDF
融合BERT与词嵌入双重表征的汉越神经机器翻译方法 被引量:1
10
作者 张迎晨 高盛祥 +2 位作者 余正涛 王振晗 毛存礼 《计算机工程与科学》 CSCD 北大核心 2023年第3期546-553,共8页
神经机器翻译是目前主流的机器翻译方法,但在汉-越这类低资源的机器翻译任务中,由于双语平行语料规模小,神经机器翻译的效果并不理想。考虑到预训练语言模型中包含丰富的语言信息,将预训练语言模型表征融入神经机器翻译系统可能对低资... 神经机器翻译是目前主流的机器翻译方法,但在汉-越这类低资源的机器翻译任务中,由于双语平行语料规模小,神经机器翻译的效果并不理想。考虑到预训练语言模型中包含丰富的语言信息,将预训练语言模型表征融入神经机器翻译系统可能对低资源的机器翻译有积极作用,提出一种融合BERT预训练语言模型与词嵌入双重表征的低资源神经机器翻译方法。首先,使用预训练语言模型和词嵌入分别对源语言序列进行表示学习,通过注意力机制建立2种表征之间的联系后,使用拼接操作得到双重表征向量;然后,经过线性变换和自注意力机制,使词嵌入表征和预训练语言模型表征完全自适应融合在一起,得到对输入文本的充分表征,以此提高神经机器翻译模型性能。在汉越语言对上的翻译结果表明,相比基准系统,在包含127000个平行句对的汉越训练数据中,该方法的BLEU值提升了1.99,在包含70000个平行句对的汉越训练数据中,该方法的BLEU值提升了4.34,表明融合BERT预训练语言模型和词嵌入双重表征的方法能够有效提升汉越机器翻译的性能。 展开更多
关键词 神经机器翻译 预训练语言模型 词嵌入 汉语-越南语
下载PDF
基于mRASP的藏汉双向神经机器翻译研究
11
作者 杨丹 拥措 +1 位作者 仁青卓玛 唐超超 《计算机技术与发展》 2023年第12期200-206,共7页
藏汉机器翻译技术的研究对于弘扬和传承优秀民族文化,推进藏族地区经济、教育和文化的发展有着十分重要的现实意义。该文立足于藏汉平行语料匮乏而导致的藏汉神经机器翻译效果欠佳的问题,对跨语言预训练模型进行了研究。使用第十八届全... 藏汉机器翻译技术的研究对于弘扬和传承优秀民族文化,推进藏族地区经济、教育和文化的发展有着十分重要的现实意义。该文立足于藏汉平行语料匮乏而导致的藏汉神经机器翻译效果欠佳的问题,对跨语言预训练模型进行了研究。使用第十八届全国机器翻译大会(CCMT 2022)的藏汉数据集构建藏汉双语的跨语言预训练模型(mRASP),采用谷歌的Transformer神经网络机器翻译架构作为基线模型,主要利用数据增强的方式对藏汉平行语料进行扩充、优化藏汉机器翻译所用到的词表,并探索跨语言预训练模型中的联合词表对翻译性能的影响,最终提出了一种融合跨语言预训练模型(mRASP)与改进后的绿色联合词表的藏汉双向神经机器翻译。经过上述策略,藏汉翻译任务上的BLEU值达到了55.69,汉藏翻译任务上的BLEU值达到了29.57。与传统的基于预训练模型的藏汉双向神经机器翻译相比,在稀缺资源条件下有效地提升了藏汉双向机器翻译的性能。 展开更多
关键词 跨语言预训练模型 藏汉双向神经机器翻译 mRASP 数据增强 词表
下载PDF
基于词串粒度及权值的汉语句子相似度衡量 被引量:13
12
作者 王荣波 池哲儒 +1 位作者 常宝宝 柏晓静 《计算机工程》 CAS CSCD 北大核心 2005年第13期142-144,共3页
提出了一种改进的汉语句子相似度衡量方法,用于基于实例的汉英机器翻译。该方法同时考虑了相同词串的数目及长度和对应的权值信息,克服了传统方法的显著不足,在理论上更有合理性。在小数据集上的实验也表明该方法是可行的。
关键词 基于实例机器翻译 汉英机器翻译 句子相似度衡量 自然语言处理
下载PDF
基于虚拟人合成技术的中国手语合成方法 被引量:29
13
作者 王兆其 高文 《软件学报》 EI CSCD 北大核心 2002年第10期2051-2056,共6页
介绍了一种中国手语合成方法,实现了文本到中国手语的自动翻译,并使用虚拟人合成技术,实现了中国手语的合成与显示,以此帮助聋人与听力正常人之间实现自然交流.在该方法中,首先应用两只数据手套和3个6自由度位置跟踪器,基于运动跟踪的原... 介绍了一种中国手语合成方法,实现了文本到中国手语的自动翻译,并使用虚拟人合成技术,实现了中国手语的合成与显示,以此帮助聋人与听力正常人之间实现自然交流.在该方法中,首先应用两只数据手套和3个6自由度位置跟踪器,基于运动跟踪的原理,记录真实人体演示每个手语词的运动数据,建立一个初始的手语词运动数据库.然后,应用一种基于控制点的人体运动编辑方法,对每个手语词的运动数据进行编辑与微调,最后得到一个高质量的手语词运动数据库.当给定一个文本句子时,应用人体运动合成方法,对每个手语词的手语运动片段进行拼接合成,最终生成一个完整的手语运动,并基于VRML的人体运动显示方法将合成的运动逼真地显示出来.基于该方法,在PC/Windows/VC6.0环境下实现了一个中国聋人手语合成系统.该系统采集了《中国手语》(含续集)中收录的5 596个手语词,可以合成一般生活与教学用语.经聋校的老师和学生确认,合成手语准确逼真,可以广泛应用于教学、电视、Internet等多种大众媒体,帮助聋人参与其他听力正常人的活动,具有广泛的应用前景和重要的社会意义. 展开更多
关键词 虚拟人合成 中国手语合成方法 自然语言处理 手语符号 计算机
下载PDF
基于词类串的汉语句子结构相似度计算方法 被引量:28
14
作者 王荣波 池哲儒 《中文信息学报》 CSCD 北大核心 2005年第1期21-29,共9页
句子相似度的衡量是基于实例机器翻译研究中最重要的一个内容。对于基于实例的汉英机器翻译研究 ,汉语句子相似度衡量的准确性 ,直接影响到最后翻译结果的输出。本文提出了一种汉语句子结构相似性的计算方法。该方法比较两个句子的词类... 句子相似度的衡量是基于实例机器翻译研究中最重要的一个内容。对于基于实例的汉英机器翻译研究 ,汉语句子相似度衡量的准确性 ,直接影响到最后翻译结果的输出。本文提出了一种汉语句子结构相似性的计算方法。该方法比较两个句子的词类信息串 ,进行最优匹配 ,得到一个结构相似性的值。在小句子集上的初步实验结果表明 ,该方法可行 ,有效 ,符合人的直观判断。 展开更多
关键词 人工智能 机器翻译 基于实例机器翻译 汉英机器翻译 句子相似度衡量 自然语言处理
下载PDF
面向机器翻译的中国手语的理解与合成 被引量:7
15
作者 徐琳 高文 《计算机学报》 EI CSCD 北大核心 2000年第1期60-65,共6页
自然语言与可视化语言之间的自动翻译研究具有重大的现实意义和学术研究价值 ,它是一个崭新的、有发展前途的研究领域 .该文从机器翻译的角度来考察汉语和中国手语之间的相同之处和差异 ,探讨两种语言在语序、句子结构、短语结构、特殊... 自然语言与可视化语言之间的自动翻译研究具有重大的现实意义和学术研究价值 ,它是一个崭新的、有发展前途的研究领域 .该文从机器翻译的角度来考察汉语和中国手语之间的相同之处和差异 ,探讨两种语言在语序、句子结构、短语结构、特殊词类等方面的特点 ,建立了汉语中国手语机器翻译的一系列规则 .在此基础之上 。 展开更多
关键词 机器翻译 汉语 中国手语 规则 自然语言
下载PDF
基于统计分析的蒙汉自然语言的机器翻译 被引量:4
16
作者 苏依拉 乌尼尔 刘婉婉 《北京工业大学学报》 CAS CSCD 北大核心 2017年第1期36-42,共7页
为改变内蒙古地区蒙汉机器翻译发展相对落后的现状,采用基于统计的机器翻译方法将短语作为翻译的最基本单元,并基于最大熵模型提出了一种分词方法和词对齐方法,通过调序结果来输出译文.实验结果表明:改进后的翻译系统BLEU值在一定程度... 为改变内蒙古地区蒙汉机器翻译发展相对落后的现状,采用基于统计的机器翻译方法将短语作为翻译的最基本单元,并基于最大熵模型提出了一种分词方法和词对齐方法,通过调序结果来输出译文.实验结果表明:改进后的翻译系统BLEU值在一定程度上有所提高,所提方法可为蒙汉应用研究提供参考. 展开更多
关键词 自然语言 蒙汉翻译 统计机器翻译 最大熵模型 短语
下载PDF
泛化语言模型在汉维机器翻译中的应用 被引量:4
17
作者 李响 南江 +2 位作者 杨雅婷 周喜 米成刚 《计算机应用研究》 CSCD 北大核心 2014年第10期2994-2997,共4页
针对汉维统计机器翻译中维吾尔语具有长距离依赖问题和语言模型具有数据稀疏现象,提出了一种基于泛化的维吾尔语语言模型。该模型借助维吾尔语语言模型的训练过程中生成的文本,结合字符串相似度算法,取相似的维文字符串经过归一化处理... 针对汉维统计机器翻译中维吾尔语具有长距离依赖问题和语言模型具有数据稀疏现象,提出了一种基于泛化的维吾尔语语言模型。该模型借助维吾尔语语言模型的训练过程中生成的文本,结合字符串相似度算法,取相似的维文字符串经过归一化处理抽取规则,计算规则的参数值,利用规则给测试集在解码过程中生成nbest译文重新评分,将评分最高的译文作为最佳译文。实验结果表明,泛化语言模型减少了存储空间,同时,规则的合理使用有效地提高了翻译译文的质量。 展开更多
关键词 汉维机器翻译 泛化语言模型 字符串相似度算法 归一化处理 规则 译文评分
下载PDF
音字转换中的机器学习研究 被引量:7
18
作者 王晓龙 王开铸 +1 位作者 孙希文 王英伟 《计算机学报》 EI CSCD 北大核心 1993年第5期370-377,共8页
本文提出了音字转换学习系统的模型,给出了它所采用的三种机器学习形式:单词学习,规则学习,参数修正学习、单词以及规则的自动获取用于确定的推理机制,而非确定规则的自动获取以及可信度函数的自适应调整主要用于概率推理上,基于上述学... 本文提出了音字转换学习系统的模型,给出了它所采用的三种机器学习形式:单词学习,规则学习,参数修正学习、单词以及规则的自动获取用于确定的推理机制,而非确定规则的自动获取以及可信度函数的自适应调整主要用于概率推理上,基于上述学习机制所进行的数万字的学习实验结果表明,机器学习在改进音字转换的系统性能(如正确率、通用性等)上,具有相当好的效果,目前已经在语句级声音输入、键盘输入等汉字系统上实用。 展开更多
关键词 机器学习 信息处理 音字转换
下载PDF
机器翻译中汉语的形式和语义分析二题 被引量:3
19
作者 刘倬 傅爱平 《中文信息学报》 CSCD 北大核心 1999年第5期2-6,13,共6页
汉语分析是英汉和汉英机器翻译的难点。这篇文章提出了分析汉语的两个难题:一个是区分句法结构的歧义和多义,另一个是寻找句子成分之间的隐性语义关系和句式的意义。
关键词 机器翻译 汉语自动分析
下载PDF
机器翻译中的受控语言 被引量:14
20
作者 胡清平 《中国科技翻译》 北大核心 2005年第3期24-27,共4页
为了解决各种手册的可读性问题,为了克服机器翻译语料库的复杂性,人们创造了受控语言。受控语言加机器翻译就是受控翻译。为了实现受控翻译,必须实施受控语言的应用。翻译软件的研发和受控语言的推广是改进机器翻译质量的两个方向:前者... 为了解决各种手册的可读性问题,为了克服机器翻译语料库的复杂性,人们创造了受控语言。受控语言加机器翻译就是受控翻译。为了实现受控翻译,必须实施受控语言的应用。翻译软件的研发和受控语言的推广是改进机器翻译质量的两个方向:前者瞄准自然语言处理中的难点,后者克服自然语言使用中的随意。走向受控语言的首要步骤是做到中外词汇严格地一对一。这些词汇既要植入机器翻译软件,也要用于指导和限制科技文本的写作。笔者提出受控汉英翻译的设想,进而针对计算机处理汉语的诸多困难,提出十点建议,涉及词语切分、助词、动词时态、消歧手段、形合手段、使用短句、长难句分析、标点符号、汉英常用词词典、语料库等。 展开更多
关键词 机器翻译 受控语言 可读性 语料库 英汉翻译
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部