期刊文献+
共找到80篇文章
< 1 2 4 >
每页显示 20 50 100
Using parallel corpora in contrastive studies:Cross-linguistic contrast of future referring expressions in English and Norwegian 被引量:3
1
作者 Hilde Hasselgrd 《外语教学与研究》 CSSCI 北大核心 2012年第1期3-19,共17页
Multilingual corpora have well been recognised as a valuable resource in contrastive and translation studies.This article investigates the development and use of multilingual corpora with a focus on work done in Scand... Multilingual corpora have well been recognised as a valuable resource in contrastive and translation studies.This article investigates the development and use of multilingual corpora with a focus on work done in Scandinavia with the purpose of showing how parallel corpora can be useful within different fields of language descriptions:lexis,grammar and discourse.It also presents a case study that demonstrates how a parallel corpus can be used in comparing two seemingly equivalent future-referring expressions cross-linguistically,namely the English 'be going to' and the Norwegian 'kommer til '('come to'). 展开更多
关键词 parallel corpora future-referring expressions ENGLISH NORWEGIAN
原文传递
Generating Chinese named entity data from parallel corpora 被引量:2
2
作者 Ruiji FU Bing QIN Ting LIU 《Frontiers of Computer Science》 SCIE EI CSCD 2014年第4期629-641,共13页
Annotating named entity recognition (NER) training corpora is a costly but necessary process for supervised NER approaches. This paper presents a general framework to generate large-scale NER training data from para... Annotating named entity recognition (NER) training corpora is a costly but necessary process for supervised NER approaches. This paper presents a general framework to generate large-scale NER training data from parallel corpora. In our method, we first employ a high performance NER system on one side of a bilingual corpus. Then, we project the named entity (NE) labels to the other side according to the word level alignments. Finally, we propose several strategies to select high-quality auto-labeled NER training data. We apply our approach to Chinese NER using an English-Chinese parallel corpus. Experimental results show that our approach can collect high-quality labeled data and can help improve Chinese NER. 展开更多
关键词 named entity recognition Chinese named entity training data generating parallel corpora
原文传递
中华学术外译背景下汉译英学术文本的词汇丰富度研究
3
作者 刘永厚 魏旖旎 《浙江外国语学院学报》 2023年第4期77-83,共7页
近年来,使用平行语料库进行汉译英研究已成为国内翻译学界的一大热点。本研究自建平行语料库,从词汇特征入手,对汉语学术著作《语言符号学》及其英译本,以及英语学术著作Handbook of Semiotics(以下简称Handbook)的词汇丰富度进行了比... 近年来,使用平行语料库进行汉译英研究已成为国内翻译学界的一大热点。本研究自建平行语料库,从词汇特征入手,对汉语学术著作《语言符号学》及其英译本,以及英语学术著作Handbook of Semiotics(以下简称Handbook)的词汇丰富度进行了比较研究。研究结果表明:1)《语言符号学》英译本的词汇多样性与Handbook比较接近,未呈现出词汇范围窄化的倾向;2)相对于原作,《语言符号学》英译本的词汇密度有所降低,连词、介词和代词存在扩增现象;3)《语言符号学》英译本的词汇复杂度低于Handbook,前者的阅读难度相对较低。 展开更多
关键词 中华学术外译 词汇丰富度 平行语料库 翻译简化
下载PDF
语料库视域下2023年西安市政府工作报告英译中名词化分析
4
作者 马星驰 《文化创新比较研究》 2023年第34期27-31,共5页
在各种文本类型中,政治文本被认为是最重要且最有影响力的文本之一,因为它们代表着政府的声音。政府工作报告作为各级政府中最重要和最高级别的政治文件之一,产生了巨大影响,因此具有相当大的传播意义。在政治文书中,尤其是在政府工作... 在各种文本类型中,政治文本被认为是最重要且最有影响力的文本之一,因为它们代表着政府的声音。政府工作报告作为各级政府中最重要和最高级别的政治文件之一,产生了巨大影响,因此具有相当大的传播意义。在政治文书中,尤其是在政府工作报告中,大量运用动词名词化是一个显著的特点。该文以语料库翻译学为理论指导,利用自建的政府工作报告汉英双语平行语料库,运用语料库技术AntConc的KWIC和Wordlist功能,检索分析了2023年西安市政府工作报告英译中名词化的使用频率和特点,并探讨适用条件以及如何更好地应用在翻译实践中。 展开更多
关键词 语料库翻译学 2023年西安市政府工作报告 名词化 语料库技术 平行语料库 翻译实践
下载PDF
平行语料库中双语术语词典的自动抽取 被引量:30
5
作者 孙乐 金友兵 +1 位作者 杜林 孙玉芳 《中文信息学报》 CSCD 北大核心 2000年第6期33-39,共7页
本文提出了一种从英汉平行语料库中自动抽取术语词典的算法。首先采用基于字符长度的改进的统计方法对平行语料进行句子级的对齐 ,并对英文语料和中文语料分别进行词性标注和切分与词性标注。统计已对齐和标注的双语语料中的名词和名词... 本文提出了一种从英汉平行语料库中自动抽取术语词典的算法。首先采用基于字符长度的改进的统计方法对平行语料进行句子级的对齐 ,并对英文语料和中文语料分别进行词性标注和切分与词性标注。统计已对齐和标注的双语语料中的名词和名词短语生成候选术语集。然后对每个英文候选术语计算与其相关的中文翻译之间的翻译概率。最后通过设定随词频变化的阈值来选取中文翻译。 展开更多
关键词 术语抽取 翻译概率 英汉平行语料库 术语词典
下载PDF
基于自动抽取词汇信息的双语句子对齐 被引量:17
6
作者 刘昕 周明 +1 位作者 朱胜火 黄昌宁 《计算机学报》 EI CSCD 北大核心 1998年第S1期151-158,共8页
双语语料库句子对齐已成为新一代机器翻译研究中的一个至关重要的问题.对齐方法主要有基于长度的方法和基于词汇的方法,两者各具特点:前者实现简单、效率高,但精度低;后者精度高但实现复杂.本文提出一种新的对齐方法,首先利用基... 双语语料库句子对齐已成为新一代机器翻译研究中的一个至关重要的问题.对齐方法主要有基于长度的方法和基于词汇的方法,两者各具特点:前者实现简单、效率高,但精度低;后者精度高但实现复杂.本文提出一种新的对齐方法,首先利用基于长度的方法对文本进行粗对齐,然后在双语平行文本中确定锚点并自动抽取双语对应的关键词汇,降低了对齐问题的复杂度并减少了错误的蔓延.最后再利用所得到的词汇对应信息进行句子的对齐.这种方法融合了基于长度和基于词汇方法的优点,实验表明,它很大程度地提高了对齐的精度. 展开更多
关键词 双语语料库 句子对齐 机器翻译
下载PDF
基于译文的英汉双语句子自动对齐 被引量:12
7
作者 钱丽萍 赵铁军 +1 位作者 杨沫昀 高光来 《计算机工程与应用》 CSCD 北大核心 2000年第12期59-61,共3页
双语语料库的自动对齐已成为机器翻译研究中的一个重要研究课题.目前的句子对齐方法有基于长度的方法和基于词汇的方法,该文先分析了基于长度的方法,然后提出了基于译文的方法:通过使用一部翻译较完整的词典作为桥梁,把英汉句子之间的... 双语语料库的自动对齐已成为机器翻译研究中的一个重要研究课题.目前的句子对齐方法有基于长度的方法和基于词汇的方法,该文先分析了基于长度的方法,然后提出了基于译文的方法:通过使用一部翻译较完整的词典作为桥梁,把英汉句子之间的对应关系连接起来.根据英语文本中的单词,在词典中找到其对应的译文,并以译文到汉语句子中去匹配,根据评价函数和动态规划算法找到对齐句对.实验结果证明这种对齐方法消除了基于长度做法中错误蔓延的情况,它大大地提高了对齐的精度,其效果是令人满意的. 展开更多
关键词 机器翻译 句子对齐 双语语料库 英汉汉语句子
下载PDF
基于Web的双语平行句对自动获取 被引量:12
8
作者 叶莎妮 吕雅娟 +1 位作者 黄赟 刘群 《中文信息学报》 CSCD 北大核心 2008年第5期67-73,共7页
双语平行句对是机器翻译的重要资源,但是由于获取途径的限制,句子级平行语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求。该文介绍了一个基于Web的双语平行句对自动获取系统。该系统融合了现有系统的优点,对其中的... 双语平行句对是机器翻译的重要资源,但是由于获取途径的限制,句子级平行语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求。该文介绍了一个基于Web的双语平行句对自动获取系统。该系统融合了现有系统的优点,对其中的关键技术进行了改进。文中提出了一种自动发现双语网站中URL命名规律的方法,改进了双语平行句对抽取技术。实验结果表明文中所提出的方法大大提高了候选双语网站发现的召回率,所获取双语平行句对的召回率为93%,准确率为96%,证明了该文方法的有效性。此外,该文还对存在于双语对照网页内部的双语平行句对的抽取方法进行了研究,取得了初步成果。 展开更多
关键词 计算机应用 中文信息处理 双语句对 平行网页 网页挖掘
下载PDF
非平行文本下基于变分自编码器和辅助分类器生成对抗网络的语音转换 被引量:10
9
作者 李燕萍 曹盼 +2 位作者 石杨 张燕 钱博 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2020年第3期322-329,共8页
提出了1种基于变分自编码器和辅助分类器生成对抗网络的语音转换方法,实现了非平行文本条件下多对多的高质量语音转换.在该方法中,利用辅助分类器生成对抗网络替代基于变分自编码器和生成对抗网络模型中的Wasserstein生成对抗网络.由于... 提出了1种基于变分自编码器和辅助分类器生成对抗网络的语音转换方法,实现了非平行文本条件下多对多的高质量语音转换.在该方法中,利用辅助分类器生成对抗网络替代基于变分自编码器和生成对抗网络模型中的Wasserstein生成对抗网络.由于辅助分类器生成对抗网络将特征样本的类别标签作为辅助信息,其鉴别器不仅能预测样本真假,还能预测生成样本所属的类别,从而提高了生成对抗网络的生成效果.充分的客观和主观评价表明:本文提出的方法明显优于基准模型,在显著改善语音质量的同时也有效提升了说话人个性的相似度. 展开更多
关键词 语音转换 变分自编码器 非平行文本 辅助分类器生成对抗网络 多对多
下载PDF
面向小词典的高效英汉双语语料对齐算法 被引量:3
10
作者 熊伟 陈蓉 +2 位作者 刘佳 徐淼 于中华 《计算机工程》 CAS CSCD 北大核心 2007年第13期210-212,共3页
双语语料自动对齐是自然语言处理的一个重要研究课题。该文针对基于词典译文的英汉句子对齐算法存在的缺点,提出了面向小词典的高效英汉句子对齐算法,该算法在小词典的情况下仍具有较高的准确率,效率比传统算法提高近一倍。通过理论分... 双语语料自动对齐是自然语言处理的一个重要研究课题。该文针对基于词典译文的英汉句子对齐算法存在的缺点,提出了面向小词典的高效英汉句子对齐算法,该算法在小词典的情况下仍具有较高的准确率,效率比传统算法提高近一倍。通过理论分析、对比实验可知,该算法是有效的。 展开更多
关键词 机器翻译 局部对齐 补偿 双语语料
下载PDF
Web平行语料挖掘及其在机器翻译中的应用 被引量:5
11
作者 林政 吕雅娟 +1 位作者 刘群 马希荣 《中文信息学报》 CSCD 北大核心 2010年第5期85-91,共7页
双语平行语料库在自然语言处理领域有很多重要应用,但是大规模双语平行语料库的自动获取并不容易。该文提出了一种有效的从Web上获取高质量双语平行语料库的方案,研究了候选双语混合网页获取和平行句对抽取等关键技术。运用该文方法共... 双语平行语料库在自然语言处理领域有很多重要应用,但是大规模双语平行语料库的自动获取并不容易。该文提出了一种有效的从Web上获取高质量双语平行语料库的方案,研究了候选双语混合网页获取和平行句对抽取等关键技术。运用该文方法共获取了258万双语平行句对,平均正确率为93.75%,其中前150万句对的平均正确率达到96%。该文还提出句对质量排序和领域信息检索两种方法将Web数据应用于统计机器翻译的模型训练,在IWSLT评测数据上BLEU值可以提高2到5个百分点。 展开更多
关键词 WEB挖掘 平行语料库 句子对齐 统计机器翻译
下载PDF
平行语料库处理初探:一种排序模型 被引量:4
12
作者 陈毅东 史晓东 周昌乐 《中文信息学报》 CSCD 北大核心 2006年第B03期66-70,共5页
十年来,统计方法在机器翻译中的应用得到了广泛的关注,并逐渐成为机器翻译研究的主流方法。构造高质量统计机器翻译系统的重要基础是大规模高质量的双语平行语料库。目前,多数平行语料库包含着错误或噪音,它们极大影响着统计机器翻... 十年来,统计方法在机器翻译中的应用得到了广泛的关注,并逐渐成为机器翻译研究的主流方法。构造高质量统计机器翻译系统的重要基础是大规模高质量的双语平行语料库。目前,多数平行语料库包含着错误或噪音,它们极大影响着统计机器翻译系统的性能。用人工手段来筛选语料库中的句对是费时费力的,本文研究了一种有助于处理这一问题排序模型,该模型考虑了多方面的因素,包括:语言模型、长度信息、意义对应等。鉴于如今的统计机器翻译系统都依赖词对齐信息,词对齐因素也被考虑入本模型中。文章最后的实验度结果表明本模型具有较好的性能。 展开更多
关键词 平行语料库 语料库处理 排序 统计机器翻译
下载PDF
汉英双语平行语料库的词义标注 被引量:4
13
作者 刘冬明 杨尔弘 方莹 《中文信息学报》 CSCD 北大核心 2005年第6期50-56,共7页
本文充分利用当前HowNet资源中概念的可计算性和句子对齐的汉英双语平行语料库信息,将词义排歧的问题转化为两种语言相对应句子词义组合的相似度计算问题,进而利用动态规划法的思想设计出一种在一定的时间复杂度内,有效的标出多义词义... 本文充分利用当前HowNet资源中概念的可计算性和句子对齐的汉英双语平行语料库信息,将词义排歧的问题转化为两种语言相对应句子词义组合的相似度计算问题,进而利用动态规划法的思想设计出一种在一定的时间复杂度内,有效的标出多义词义项的算法。该方法从以前对每个多义词进行排歧时只考察其上下文环境和对应信息,改变到对句子中所有的词同时考察上下文环境,这样就可以站在句子高度来进行词义标注,最终取得了满意的实验结果。 展开更多
关键词 人工智能 自然语言处理 词义排歧 HOWNET 双语平行语料库
下载PDF
基于搜索引擎的双语混合网页识别新方法 被引量:2
14
作者 冯艳卉 洪宇 +2 位作者 颜振祥 姚建民 朱巧明 《中文信息学报》 CSCD 北大核心 2011年第1期71-78,共8页
该文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质量双语混... 该文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质量双语混合网页的验证及其获取提供有效特征。该文中把双语混合网页的验证看作是有效的分类问题,该方法不依赖于特定领域和搜索引擎。基于从搜索引擎收集并经过人工标注的2 516条检索结果记录,该文提出的方法取得了81.3%的精确率和94.93%的召回率。 展开更多
关键词 WEB挖掘 双语混合网页 平行语料
下载PDF
古今汉语平行语料库的语料构建 被引量:5
15
作者 宋继华 胡佳佳 +1 位作者 孟蓬生 王宁 《现代教育技术》 CSSCI 2008年第1期92-99,共8页
古今汉语之间的明显差异使得以古代汉语为载体的传统典籍难以被现代人理解。古今汉语平行语料库的建设旨在为希望了解中国传统思想文化的普通读者及相关学科专家提供阅读、翻译、检索古代汉语典籍的平台。语料的构建是语料库建设的基础... 古今汉语之间的明显差异使得以古代汉语为载体的传统典籍难以被现代人理解。古今汉语平行语料库的建设旨在为希望了解中国传统思想文化的普通读者及相关学科专家提供阅读、翻译、检索古代汉语典籍的平台。语料的构建是语料库建设的基础,本文从古今汉语语料的设计、采集、格式化存储、双语对齐与XML标注等方面详细介绍了如何系统地构建大型古今汉语平行语料库中的开放资源。 展开更多
关键词 古今汉语 平行语料库 语料 XML标注 句子对齐
下载PDF
矿业类科技论文摘要平行语料库建设的可行性研究 被引量:5
16
作者 张建平 梁松林 《中国钨业》 CAS 北大核心 2008年第6期47-50,共4页
介绍了矿业类科技论文摘要平行语料库的建设情况,探讨了该语料库在矿业科技论文摘要翻译和编辑工作中的具体应用,认为该语料库对提高科技论文翻译质量有较大使用价值。
关键词 矿业类科技论文摘要 平行语料库 可行性
下载PDF
2000年以来我国多语言语料库研究进展 被引量:2
17
作者 司莉 何依 《现代情报》 CSSCI 北大核心 2016年第6期165-170,共6页
语料库是指根据一定的方法收集的自然出现语料构成的电子数据库。2000年以来我国对多语言语料库的研究呈现快速上升的趋势。在全面文献调研的基础上,本文对我国多语言语料库的研究现状进行了归纳与梳理。国内学者对多语言语料库的研究... 语料库是指根据一定的方法收集的自然出现语料构成的电子数据库。2000年以来我国对多语言语料库的研究呈现快速上升的趋势。在全面文献调研的基础上,本文对我国多语言语料库的研究现状进行了归纳与梳理。国内学者对多语言语料库的研究多集中于语言学领域,其次是计算机领域。研究主题主要分布在多语言语料库的关键技术研究、多语言语料库的应用研究两大方面。 展开更多
关键词 多语言语料库 跨语言语料库 平行语料库 可比语料库 综述
下载PDF
基于双语URL匹配模式可信度的平行网页识别研究 被引量:3
18
作者 章成志 马舒天 +1 位作者 揭春雨 姚旭晨 《中文信息学报》 CSCD 北大核心 2018年第3期91-100,共10页
平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法:即利用全局可信... 平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法:即利用全局可信度,救回因低于局部可信度阈值而被初始算法滤掉的匹配模式;通过全局可信度和网页检测方法,挖出深层网页。进一步,结合网站双语可信度、链接关系,侦测出种子网站周边更多较具可信度的双语网站。除了双语URL匹配模式自动识别,还利用搜索引擎,依据少数高可信度的匹配模式快速识别双语网页。为了提高以上五种方法识别候选双语网页对的准确率,计算了候选双语网页对的双语相似度,并设置阈值过滤非双语网页对。通过实验验证了所提方法的有效性。 展开更多
关键词 平行网页获取 平行语料库 双语URL匹配模式 双语文本挖掘
下载PDF
基于i向量和变分自编码相对生成对抗网络的语音转换 被引量:1
19
作者 李燕萍 曹盼 +2 位作者 左宇涛 张燕 钱博 《自动化学报》 EI CAS CSCD 北大核心 2022年第7期1824-1833,共10页
提出一种基于i向量和变分自编码相对生成对抗网络的语音转换方法,实现了非平行文本条件下高质量的多对多语音转换.性能良好的语音转换系统,既要保持重构语音的自然度,又要兼顾转换语音的说话人个性特征是否准确.首先为了改善合成语音自... 提出一种基于i向量和变分自编码相对生成对抗网络的语音转换方法,实现了非平行文本条件下高质量的多对多语音转换.性能良好的语音转换系统,既要保持重构语音的自然度,又要兼顾转换语音的说话人个性特征是否准确.首先为了改善合成语音自然度,利用生成性能更好的相对生成对抗网络代替基于变分自编码生成对抗网络模型中的Wasserstein生成对抗网络,通过构造相对鉴别器的方式,使得鉴别器的输出依赖于真实样本和生成样本间的相对值,克服了Wasserstein生成对抗网络性能不稳定和收敛速度较慢等问题.进一步为了提升转换语音的说话人个性相似度,在解码阶段,引入含有丰富个性信息的i向量,以充分学习说话人的个性化特征.客观和主观实验表明,转换后的语音平均梅尔倒谱失真距离值较基准模型降低4.80%,平均意见得分值提升5.12%,ABX值提升8.60%,验证了该方法在语音自然度和个性相似度两个方面均有显著的提高,实现了高质量的语音转换. 展开更多
关键词 语音转换 相对生成对抗网络 I 向量 非平行文本 变分自编码器 多对多
下载PDF
基于MapReduce的三元N-gram算法的并行化研究 被引量:6
20
作者 龚永罡 田润琳 +1 位作者 廉小亲 夏天 《电子技术应用》 2019年第5期70-73,77,共5页
大规模语料库的训练是使用三元N-gram算法进行中文文本自动查错中一个重要的基础工作。面对新媒体平台每日高达百万篇需处理的语料信息,单一节点的三元N-gram语言模型词库的构建存在计算瓶颈。在深入研究三元N-gram算法的基础上,提出了... 大规模语料库的训练是使用三元N-gram算法进行中文文本自动查错中一个重要的基础工作。面对新媒体平台每日高达百万篇需处理的语料信息,单一节点的三元N-gram语言模型词库的构建存在计算瓶颈。在深入研究三元N-gram算法的基础上,提出了基于MapReduce计算模型的三元N-gram并行化算法的思想。MapReduce计算模型中,将运算任务平均分配到m个节点,三元N-gram算法在Map函数部分的主要任务是计算局部字词分别与其前两个字词搭配出现的次数,Reduce函数部分的主要任务是合并Map部分统计字词搭配出现的次数,生成全局统计结果。实验结果表明,运行在Hadoop集群上的基于MapReduce的三元N-gram并行化算法具有很好的运算性和可扩展性,对于每日120亿字的训练语料数据集,集群环境下该算法得到训练结果的速率更接近于线性。 展开更多
关键词 中文文本查错 三元N-gram算法 MapReduce计算模型 并行化算法 HADOOP集群 语料库
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部