期刊文献+
共找到80篇文章
< 1 2 4 >
每页显示 20 50 100
基于语料库的纳西族英雄史诗《黑白之战》译本风格对比研究
1
作者 张芸丽 杨玉 《语言与文化研究》 2024年第6期213-216,共4页
本研究基于自建的《黑白之战》英汉平行语料库,借助Python的自然语言处理包,从语言特征(类符/形符比,平均词长,平均句长,词汇密度)对孙兴文译本和涂沙丽译本的翻译风格进行对比。研究发现,涂译本的类符/形符比,平均词长,词汇密度均高于... 本研究基于自建的《黑白之战》英汉平行语料库,借助Python的自然语言处理包,从语言特征(类符/形符比,平均词长,平均句长,词汇密度)对孙兴文译本和涂沙丽译本的翻译风格进行对比。研究发现,涂译本的类符/形符比,平均词长,词汇密度均高于孙译本,但平均句长小于孙译本,涂译异化程度更高,孙译则更加归化。 展开更多
关键词 《黑白之战》 平行语料库 翻译风格 对比分析
下载PDF
基于译文的英汉双语句子自动对齐 被引量:12
2
作者 钱丽萍 赵铁军 +1 位作者 杨沫昀 高光来 《计算机工程与应用》 CSCD 北大核心 2000年第12期59-61,共3页
双语语料库的自动对齐已成为机器翻译研究中的一个重要研究课题.目前的句子对齐方法有基于长度的方法和基于词汇的方法,该文先分析了基于长度的方法,然后提出了基于译文的方法:通过使用一部翻译较完整的词典作为桥梁,把英汉句子之间的... 双语语料库的自动对齐已成为机器翻译研究中的一个重要研究课题.目前的句子对齐方法有基于长度的方法和基于词汇的方法,该文先分析了基于长度的方法,然后提出了基于译文的方法:通过使用一部翻译较完整的词典作为桥梁,把英汉句子之间的对应关系连接起来.根据英语文本中的单词,在词典中找到其对应的译文,并以译文到汉语句子中去匹配,根据评价函数和动态规划算法找到对齐句对.实验结果证明这种对齐方法消除了基于长度做法中错误蔓延的情况,它大大地提高了对齐的精度,其效果是令人满意的. 展开更多
关键词 机器翻译 句子对齐 双语语料库 英汉汉语句子
下载PDF
基于自动抽取词汇信息的双语句子对齐 被引量:18
3
作者 刘昕 周明 +1 位作者 朱胜火 黄昌宁 《计算机学报》 EI CSCD 北大核心 1998年第S1期151-158,共8页
双语语料库句子对齐已成为新一代机器翻译研究中的一个至关重要的问题.对齐方法主要有基于长度的方法和基于词汇的方法,两者各具特点:前者实现简单、效率高,但精度低;后者精度高但实现复杂.本文提出一种新的对齐方法,首先利用基... 双语语料库句子对齐已成为新一代机器翻译研究中的一个至关重要的问题.对齐方法主要有基于长度的方法和基于词汇的方法,两者各具特点:前者实现简单、效率高,但精度低;后者精度高但实现复杂.本文提出一种新的对齐方法,首先利用基于长度的方法对文本进行粗对齐,然后在双语平行文本中确定锚点并自动抽取双语对应的关键词汇,降低了对齐问题的复杂度并减少了错误的蔓延.最后再利用所得到的词汇对应信息进行句子的对齐.这种方法融合了基于长度和基于词汇方法的优点,实验表明,它很大程度地提高了对齐的精度. 展开更多
关键词 双语语料库 句子对齐 机器翻译
下载PDF
平行语料库中双语术语词典的自动抽取 被引量:30
4
作者 孙乐 金友兵 +1 位作者 杜林 孙玉芳 《中文信息学报》 CSCD 北大核心 2000年第6期33-39,共7页
本文提出了一种从英汉平行语料库中自动抽取术语词典的算法。首先采用基于字符长度的改进的统计方法对平行语料进行句子级的对齐 ,并对英文语料和中文语料分别进行词性标注和切分与词性标注。统计已对齐和标注的双语语料中的名词和名词... 本文提出了一种从英汉平行语料库中自动抽取术语词典的算法。首先采用基于字符长度的改进的统计方法对平行语料进行句子级的对齐 ,并对英文语料和中文语料分别进行词性标注和切分与词性标注。统计已对齐和标注的双语语料中的名词和名词短语生成候选术语集。然后对每个英文候选术语计算与其相关的中文翻译之间的翻译概率。最后通过设定随词频变化的阈值来选取中文翻译。 展开更多
关键词 术语抽取 翻译概率 英汉平行语料库 术语词典
下载PDF
非平行文本下基于变分自编码器和辅助分类器生成对抗网络的语音转换 被引量:10
5
作者 李燕萍 曹盼 +2 位作者 石杨 张燕 钱博 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2020年第3期322-329,共8页
提出了1种基于变分自编码器和辅助分类器生成对抗网络的语音转换方法,实现了非平行文本条件下多对多的高质量语音转换.在该方法中,利用辅助分类器生成对抗网络替代基于变分自编码器和生成对抗网络模型中的Wasserstein生成对抗网络.由于... 提出了1种基于变分自编码器和辅助分类器生成对抗网络的语音转换方法,实现了非平行文本条件下多对多的高质量语音转换.在该方法中,利用辅助分类器生成对抗网络替代基于变分自编码器和生成对抗网络模型中的Wasserstein生成对抗网络.由于辅助分类器生成对抗网络将特征样本的类别标签作为辅助信息,其鉴别器不仅能预测样本真假,还能预测生成样本所属的类别,从而提高了生成对抗网络的生成效果.充分的客观和主观评价表明:本文提出的方法明显优于基准模型,在显著改善语音质量的同时也有效提升了说话人个性的相似度. 展开更多
关键词 语音转换 变分自编码器 非平行文本 辅助分类器生成对抗网络 多对多
下载PDF
基于Web的双语平行句对自动获取 被引量:12
6
作者 叶莎妮 吕雅娟 +1 位作者 黄赟 刘群 《中文信息学报》 CSCD 北大核心 2008年第5期67-73,共7页
双语平行句对是机器翻译的重要资源,但是由于获取途径的限制,句子级平行语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求。该文介绍了一个基于Web的双语平行句对自动获取系统。该系统融合了现有系统的优点,对其中的... 双语平行句对是机器翻译的重要资源,但是由于获取途径的限制,句子级平行语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求。该文介绍了一个基于Web的双语平行句对自动获取系统。该系统融合了现有系统的优点,对其中的关键技术进行了改进。文中提出了一种自动发现双语网站中URL命名规律的方法,改进了双语平行句对抽取技术。实验结果表明文中所提出的方法大大提高了候选双语网站发现的召回率,所获取双语平行句对的召回率为93%,准确率为96%,证明了该文方法的有效性。此外,该文还对存在于双语对照网页内部的双语平行句对的抽取方法进行了研究,取得了初步成果。 展开更多
关键词 计算机应用 中文信息处理 双语句对 平行网页 网页挖掘
下载PDF
面向小词典的高效英汉双语语料对齐算法 被引量:3
7
作者 熊伟 陈蓉 +2 位作者 刘佳 徐淼 于中华 《计算机工程》 CAS CSCD 北大核心 2007年第13期210-212,共3页
双语语料自动对齐是自然语言处理的一个重要研究课题。该文针对基于词典译文的英汉句子对齐算法存在的缺点,提出了面向小词典的高效英汉句子对齐算法,该算法在小词典的情况下仍具有较高的准确率,效率比传统算法提高近一倍。通过理论分... 双语语料自动对齐是自然语言处理的一个重要研究课题。该文针对基于词典译文的英汉句子对齐算法存在的缺点,提出了面向小词典的高效英汉句子对齐算法,该算法在小词典的情况下仍具有较高的准确率,效率比传统算法提高近一倍。通过理论分析、对比实验可知,该算法是有效的。 展开更多
关键词 机器翻译 局部对齐 补偿 双语语料
下载PDF
Web平行语料挖掘及其在机器翻译中的应用 被引量:5
8
作者 林政 吕雅娟 +1 位作者 刘群 马希荣 《中文信息学报》 CSCD 北大核心 2010年第5期85-91,共7页
双语平行语料库在自然语言处理领域有很多重要应用,但是大规模双语平行语料库的自动获取并不容易。该文提出了一种有效的从Web上获取高质量双语平行语料库的方案,研究了候选双语混合网页获取和平行句对抽取等关键技术。运用该文方法共... 双语平行语料库在自然语言处理领域有很多重要应用,但是大规模双语平行语料库的自动获取并不容易。该文提出了一种有效的从Web上获取高质量双语平行语料库的方案,研究了候选双语混合网页获取和平行句对抽取等关键技术。运用该文方法共获取了258万双语平行句对,平均正确率为93.75%,其中前150万句对的平均正确率达到96%。该文还提出句对质量排序和领域信息检索两种方法将Web数据应用于统计机器翻译的模型训练,在IWSLT评测数据上BLEU值可以提高2到5个百分点。 展开更多
关键词 WEB挖掘 平行语料库 句子对齐 统计机器翻译
下载PDF
平行语料库处理初探:一种排序模型 被引量:4
9
作者 陈毅东 史晓东 周昌乐 《中文信息学报》 CSCD 北大核心 2006年第B03期66-70,共5页
十年来,统计方法在机器翻译中的应用得到了广泛的关注,并逐渐成为机器翻译研究的主流方法。构造高质量统计机器翻译系统的重要基础是大规模高质量的双语平行语料库。目前,多数平行语料库包含着错误或噪音,它们极大影响着统计机器翻... 十年来,统计方法在机器翻译中的应用得到了广泛的关注,并逐渐成为机器翻译研究的主流方法。构造高质量统计机器翻译系统的重要基础是大规模高质量的双语平行语料库。目前,多数平行语料库包含着错误或噪音,它们极大影响着统计机器翻译系统的性能。用人工手段来筛选语料库中的句对是费时费力的,本文研究了一种有助于处理这一问题排序模型,该模型考虑了多方面的因素,包括:语言模型、长度信息、意义对应等。鉴于如今的统计机器翻译系统都依赖词对齐信息,词对齐因素也被考虑入本模型中。文章最后的实验度结果表明本模型具有较好的性能。 展开更多
关键词 平行语料库 语料库处理 排序 统计机器翻译
下载PDF
古今汉语平行语料库的语料构建 被引量:6
10
作者 宋继华 胡佳佳 +1 位作者 孟蓬生 王宁 《现代教育技术》 CSSCI 2008年第1期92-99,共8页
古今汉语之间的明显差异使得以古代汉语为载体的传统典籍难以被现代人理解。古今汉语平行语料库的建设旨在为希望了解中国传统思想文化的普通读者及相关学科专家提供阅读、翻译、检索古代汉语典籍的平台。语料的构建是语料库建设的基础... 古今汉语之间的明显差异使得以古代汉语为载体的传统典籍难以被现代人理解。古今汉语平行语料库的建设旨在为希望了解中国传统思想文化的普通读者及相关学科专家提供阅读、翻译、检索古代汉语典籍的平台。语料的构建是语料库建设的基础,本文从古今汉语语料的设计、采集、格式化存储、双语对齐与XML标注等方面详细介绍了如何系统地构建大型古今汉语平行语料库中的开放资源。 展开更多
关键词 古今汉语 平行语料库 语料 XML标注 句子对齐
下载PDF
2000年以来我国多语言语料库研究进展 被引量:2
11
作者 司莉 何依 《现代情报》 CSSCI 北大核心 2016年第6期165-170,共6页
语料库是指根据一定的方法收集的自然出现语料构成的电子数据库。2000年以来我国对多语言语料库的研究呈现快速上升的趋势。在全面文献调研的基础上,本文对我国多语言语料库的研究现状进行了归纳与梳理。国内学者对多语言语料库的研究... 语料库是指根据一定的方法收集的自然出现语料构成的电子数据库。2000年以来我国对多语言语料库的研究呈现快速上升的趋势。在全面文献调研的基础上,本文对我国多语言语料库的研究现状进行了归纳与梳理。国内学者对多语言语料库的研究多集中于语言学领域,其次是计算机领域。研究主题主要分布在多语言语料库的关键技术研究、多语言语料库的应用研究两大方面。 展开更多
关键词 多语言语料库 跨语言语料库 平行语料库 可比语料库 综述
下载PDF
汉英双语平行语料库的词义标注 被引量:4
12
作者 刘冬明 杨尔弘 方莹 《中文信息学报》 CSCD 北大核心 2005年第6期50-56,共7页
本文充分利用当前HowNet资源中概念的可计算性和句子对齐的汉英双语平行语料库信息,将词义排歧的问题转化为两种语言相对应句子词义组合的相似度计算问题,进而利用动态规划法的思想设计出一种在一定的时间复杂度内,有效的标出多义词义... 本文充分利用当前HowNet资源中概念的可计算性和句子对齐的汉英双语平行语料库信息,将词义排歧的问题转化为两种语言相对应句子词义组合的相似度计算问题,进而利用动态规划法的思想设计出一种在一定的时间复杂度内,有效的标出多义词义项的算法。该方法从以前对每个多义词进行排歧时只考察其上下文环境和对应信息,改变到对句子中所有的词同时考察上下文环境,这样就可以站在句子高度来进行词义标注,最终取得了满意的实验结果。 展开更多
关键词 人工智能 自然语言处理 词义排歧 HOWNET 双语平行语料库
下载PDF
基于MapReduce的三元N-gram算法的并行化研究 被引量:6
13
作者 龚永罡 田润琳 +1 位作者 廉小亲 夏天 《电子技术应用》 2019年第5期70-73,77,共5页
大规模语料库的训练是使用三元N-gram算法进行中文文本自动查错中一个重要的基础工作。面对新媒体平台每日高达百万篇需处理的语料信息,单一节点的三元N-gram语言模型词库的构建存在计算瓶颈。在深入研究三元N-gram算法的基础上,提出了... 大规模语料库的训练是使用三元N-gram算法进行中文文本自动查错中一个重要的基础工作。面对新媒体平台每日高达百万篇需处理的语料信息,单一节点的三元N-gram语言模型词库的构建存在计算瓶颈。在深入研究三元N-gram算法的基础上,提出了基于MapReduce计算模型的三元N-gram并行化算法的思想。MapReduce计算模型中,将运算任务平均分配到m个节点,三元N-gram算法在Map函数部分的主要任务是计算局部字词分别与其前两个字词搭配出现的次数,Reduce函数部分的主要任务是合并Map部分统计字词搭配出现的次数,生成全局统计结果。实验结果表明,运行在Hadoop集群上的基于MapReduce的三元N-gram并行化算法具有很好的运算性和可扩展性,对于每日120亿字的训练语料数据集,集群环境下该算法得到训练结果的速率更接近于线性。 展开更多
关键词 中文文本查错 三元N-gram算法 MapReduce计算模型 并行化算法 HADOOP集群 语料库
下载PDF
基于搜索引擎的双语混合网页识别新方法 被引量:2
14
作者 冯艳卉 洪宇 +2 位作者 颜振祥 姚建民 朱巧明 《中文信息学报》 CSCD 北大核心 2011年第1期71-78,共8页
该文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质量双语混... 该文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质量双语混合网页的验证及其获取提供有效特征。该文中把双语混合网页的验证看作是有效的分类问题,该方法不依赖于特定领域和搜索引擎。基于从搜索引擎收集并经过人工标注的2 516条检索结果记录,该文提出的方法取得了81.3%的精确率和94.93%的召回率。 展开更多
关键词 WEB挖掘 双语混合网页 平行语料
下载PDF
矿业类科技论文摘要平行语料库建设的可行性研究 被引量:5
15
作者 张建平 梁松林 《中国钨业》 CAS 北大核心 2008年第6期47-50,共4页
介绍了矿业类科技论文摘要平行语料库的建设情况,探讨了该语料库在矿业科技论文摘要翻译和编辑工作中的具体应用,认为该语料库对提高科技论文翻译质量有较大使用价值。
关键词 矿业类科技论文摘要 平行语料库 可行性
下载PDF
基于双语URL匹配模式可信度的平行网页识别研究 被引量:3
16
作者 章成志 马舒天 +1 位作者 揭春雨 姚旭晨 《中文信息学报》 CSCD 北大核心 2018年第3期91-100,共10页
平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法:即利用全局可信... 平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法:即利用全局可信度,救回因低于局部可信度阈值而被初始算法滤掉的匹配模式;通过全局可信度和网页检测方法,挖出深层网页。进一步,结合网站双语可信度、链接关系,侦测出种子网站周边更多较具可信度的双语网站。除了双语URL匹配模式自动识别,还利用搜索引擎,依据少数高可信度的匹配模式快速识别双语网页。为了提高以上五种方法识别候选双语网页对的准确率,计算了候选双语网页对的双语相似度,并设置阈值过滤非双语网页对。通过实验验证了所提方法的有效性。 展开更多
关键词 平行网页获取 平行语料库 双语URL匹配模式 双语文本挖掘
下载PDF
英汉学术语篇元话语对比中的平行语料库建设问题研究 被引量:8
17
作者 蔡基刚 《外语研究》 CSSCI 北大核心 2017年第4期1-4,共4页
随着国家一流大学一流学科建设和中国学术走出去,以及提高中国学者国际话语权的战略实施,近年来,英汉学术语篇对比研究,尤其是研究论文的元话语对比研究,发展很快。而英汉对比研究,最主要方法是平行语料库建设。相比文学语篇,学术语篇... 随着国家一流大学一流学科建设和中国学术走出去,以及提高中国学者国际话语权的战略实施,近年来,英汉学术语篇对比研究,尤其是研究论文的元话语对比研究,发展很快。而英汉对比研究,最主要方法是平行语料库建设。相比文学语篇,学术语篇平行语料库建设起步较晚。本文通过剖析一篇关于英汉研究论文的元话语的文章,提出基于平行语料库研究的一系列问题,其中包括功能与形式、显性标记语和隐性标记、字词比例和对比基础等借以推动学术语篇英汉平行语料库的建设。 展开更多
关键词 学术语篇 元话语 对比分析 平行语料库
下载PDF
平行语料库与应用翻译研究 被引量:32
18
作者 肖维青 《中国科技翻译》 北大核心 2007年第3期25-28,共4页
语料库翻译研究是20世纪90年代兴起的全新的翻译研究范式。语料库不仅为纯翻译研究提供了有力的工具,而且在应用翻译研究中也大有作为。本文力求结合语料库在翻译教学、翻译批评和机器翻译等领域的应用成果,对语料库的应用翻译研究作一... 语料库翻译研究是20世纪90年代兴起的全新的翻译研究范式。语料库不仅为纯翻译研究提供了有力的工具,而且在应用翻译研究中也大有作为。本文力求结合语料库在翻译教学、翻译批评和机器翻译等领域的应用成果,对语料库的应用翻译研究作一个概述性介绍,以便我国研究者形成比较全面的了解和认识,更好地拓展我国翻译研究的新视野。 展开更多
关键词 平行语料库 应用翻译研究 翻译教学 翻译批评
下载PDF
基于双语平行语料库的信息服务平台建设 被引量:7
19
作者 王传英 《图书馆工作与研究》 CSSCI 北大核心 2010年第12期79-82,共4页
公共图书馆是公共信息的主要提供者,而各类外文文献信息资源则是公共信息的重要组成部分。语言障碍已经成为限制我国图书馆外文文献利用的最大"瓶颈"。上世纪80年代我国开始的语料库建设为翻译教育和翻译产业的发展奠定了坚... 公共图书馆是公共信息的主要提供者,而各类外文文献信息资源则是公共信息的重要组成部分。语言障碍已经成为限制我国图书馆外文文献利用的最大"瓶颈"。上世纪80年代我国开始的语料库建设为翻译教育和翻译产业的发展奠定了坚实的基础,其中双语平行语料库在教学单位和翻译公司得到了广泛应用。为了克服语言障碍,翻译公司和公共图书馆应该发挥各自的资源、技术优势,合作建设基于双语平行语料库的信息服务平台,以改善公共信息服务的质量和功能。 展开更多
关键词 语言障碍 翻译技术 双语平行语料库 公共图书馆 信息服务平台
下载PDF
汉语译文中标点符号使用特征:基于语料库的研究 被引量:2
20
作者 左尚君 戴光荣 《福建工程学院学报》 CAS 2014年第2期121-126,共6页
书面汉语中的标点符号与英语中的标点符号相比,有相同之处,也有不同的地方。在翻译过程中,译者常会遇到源语标点符号在译文中如何处理的棘手难题。源语中的标点符号表达的是特定语境下的语气与句法意义,如果随便将源语中的标点符号直接... 书面汉语中的标点符号与英语中的标点符号相比,有相同之处,也有不同的地方。在翻译过程中,译者常会遇到源语标点符号在译文中如何处理的棘手难题。源语中的标点符号表达的是特定语境下的语气与句法意义,如果随便将源语中的标点符号直接套用到译语中,这可能导致译语读来拗口、生硬,有时候甚至会出现歧义。可以说,译文中的标点符号是一种翻译腔标记。从汉语可比语料库(LCMC与ZCTC)中标点符号的使用情况,发现在翻译过程中英语部分标点符号的用法直接渗透到汉语中来,造成了汉语标点符号用法趋于英式化。对汉语中特有的顿号在两语料库中的分布进行了比较,发现汉语母语语料库中顿号的使用频率远远高于其在汉语译语语料库中的使用频率,表明这是受"源语透过效应"的影响。 展开更多
关键词 标点符号 英译汉 可比语料库 平行语料库 源语透过效应
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部