期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
Research on Cross-Language Retrieval Using Bilingual Word Vectors in Different Languages
1
作者 Yulong Li Dong Zhou 《国际计算机前沿大会会议论文集》 2019年第1期462-465,共4页
Bilingual word vectors have been exploited a lot in cross-language information retrieval research. However, most of the research is currently focused on similar language pairs. There are very few studies exploring the... Bilingual word vectors have been exploited a lot in cross-language information retrieval research. However, most of the research is currently focused on similar language pairs. There are very few studies exploring the impact of using bilingual word vectors for cross-language information retrieval in long-distance language pairs. In this paper, it systematically analyzes the retrieval performance of various European languages (English, German, Italian, French, Finnish, Dutch) as well as Asian languages (Chinese, Japanese) in the adhoc task of CLEF 2002–2003 campaign. Genetic proximity was used to visually represent the relationships between languages and compare their crosslingual retrieval performance in various settings. The results show that the differences in language vocabulary would dramatically affect the retrieval performance. At the same time, the term by term translation retrieval method performs slightly better than the simple vector addition retrieval methods. It proves that the translation-based retrieval model can still maintain its advantage under the new semantic scheme. 展开更多
关键词 CROSS-LANGUAGE information retrieval bilingual word EMBEDDING Genetic PROXIMITY Language pairs
下载PDF
基于双语词典的远距离语对无监督神经机器翻译方法
2
作者 黄孟钦 《现代电子技术》 北大核心 2024年第7期161-164,共4页
为了缓解大型平行语料库稀缺性对机器翻译质量的影响,无监督方法在神经机器翻译领域备受关注,但其在远距离语言对上的翻译表现仍有待提高。因此,文中引入了翻译语言模型(TLM)并提出了Dict-TLM方法。该方法的核心思想是结合单语语料和无... 为了缓解大型平行语料库稀缺性对机器翻译质量的影响,无监督方法在神经机器翻译领域备受关注,但其在远距离语言对上的翻译表现仍有待提高。因此,文中引入了翻译语言模型(TLM)并提出了Dict-TLM方法。该方法的核心思想是结合单语语料和无监督双语词典训练语言模型。具体而言,模型首先接受源语言句子作为输入,然后,不同于传统TLM只接受平行语料,Dict-TLM模型还接受源语言句子通过无监督双语词典处理后的数据作为输入,在这种输入中,模型将源语言句子中在双语词典中出现的单词替换为相应的目标语言翻译词,重要的是,该方法中的双语词典是无监督获得的。实验表明,Dict-TLM相对于传统无监督机器翻译在中英语言对上提高了3个BLEU分数。 展开更多
关键词 无监督神经机器翻译 远距离语言对 预训练 TLM 双语词典 双语词嵌入
下载PDF
基于锚点词对的双语词对齐算法 被引量:10
3
作者 张孝飞 陈肇雄 +1 位作者 黄河燕 王建德 《小型微型计算机系统》 CSCD 北大核心 2006年第2期330-334,共5页
双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题,其中涉及词法、语法、语义以及英汉语言间的固有差异和翻译习惯等诸多问题.文章在词法分析的基础上,利用有限的语言资源(主要... 双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题,其中涉及词法、语法、语义以及英汉语言间的固有差异和翻译习惯等诸多问题.文章在词法分析的基础上,利用有限的语言资源(主要只使用了一部双语词典),采取多级匹配和消歧策略,将词对齐问题转化为迭代求解锚点词对的过程,使得词对齐既有较高的准确率又有较高的召回率.经过对真实语料的测试,词对齐准确率达93.0%,召回率达77.3%,F值达84.2%,基本上满足了有关应用的实际要求. 展开更多
关键词 自然语言处理 双语词对齐 语料 锚点词对
下载PDF
一种有效的基于Web的双语翻译对获取方法 被引量:11
4
作者 郭稷 吕雅娟 刘群 《中文信息学报》 CSCD 北大核心 2008年第6期103-109,共7页
命名实体和新词、术语的翻译对机器翻译、跨语言检索、自动问答等系统的性能有着重要的影响,但是这些翻译很难从现有的翻译词典中获得。该文提出了一种从中文网页中自动获取高质量双语翻译对的方法。该方法利用网页中双语翻译对的特点,... 命名实体和新词、术语的翻译对机器翻译、跨语言检索、自动问答等系统的性能有着重要的影响,但是这些翻译很难从现有的翻译词典中获得。该文提出了一种从中文网页中自动获取高质量双语翻译对的方法。该方法利用网页中双语翻译对的特点,使用统计判别模型,融合多种识别特征自动挖掘网站中存在的双语翻译对。实验结果表明,采用该模型构建的双语翻译词表,TOP1的正确率达到82.1%,TOP3的正确率达到94.5%。文中还提出了一种利用搜索引擎验证候选翻译的方法,经过验证,TOP1的正确率可以提高到84.3%。 展开更多
关键词 计算机应用 中文信息处理 双语翻译对 统计判别模型 网络挖掘
下载PDF
基于统计的翻译等价词对抽取研究 被引量:11
5
作者 常宝宝 《计算机学报》 EI CSCD 北大核心 2003年第5期616-621,共6页
对利用汉英双语语料进行翻译等价词对抽取进行了探索 .对不同的词对关联度量方法进行了对比 ,考察了词性信息、多词翻译单元识别对翻译等价词对抽取结果所可能产生的改进以及负面影响 .
关键词 机器翻译 双语语料库 翻译等价词 统计 知识获取 单元识别
下载PDF
基于双语URL匹配模式可信度的平行网页识别研究 被引量:3
6
作者 章成志 马舒天 +1 位作者 揭春雨 姚旭晨 《中文信息学报》 CSCD 北大核心 2018年第3期91-100,共10页
平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法:即利用全局可信... 平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法:即利用全局可信度,救回因低于局部可信度阈值而被初始算法滤掉的匹配模式;通过全局可信度和网页检测方法,挖出深层网页。进一步,结合网站双语可信度、链接关系,侦测出种子网站周边更多较具可信度的双语网站。除了双语URL匹配模式自动识别,还利用搜索引擎,依据少数高可信度的匹配模式快速识别双语网页。为了提高以上五种方法识别候选双语网页对的准确率,计算了候选双语网页对的双语相似度,并设置阈值过滤非双语网页对。通过实验验证了所提方法的有效性。 展开更多
关键词 平行网页获取 平行语料库 双语URL匹配模式 双语文本挖掘
下载PDF
用预定义双语对增强神经机器翻译 被引量:5
7
作者 王涛 熊德意 《中文信息学报》 CSCD 北大核心 2022年第6期36-43,共8页
将预先定义的双语对融入神经机器翻译(NMT)中一直是一项有较大应用场景,但具有挑战性的任务。受限于NMT的非离散特性以及逐词解码策略,想要在NMT中显式地融入外部双语对往往需要在解码期间修改集束搜索算法,或者对模型进行复杂修改。该... 将预先定义的双语对融入神经机器翻译(NMT)中一直是一项有较大应用场景,但具有挑战性的任务。受限于NMT的非离散特性以及逐词解码策略,想要在NMT中显式地融入外部双语对往往需要在解码期间修改集束搜索算法,或者对模型进行复杂修改。该文提出并探索了一种简单的将预先指定双语对融入NMT的方法,包括:(1)对训练数据进行适当的预处理,以添加有关预定义的双语信息;(2)使用部分共享的词向量以及额外向量增强信号,帮助模型区分预先指定的双语对和其他翻译文本。在多个语种上的实验和分析表明,该方法可以极大提高预定义短语被成功翻译的概率,达到接近99%(中英的基准是73.8%)的效果。 展开更多
关键词 神经机器翻译 预定义双语对
下载PDF
维基百科中翻译对的模板挖掘方法研究 被引量:2
8
作者 段建勇 闫启伟 +1 位作者 张梅 胡熠 《中文信息学报》 CSCD 北大核心 2015年第2期190-198,共9页
双语翻译对在跨语言信息检索、机器翻译等领域有着重要的用途,尤其是专有名词、新词、俚语和术语等的翻译是影响其系统性能的关键因素,但是这些翻译对很难从现有的词典中获得。该文针对维基百科的领域覆盖率和结构特征,提出了一种从维... 双语翻译对在跨语言信息检索、机器翻译等领域有着重要的用途,尤其是专有名词、新词、俚语和术语等的翻译是影响其系统性能的关键因素,但是这些翻译对很难从现有的词典中获得。该文针对维基百科的领域覆盖率和结构特征,提出了一种从维基百科中自动获取高质量中英文翻译对的模板挖掘方法,不但能有效地挖掘出常见的模板,而且能够发现人工不容易察觉的复杂模板。主要方法包括三步:1)从语言工具栏中直接抽取翻译对,作为进一步挖掘的启发知识;2)在维基百科页面中采用PAT-Array结构挖掘中英翻译对模板;3)利用挖掘的模板在页面中自动挖掘其他中英文翻译对,并进行模板评估。实验结果表明,模板发现翻译对的正确率达90.4%。 展开更多
关键词 双语翻译对 维基百科 模板挖掘 信息抽取
下载PDF
基于最大熵的泰语句子级实体从属关系抽取 被引量:2
9
作者 王红斌 李金绘 +2 位作者 沈强 线岩团 毛存礼 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第4期738-746,共9页
采用基于最大熵模型的方法对泰语句子级实体从属关系的抽取方法进行了研究.针对泰语句子中实体关系抽取的研究进程中语料库较为匮乏的问题,首先使用汉泰双语平行句对作为中间桥梁,将中文研究领域中相对成熟的分词、词性标注和实体识别... 采用基于最大熵模型的方法对泰语句子级实体从属关系的抽取方法进行了研究.针对泰语句子中实体关系抽取的研究进程中语料库较为匮乏的问题,首先使用汉泰双语平行句对作为中间桥梁,将中文研究领域中相对成熟的分词、词性标注和实体识别等成果,通过汉泰双语词典映射到与中文句子相对齐的泰语句子上,对泰语句子进行必要的数据处理操作,并进行一定量的人工校正和人工实体关系标注工作;进而构建基础的泰语实体关系训练语料库.在语料库的基础上,将泰语实体关系抽取问题转化为分类问题,同时结合泰语语言本身的特点,选取合适的上下文特征模板,使用最大熵模型算法对训练语料进行学习训练,构建分类器,对泰语句子中的候选实体关系三元组进行识别,最终达到实体间从属关系自动抽取的目的.实验结果显示该方法可使F值相对于已有的泰语实体关系抽取研究方法提升8%左右. 展开更多
关键词 实体关系 实体从属关系抽取 汉泰双语平行句对 最大熵模型 特征模板
下载PDF
基于未对齐汉英双语库的翻译对抽取 被引量:4
10
作者 王斌 《中文信息学报》 CSCD 北大核心 2000年第6期40-44,57,共6页
本文主要研究基于未对齐的汉英双语库翻译对抽取。文章首先介绍了PascaleFung在这方面设计的两个算法。在此基础上 ,文章对后一种算法进行了部分的改进 ,使得其更适合于真实双语文本的翻译对抽取。实现结果表明改进后算法的有效性。本... 本文主要研究基于未对齐的汉英双语库翻译对抽取。文章首先介绍了PascaleFung在这方面设计的两个算法。在此基础上 ,文章对后一种算法进行了部分的改进 ,使得其更适合于真实双语文本的翻译对抽取。实现结果表明改进后算法的有效性。本方法可以用于基于大规模双语语料库的短语翻译抽取、词典编纂等应用 ,具有较高的应用价值。 展开更多
关键词 翻译对 抽取 自然语言处理 汉英双语库
下载PDF
二分图顶点配对模型下的英汉句子对齐研究 被引量:3
11
作者 严灿勋 《中文信息学报》 CSCD 北大核心 2016年第5期153-159,共7页
英汉平行文本句子对齐可以视为一个二分图顶点配对模型。利用完全基于英汉词典的双语句子相关性评价函数,能够对二分图的"顶点对"进行加权。该文提出的顶点配对句子对齐方法首先获取二分图全局最大权重顶点配对作为临时锚点;... 英汉平行文本句子对齐可以视为一个二分图顶点配对模型。利用完全基于英汉词典的双语句子相关性评价函数,能够对二分图的"顶点对"进行加权。该文提出的顶点配对句子对齐方法首先获取二分图全局最大权重顶点配对作为临时锚点;在此基础上,根据句子先后顺序,局部最大权重顶点配对和英汉句长比的值域范围,纠正临时锚点中的错误,补充锚点序列未覆盖的合法顶点对,同时划分句对,实现句子对齐处理。在对比实验中该句子对齐方法优于Champollion句子对齐系统。从实验对比结果和实践效果看,该句子对齐方法可行。 展开更多
关键词 句子对齐 双语词典 平行文本 二分图 顶点配对 顶点对
下载PDF
双乡之间与双语写作——日本新华侨田原诗论 被引量:3
12
作者 林祁 《湘潭大学学报(哲学社会科学版)》 CSSCI 北大核心 2014年第1期126-130,共5页
活跃于双乡之间的田原,在两种语言之间锤炼独特的诗歌语言,是母语的,又是超越母语的,其意义并不仅是华文文学在海外的拓展,而是中国新诗自身在海外的深入或者叫"生长"。由于他和他的诗成长在日本,在这块让中国人情感极其纠结... 活跃于双乡之间的田原,在两种语言之间锤炼独特的诗歌语言,是母语的,又是超越母语的,其意义并不仅是华文文学在海外的拓展,而是中国新诗自身在海外的深入或者叫"生长"。由于他和他的诗成长在日本,在这块让中国人情感极其纠结,让中国诗人的痛永远新鲜的地方,纠结之痛,使其诗具有独特的异质审美价值。笔者把这些旅日诗人定位于"之间":在中日两国之间,在两种文化之间,在历史与现代之间,在昼夜之间,在男女之间……"之间"是一种不安定的变化状态。在"之间"碰撞,彷徨,焦虑。但"之间"促使思与诗成长,生命的陌生化带来了语言的陌生化效果。 展开更多
关键词 双乡之间 双语写作 “乡愁” 陌生化 变异
下载PDF
基于汉英双语语料库的翻译等价单位自动获取研究 被引量:17
13
作者 常宝宝 《术语标准化与信息技术》 2002年第2期24-29,共6页
双语语料库在机器翻译或机器辅助翻译研究中的重要作用已经越来越多地得到研究人员的认可。本文探讨了如何利用汉英双语语料进行汉英翻译等价单位的抽取,提出了基于词语关联度进行多词组合单位的识别方法,并利用假设-检验的方法,在汉英... 双语语料库在机器翻译或机器辅助翻译研究中的重要作用已经越来越多地得到研究人员的认可。本文探讨了如何利用汉英双语语料进行汉英翻译等价单位的抽取,提出了基于词语关联度进行多词组合单位的识别方法,并利用假设-检验的方法,在汉英双语语料库中抽取翻译等价单位。本文还对不同的关联度量方法进行了对比,并提出利用范畴假设改进抽取算法的效率。 展开更多
关键词 英语 汉语 双语语料库 翻译等价单位 自动抽取
下载PDF
基于主动学习的短语翻译对获取
14
作者 张春祥 赵铁军 卢志茂 《高技术通讯》 CAS CSCD 北大核心 2011年第4期380-385,共6页
利用汉-英双语句对进行了抽取短语翻译对的研究,提出了一种利用双语评价特征进行译文评价的短语翻译对主动获取方法。该方法通过选择有代表性的短语翻译对来达到减少人工标注数据的目的,以短语译文直译率、短语翻译概率和短语长度差... 利用汉-英双语句对进行了抽取短语翻译对的研究,提出了一种利用双语评价特征进行译文评价的短语翻译对主动获取方法。该方法通过选择有代表性的短语翻译对来达到减少人工标注数据的目的,以短语译文直译率、短语翻译概率和短语长度差异为基础,使用标注后的短语翻译对对支持向量机(SVM)进行训练,并使用优化后的SVM对测试数据进行分类。实验结果表明,使用此方法,在分类器性能基本没有下降的前提下,人工标注数据量减少了80%。 展开更多
关键词 短语翻译对 双语句对 双语评价特征 主动获取 支持向量机(SVM)
下载PDF
双语句子对齐系统中多层次分段对齐方法研究 被引量:1
15
作者 邹修明 祝志杰 《淮阴师范学院学报(自然科学版)》 CAS 2002年第1期32-35,共4页
分段对齐在双语句子对齐的过程中发挥着重要的作用,文章提出了一种新的基于锚点句对的分段对齐方法,并把它和传统的基于回车符的分段对齐方法相结合。
关键词 双语句子 锚点句对 分段对齐
下载PDF
基于CNN-CorrNet网络的汉缅平行句对抽取方法
16
作者 毛存礼 吴霞 +3 位作者 朱俊国 余正涛 李云龙 王振晗 《中文信息学报》 CSCD 北大核心 2020年第11期60-66,共7页
构建双语平行语料库是提升低资源语言机器翻译质量的一种有效方法。该文提出了基于CNN-CorrNet网络的汉缅平行句对抽取方法。具体而言,该文首先利用BERT得到汉语、缅语词向量表征,并将汉语、缅语两种语言句子用卷积神经网络进行句子表征... 构建双语平行语料库是提升低资源语言机器翻译质量的一种有效方法。该文提出了基于CNN-CorrNet网络的汉缅平行句对抽取方法。具体而言,该文首先利用BERT得到汉语、缅语词向量表征,并将汉语、缅语两种语言句子用卷积神经网络进行句子表征,以捕捉句子重要特征信息;然后为了保证两种语言跨语言表征的最大相关性,利用已有的汉缅平行句对作为约束条件,使用CorrNet(相关神经网络)将汉缅的句子表征投影到公共语义空间;最后计算公共语义空间中汉语、缅语句子距离,并根据距离判断汉—缅双语句子是否为平行句子。实验结果表明,相比最大熵模型、孪生网络模型,该文提出的方法F1值分别提升了13.3%、5.1%。 展开更多
关键词 汉缅双语 平行句对 卷积神经网络 相关神经网络 公共语义空间
下载PDF
双语网页分句匹配算法的研究与实现
17
作者 刘东飞 卢苇 《武汉理工大学学报(信息与管理工程版)》 CAS 2008年第5期708-710,共3页
在实现基于网络语料库和双语网页搜索的辅助翻译系统的过程中,利用网络机器人从互联网上获取中英文双语对照网页,对它们进行过滤,留下有用的信息,再把中英文句子进行匹配存入数据库。分句匹配算法是语言翻译处理领域的双语句子对齐过程... 在实现基于网络语料库和双语网页搜索的辅助翻译系统的过程中,利用网络机器人从互联网上获取中英文双语对照网页,对它们进行过滤,留下有用的信息,再把中英文句子进行匹配存入数据库。分句匹配算法是语言翻译处理领域的双语句子对齐过程,它将网页净化后获得的有用信息进行匹配,产生最终的双语语料。对分句匹配算法进行了描述,并且研究了匹配算法的实现过程。 展开更多
关键词 分句匹配 双语句对 匹配最优
下载PDF
单词配对法对双语词汇翻译的影响
18
作者 康立新 《河南科技大学学报(社会科学版)》 2016年第4期56-60,共5页
单词配对法有两种不同的顺序:L1-L2顺序(母语词在前,目的语词在后)和L2-L1顺序(目的语词在前,母语词在后)。实证研究发现,L1-L2的单词配对顺序既有利于双语词汇的正向翻译(L1-L2),也有利于双语词汇的反向翻译(L2-L1),尤其有利于词汇的... 单词配对法有两种不同的顺序:L1-L2顺序(母语词在前,目的语词在后)和L2-L1顺序(目的语词在前,母语词在后)。实证研究发现,L1-L2的单词配对顺序既有利于双语词汇的正向翻译(L1-L2),也有利于双语词汇的反向翻译(L2-L1),尤其有利于词汇的长期记忆;双语词汇翻译在准确度方面存在着翻译方向的非对称性,但L1-L2的单词配对顺序可以弱化词汇翻译的非对称性,尤其在短时记忆中,L1-L2的单词配对顺序可以使词汇翻译的非对称性消失。研究使人们对这一看起来简单且很少有人研究的单词配对法有了不同的认识。 展开更多
关键词 单词配对法 双语 词汇翻译
下载PDF
多语种翻译词汇的在线自动抽取 被引量:4
19
作者 原双庆 李芳 盛焕烨 《计算机研究与发展》 EI CSCD 北大核心 2004年第5期843-847,共5页
越来越多网页以多种语言的形式在互联网上传播 ,从中抽取多语种翻译词汇具有重要的研究价值 针对网页的特点 ,提出了一种新的多语种翻译词汇的在线自动抽取方法 该方法通过对双语网页中超链接信息相似度的计算 ,获取多语种翻译词汇 ,... 越来越多网页以多种语言的形式在互联网上传播 ,从中抽取多语种翻译词汇具有重要的研究价值 针对网页的特点 ,提出了一种新的多语种翻译词汇的在线自动抽取方法 该方法通过对双语网页中超链接信息相似度的计算 ,获取多语种翻译词汇 ,相似性越高 ,对应的词条互为翻译对的可能性越大 通过对中英、德英、法英 3类双语网页的抽取 ,结果证明它具有较高的准确率 。 展开更多
关键词 多语种词汇 双语网页 翻译词汇对 超链接
下载PDF
Web环境下自动获取汉、维语料库 被引量:1
20
作者 姜子进 吐尔根.依布拉音 +1 位作者 赛依旦.阿不力米提 田生伟 《计算机应用与软件》 CSCD 2011年第12期19-21,70,共4页
句子级的语料库是机器翻译的重要资源,但由于获取途径的限制,句子级的语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求。根据锚文本信息通过搜索引擎在网络上找到汉维双语平行网站,并下载网站中所有的双语平行网页。... 句子级的语料库是机器翻译的重要资源,但由于获取途径的限制,句子级的语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求。根据锚文本信息通过搜索引擎在网络上找到汉维双语平行网站,并下载网站中所有的双语平行网页。提取出有正文的网页,根据html特征,建立html树,提出一种将html树结构作为识别网页正文内容重要特征的网页分析方法,并根据正文内容信息相似性提取网页正文。对提取出的正文进行句子切分,分别创建句子级的汉、维语料库,为以后创建句子级的汉维双语平行语料库服务。 展开更多
关键词 双语平行语料库 双语平行句对 正文提取
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部