期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于半监督的汉缅双语词典构建方法
1
作者 毛存礼 陆杉 +3 位作者 王红斌 余正涛 吴霞 王振晗 《中文信息学报》 CSCD 北大核心 2021年第7期47-53,共7页
汉缅双语词典是开展机器翻译、跨语言检索等研究的重要数据资源。当前在种子词典的基础上使用迭代自学习的方法在平行语料中抽取双语词典取得了较好的效果,然而针对低资源语言汉语-缅语的双语词典抽取任务,由于双语平行资源匮乏,基于迭... 汉缅双语词典是开展机器翻译、跨语言检索等研究的重要数据资源。当前在种子词典的基础上使用迭代自学习的方法在平行语料中抽取双语词典取得了较好的效果,然而针对低资源语言汉语-缅语的双语词典抽取任务,由于双语平行资源匮乏,基于迭代自学习的方法不能得到有效的双语词向量表示,致使双语词典抽取模型准确度较低。研究表明,可比语料中相似词语往往具有相似的上下文,为此,该文提出了一种基于半监督的汉缅双语词典构建方法,通过利用预训练语言模型来构建双语词汇的上下文特征向量,对基于可比语料和小规模种子词典的迭代自学习方法得到的汉缅双语词汇进行语义增强。实验结果表明,该文提出的方法相较于基线方法有明显的性能提升。 展开更多
关键词 汉缅双语 种子词典 迭代自学习 预训练言模型 上下文特征 半监督
下载PDF
基于CNN-CorrNet网络的汉缅平行句对抽取方法
2
作者 毛存礼 吴霞 +3 位作者 朱俊国 余正涛 李云龙 王振晗 《中文信息学报》 CSCD 北大核心 2020年第11期60-66,共7页
构建双语平行语料库是提升低资源语言机器翻译质量的一种有效方法。该文提出了基于CNN-CorrNet网络的汉缅平行句对抽取方法。具体而言,该文首先利用BERT得到汉语、缅语词向量表征,并将汉语、缅语两种语言句子用卷积神经网络进行句子表征... 构建双语平行语料库是提升低资源语言机器翻译质量的一种有效方法。该文提出了基于CNN-CorrNet网络的汉缅平行句对抽取方法。具体而言,该文首先利用BERT得到汉语、缅语词向量表征,并将汉语、缅语两种语言句子用卷积神经网络进行句子表征,以捕捉句子重要特征信息;然后为了保证两种语言跨语言表征的最大相关性,利用已有的汉缅平行句对作为约束条件,使用CorrNet(相关神经网络)将汉缅的句子表征投影到公共语义空间;最后计算公共语义空间中汉语、缅语句子距离,并根据距离判断汉—缅双语句子是否为平行句子。实验结果表明,相比最大熵模型、孪生网络模型,该文提出的方法F1值分别提升了13.3%、5.1%。 展开更多
关键词 汉缅双语 平行句对 卷积神经网络 相关神经网络 公共义空间
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部