期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于半监督的汉缅双语词典构建方法
1
作者
毛存礼
陆杉
+3 位作者
王红斌
余正涛
吴霞
王振晗
《中文信息学报》
CSCD
北大核心
2021年第7期47-53,共7页
汉缅双语词典是开展机器翻译、跨语言检索等研究的重要数据资源。当前在种子词典的基础上使用迭代自学习的方法在平行语料中抽取双语词典取得了较好的效果,然而针对低资源语言汉语-缅语的双语词典抽取任务,由于双语平行资源匮乏,基于迭...
汉缅双语词典是开展机器翻译、跨语言检索等研究的重要数据资源。当前在种子词典的基础上使用迭代自学习的方法在平行语料中抽取双语词典取得了较好的效果,然而针对低资源语言汉语-缅语的双语词典抽取任务,由于双语平行资源匮乏,基于迭代自学习的方法不能得到有效的双语词向量表示,致使双语词典抽取模型准确度较低。研究表明,可比语料中相似词语往往具有相似的上下文,为此,该文提出了一种基于半监督的汉缅双语词典构建方法,通过利用预训练语言模型来构建双语词汇的上下文特征向量,对基于可比语料和小规模种子词典的迭代自学习方法得到的汉缅双语词汇进行语义增强。实验结果表明,该文提出的方法相较于基线方法有明显的性能提升。
展开更多
关键词
汉缅双语
种子词典
迭代自学习
预训练
语
言模型
上下文特征
半监督
下载PDF
职称材料
基于CNN-CorrNet网络的汉缅平行句对抽取方法
2
作者
毛存礼
吴霞
+3 位作者
朱俊国
余正涛
李云龙
王振晗
《中文信息学报》
CSCD
北大核心
2020年第11期60-66,共7页
构建双语平行语料库是提升低资源语言机器翻译质量的一种有效方法。该文提出了基于CNN-CorrNet网络的汉缅平行句对抽取方法。具体而言,该文首先利用BERT得到汉语、缅语词向量表征,并将汉语、缅语两种语言句子用卷积神经网络进行句子表征...
构建双语平行语料库是提升低资源语言机器翻译质量的一种有效方法。该文提出了基于CNN-CorrNet网络的汉缅平行句对抽取方法。具体而言,该文首先利用BERT得到汉语、缅语词向量表征,并将汉语、缅语两种语言句子用卷积神经网络进行句子表征,以捕捉句子重要特征信息;然后为了保证两种语言跨语言表征的最大相关性,利用已有的汉缅平行句对作为约束条件,使用CorrNet(相关神经网络)将汉缅的句子表征投影到公共语义空间;最后计算公共语义空间中汉语、缅语句子距离,并根据距离判断汉—缅双语句子是否为平行句子。实验结果表明,相比最大熵模型、孪生网络模型,该文提出的方法F1值分别提升了13.3%、5.1%。
展开更多
关键词
汉缅双语
平行句对
卷积神经网络
相关神经网络
公共
语
义空间
下载PDF
职称材料
题名
基于半监督的汉缅双语词典构建方法
1
作者
毛存礼
陆杉
王红斌
余正涛
吴霞
王振晗
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
出处
《中文信息学报》
CSCD
北大核心
2021年第7期47-53,共7页
基金
国家自然科学基金(61732005,61662041,61761026,61866019,61972186)
云南省应用基础研究计划重点项目(2019FA023)
云南省中青年学术和技术带头人后备人才项目(2019HB006)。
文摘
汉缅双语词典是开展机器翻译、跨语言检索等研究的重要数据资源。当前在种子词典的基础上使用迭代自学习的方法在平行语料中抽取双语词典取得了较好的效果,然而针对低资源语言汉语-缅语的双语词典抽取任务,由于双语平行资源匮乏,基于迭代自学习的方法不能得到有效的双语词向量表示,致使双语词典抽取模型准确度较低。研究表明,可比语料中相似词语往往具有相似的上下文,为此,该文提出了一种基于半监督的汉缅双语词典构建方法,通过利用预训练语言模型来构建双语词汇的上下文特征向量,对基于可比语料和小规模种子词典的迭代自学习方法得到的汉缅双语词汇进行语义增强。实验结果表明,该文提出的方法相较于基线方法有明显的性能提升。
关键词
汉缅双语
种子词典
迭代自学习
预训练
语
言模型
上下文特征
半监督
Keywords
Chinese-Burmese bilingual
seed dictionary
iterative self-learning
pre-trained language model
contextual feature
semi-supervised
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于CNN-CorrNet网络的汉缅平行句对抽取方法
2
作者
毛存礼
吴霞
朱俊国
余正涛
李云龙
王振晗
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
出处
《中文信息学报》
CSCD
北大核心
2020年第11期60-66,共7页
基金
国家自然科学基金(61732005,61662041,61761026,61866019,61972186)
云南省应用基础研究计划重点项目(2019FA023)
云南省中青年学术和技术带头人后备人才项目(2019HB006)。
文摘
构建双语平行语料库是提升低资源语言机器翻译质量的一种有效方法。该文提出了基于CNN-CorrNet网络的汉缅平行句对抽取方法。具体而言,该文首先利用BERT得到汉语、缅语词向量表征,并将汉语、缅语两种语言句子用卷积神经网络进行句子表征,以捕捉句子重要特征信息;然后为了保证两种语言跨语言表征的最大相关性,利用已有的汉缅平行句对作为约束条件,使用CorrNet(相关神经网络)将汉缅的句子表征投影到公共语义空间;最后计算公共语义空间中汉语、缅语句子距离,并根据距离判断汉—缅双语句子是否为平行句子。实验结果表明,相比最大熵模型、孪生网络模型,该文提出的方法F1值分别提升了13.3%、5.1%。
关键词
汉缅双语
平行句对
卷积神经网络
相关神经网络
公共
语
义空间
Keywords
Chinese-Burmese bilingual
parallel sentence pair
CNN
correlational neural networks
common semantic space
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于半监督的汉缅双语词典构建方法
毛存礼
陆杉
王红斌
余正涛
吴霞
王振晗
《中文信息学报》
CSCD
北大核心
2021
0
下载PDF
职称材料
2
基于CNN-CorrNet网络的汉缅平行句对抽取方法
毛存礼
吴霞
朱俊国
余正涛
李云龙
王振晗
《中文信息学报》
CSCD
北大核心
2020
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部