期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于回译和比例抽取孪生网络筛选的汉越平行语料扩充方法
被引量:
4
1
作者
王可超
郭军军
+2 位作者
张亚飞
高盛祥
余正涛
《计算机工程与科学》
CSCD
北大核心
2022年第10期1861-1868,共8页
回译作为翻译中重要的数据增强方法,受到了越来越多研究者的关注。其基本思想为首先基于平行语料训练基础翻译模型,然后利用模型将单语语料翻译为目标语言,组合为新语料用于模型训练。然而在汉-越低资源场景下,训练得到的基础翻译模型...
回译作为翻译中重要的数据增强方法,受到了越来越多研究者的关注。其基本思想为首先基于平行语料训练基础翻译模型,然后利用模型将单语语料翻译为目标语言,组合为新语料用于模型训练。然而在汉-越低资源场景下,训练得到的基础翻译模型性能较差,导致在其上应用回译方法得到的平行语料中含有较多噪声,较难用于下游任务。针对此问题,构建基于比例抽取的孪生网络筛选模型,通过训练使得模型可以识别平行句对和伪平行句对,在同一语义空间上对回译得到的伪平行语料进行筛选去噪,进而得到更优的平行语料。在汉越数据集上的实验结果表明,所提方法训练的模型的性能相较基线模型有显著提升。
展开更多
关键词
汉越平行
语料扩充
回译
数据增强
比例抽取
孪生网络
下载PDF
职称材料
基于语种相似性挖掘的神经机器翻译语料库扩充方法
2
作者
李灿
杨雅婷
+1 位作者
马玉鹏
董瑞
《计算机应用》
CSCD
北大核心
2021年第11期3145-3150,共6页
针对低资源语言机器翻译任务上一直存在的标注数据资源匮乏问题,提出了基于语种相似性挖掘的神经机器翻译语料库扩充方法。首先,将维吾尔语和哈萨克语作为相似语言对并将其语料进行混合;然后,对混合后的语料分别进行字节对编码(BPE)处...
针对低资源语言机器翻译任务上一直存在的标注数据资源匮乏问题,提出了基于语种相似性挖掘的神经机器翻译语料库扩充方法。首先,将维吾尔语和哈萨克语作为相似语言对并将其语料进行混合;然后,对混合后的语料分别进行字节对编码(BPE)处理、音节切分处理以及基于音节切分的BPE处理,从而深度挖掘哈语和维语的相似性;最后,引入“开始-中部-结束(BME)”序列标注方法对语料中已切分完成的音节进行标注,以消除音节输入所带来的一些歧义。在CWMT2015维汉平行语料和哈汉平行语料上的实验结果表明,所提方法相较于不进行特殊语料处理以及BPE语料处理训练所得普通模型在维吾尔语-汉语翻译上的双语评估替补(BLEU)值分别提升了9.66、4.55,在哈萨克语-汉语翻译上的BLEU值分别提升了9.44、4.36。所提方案实现了维语和哈语到汉语的跨语言神经机器翻译,提升了维吾尔语-汉语和哈萨克语-汉语机器翻译的翻译质量,可应用于维语和哈语的语料处理。
展开更多
关键词
相似语种
语料扩充
机器翻译
字节对编码
音节切分
基于音节切分的字节对编码
“开始-中部-结束”序列标注方法
下载PDF
职称材料
EM算法在神经机器翻译模型中的应用研究
被引量:
3
3
作者
杨云
王全
《计算机应用与软件》
北大核心
2020年第8期250-255,共6页
传统的机器翻译模型的性能受限于双语平行语料库的规模,仅使用单语数据的无监督机器翻译方法难以有效保证模型性能的稳定。针对该问题,提出一种联合EM算法的自动语料扩充方法。利用生成的单语料结合原数据集构建平行语料,进行模型的迭...
传统的机器翻译模型的性能受限于双语平行语料库的规模,仅使用单语数据的无监督机器翻译方法难以有效保证模型性能的稳定。针对该问题,提出一种联合EM算法的自动语料扩充方法。利用生成的单语料结合原数据集构建平行语料,进行模型的迭代训练。根据部分双语语料初始化预训练两个单向Transformer模型;通过联合EM算法进行模型优化;通过逐渐减少训练数据的翻译损失来迭代更新两个相对翻译任务上机器翻译模型。实验结果表明,基于单双语料混合的EM迭代训练方法相比使用全双语数据的监督机器翻译方法和仅使用单语数据的无监督机器翻译方法,在中英机器翻译任务上具有更好的表现。
展开更多
关键词
语料扩充
EM算法
迭代训练
TRANSFORMER
语料
混合
下载PDF
职称材料
小游戏,大用途
4
作者
侯凤燕
《快乐阅读》
2016年第14期90-90,共1页
为提高高一学生对阅读的兴趣,授课老师设置了游戏环节。此环节发挥了两头兼顾的作用,一方面增加阅读课的趣味性,另一方面增加阅读的语料,扩充学生的知识面,提升学生提取信息的能力。
关键词
游戏
趣味性
扩充
语料
提炼信息
下载PDF
职称材料
题名
基于回译和比例抽取孪生网络筛选的汉越平行语料扩充方法
被引量:
4
1
作者
王可超
郭军军
张亚飞
高盛祥
余正涛
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
出处
《计算机工程与科学》
CSCD
北大核心
2022年第10期1861-1868,共8页
基金
国家自然科学基金(61732005,61761026,61866020,61672271,61762056,61972186)
国家重点研发计划(2019QY1801,2019QY1802,2019QY1800)。
文摘
回译作为翻译中重要的数据增强方法,受到了越来越多研究者的关注。其基本思想为首先基于平行语料训练基础翻译模型,然后利用模型将单语语料翻译为目标语言,组合为新语料用于模型训练。然而在汉-越低资源场景下,训练得到的基础翻译模型性能较差,导致在其上应用回译方法得到的平行语料中含有较多噪声,较难用于下游任务。针对此问题,构建基于比例抽取的孪生网络筛选模型,通过训练使得模型可以识别平行句对和伪平行句对,在同一语义空间上对回译得到的伪平行语料进行筛选去噪,进而得到更优的平行语料。在汉越数据集上的实验结果表明,所提方法训练的模型的性能相较基线模型有显著提升。
关键词
汉越平行
语料扩充
回译
数据增强
比例抽取
孪生网络
Keywords
Chinese-Vietnamese parallel corpus expansion
back translation
data enhancement
proportional extraction
siamese network
分类号
H085 [语言文字—语言学]
下载PDF
职称材料
题名
基于语种相似性挖掘的神经机器翻译语料库扩充方法
2
作者
李灿
杨雅婷
马玉鹏
董瑞
机构
中国科学院新疆理化技术研究所
中国科学院大学
新疆民族语音语言信息处理实验室(中国科学院新疆理化技术研究所)
出处
《计算机应用》
CSCD
北大核心
2021年第11期3145-3150,共6页
基金
国家自然科学基金资助项目(U1703133)
国家重点研发计划项目(2017YFC0822505-04)
+2 种基金
中国科学院“西部之光”人才培养计划A类项目(2017-XBQNXZ-A-005)
中国科学院青年创新促进会项目(2017472号)
新疆高层次引进人才项目(新人社函[2017]699号)。
文摘
针对低资源语言机器翻译任务上一直存在的标注数据资源匮乏问题,提出了基于语种相似性挖掘的神经机器翻译语料库扩充方法。首先,将维吾尔语和哈萨克语作为相似语言对并将其语料进行混合;然后,对混合后的语料分别进行字节对编码(BPE)处理、音节切分处理以及基于音节切分的BPE处理,从而深度挖掘哈语和维语的相似性;最后,引入“开始-中部-结束(BME)”序列标注方法对语料中已切分完成的音节进行标注,以消除音节输入所带来的一些歧义。在CWMT2015维汉平行语料和哈汉平行语料上的实验结果表明,所提方法相较于不进行特殊语料处理以及BPE语料处理训练所得普通模型在维吾尔语-汉语翻译上的双语评估替补(BLEU)值分别提升了9.66、4.55,在哈萨克语-汉语翻译上的BLEU值分别提升了9.44、4.36。所提方案实现了维语和哈语到汉语的跨语言神经机器翻译,提升了维吾尔语-汉语和哈萨克语-汉语机器翻译的翻译质量,可应用于维语和哈语的语料处理。
关键词
相似语种
语料扩充
机器翻译
字节对编码
音节切分
基于音节切分的字节对编码
“开始-中部-结束”序列标注方法
Keywords
similar language
corpus expansion
machine translation
Byte Pair Encoding(BPE)
syllable segmentation
Byte Pair Encoding(BPE)based on syllable segmentation
“Begin-Middle-End(BME)”sequence tagging method
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
EM算法在神经机器翻译模型中的应用研究
被引量:
3
3
作者
杨云
王全
机构
陕西科技大学电子信息与人工智能学院
出处
《计算机应用与软件》
北大核心
2020年第8期250-255,共6页
基金
国家自然科学基金项目(61601271)。
文摘
传统的机器翻译模型的性能受限于双语平行语料库的规模,仅使用单语数据的无监督机器翻译方法难以有效保证模型性能的稳定。针对该问题,提出一种联合EM算法的自动语料扩充方法。利用生成的单语料结合原数据集构建平行语料,进行模型的迭代训练。根据部分双语语料初始化预训练两个单向Transformer模型;通过联合EM算法进行模型优化;通过逐渐减少训练数据的翻译损失来迭代更新两个相对翻译任务上机器翻译模型。实验结果表明,基于单双语料混合的EM迭代训练方法相比使用全双语数据的监督机器翻译方法和仅使用单语数据的无监督机器翻译方法,在中英机器翻译任务上具有更好的表现。
关键词
语料扩充
EM算法
迭代训练
TRANSFORMER
语料
混合
Keywords
Corpus expansion
EM algorithm
Iterative training
Transformer
Corpus mixing
分类号
TP391.2 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
小游戏,大用途
4
作者
侯凤燕
机构
南京第二十九中学
出处
《快乐阅读》
2016年第14期90-90,共1页
文摘
为提高高一学生对阅读的兴趣,授课老师设置了游戏环节。此环节发挥了两头兼顾的作用,一方面增加阅读课的趣味性,另一方面增加阅读的语料,扩充学生的知识面,提升学生提取信息的能力。
关键词
游戏
趣味性
扩充
语料
提炼信息
分类号
G633.41 [文化科学—教育学]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于回译和比例抽取孪生网络筛选的汉越平行语料扩充方法
王可超
郭军军
张亚飞
高盛祥
余正涛
《计算机工程与科学》
CSCD
北大核心
2022
4
下载PDF
职称材料
2
基于语种相似性挖掘的神经机器翻译语料库扩充方法
李灿
杨雅婷
马玉鹏
董瑞
《计算机应用》
CSCD
北大核心
2021
0
下载PDF
职称材料
3
EM算法在神经机器翻译模型中的应用研究
杨云
王全
《计算机应用与软件》
北大核心
2020
3
下载PDF
职称材料
4
小游戏,大用途
侯凤燕
《快乐阅读》
2016
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部