期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于回译和比例抽取孪生网络筛选的汉越平行语料扩充方法 被引量:4
1
作者 王可超 郭军军 +2 位作者 张亚飞 高盛祥 余正涛 《计算机工程与科学》 CSCD 北大核心 2022年第10期1861-1868,共8页
回译作为翻译中重要的数据增强方法,受到了越来越多研究者的关注。其基本思想为首先基于平行语料训练基础翻译模型,然后利用模型将单语语料翻译为目标语言,组合为新语料用于模型训练。然而在汉-越低资源场景下,训练得到的基础翻译模型... 回译作为翻译中重要的数据增强方法,受到了越来越多研究者的关注。其基本思想为首先基于平行语料训练基础翻译模型,然后利用模型将单语语料翻译为目标语言,组合为新语料用于模型训练。然而在汉-越低资源场景下,训练得到的基础翻译模型性能较差,导致在其上应用回译方法得到的平行语料中含有较多噪声,较难用于下游任务。针对此问题,构建基于比例抽取的孪生网络筛选模型,通过训练使得模型可以识别平行句对和伪平行句对,在同一语义空间上对回译得到的伪平行语料进行筛选去噪,进而得到更优的平行语料。在汉越数据集上的实验结果表明,所提方法训练的模型的性能相较基线模型有显著提升。 展开更多
关键词 汉越平行语料扩充 回译 数据增强 比例抽取 孪生网络
下载PDF
基于语种相似性挖掘的神经机器翻译语料库扩充方法
2
作者 李灿 杨雅婷 +1 位作者 马玉鹏 董瑞 《计算机应用》 CSCD 北大核心 2021年第11期3145-3150,共6页
针对低资源语言机器翻译任务上一直存在的标注数据资源匮乏问题,提出了基于语种相似性挖掘的神经机器翻译语料库扩充方法。首先,将维吾尔语和哈萨克语作为相似语言对并将其语料进行混合;然后,对混合后的语料分别进行字节对编码(BPE)处... 针对低资源语言机器翻译任务上一直存在的标注数据资源匮乏问题,提出了基于语种相似性挖掘的神经机器翻译语料库扩充方法。首先,将维吾尔语和哈萨克语作为相似语言对并将其语料进行混合;然后,对混合后的语料分别进行字节对编码(BPE)处理、音节切分处理以及基于音节切分的BPE处理,从而深度挖掘哈语和维语的相似性;最后,引入“开始-中部-结束(BME)”序列标注方法对语料中已切分完成的音节进行标注,以消除音节输入所带来的一些歧义。在CWMT2015维汉平行语料和哈汉平行语料上的实验结果表明,所提方法相较于不进行特殊语料处理以及BPE语料处理训练所得普通模型在维吾尔语-汉语翻译上的双语评估替补(BLEU)值分别提升了9.66、4.55,在哈萨克语-汉语翻译上的BLEU值分别提升了9.44、4.36。所提方案实现了维语和哈语到汉语的跨语言神经机器翻译,提升了维吾尔语-汉语和哈萨克语-汉语机器翻译的翻译质量,可应用于维语和哈语的语料处理。 展开更多
关键词 相似语种 语料扩充 机器翻译 字节对编码 音节切分 基于音节切分的字节对编码 “开始-中部-结束”序列标注方法
下载PDF
EM算法在神经机器翻译模型中的应用研究 被引量:1
3
作者 杨云 王全 《计算机应用与软件》 北大核心 2020年第8期250-255,共6页
传统的机器翻译模型的性能受限于双语平行语料库的规模,仅使用单语数据的无监督机器翻译方法难以有效保证模型性能的稳定。针对该问题,提出一种联合EM算法的自动语料扩充方法。利用生成的单语料结合原数据集构建平行语料,进行模型的迭... 传统的机器翻译模型的性能受限于双语平行语料库的规模,仅使用单语数据的无监督机器翻译方法难以有效保证模型性能的稳定。针对该问题,提出一种联合EM算法的自动语料扩充方法。利用生成的单语料结合原数据集构建平行语料,进行模型的迭代训练。根据部分双语语料初始化预训练两个单向Transformer模型;通过联合EM算法进行模型优化;通过逐渐减少训练数据的翻译损失来迭代更新两个相对翻译任务上机器翻译模型。实验结果表明,基于单双语料混合的EM迭代训练方法相比使用全双语数据的监督机器翻译方法和仅使用单语数据的无监督机器翻译方法,在中英机器翻译任务上具有更好的表现。 展开更多
关键词 语料扩充 EM算法 迭代训练 TRANSFORMER 语料混合
下载PDF
小游戏,大用途
4
作者 侯凤燕 《快乐阅读》 2016年第14期90-90,共1页
为提高高一学生对阅读的兴趣,授课老师设置了游戏环节。此环节发挥了两头兼顾的作用,一方面增加阅读课的趣味性,另一方面增加阅读的语料,扩充学生的知识面,提升学生提取信息的能力。
关键词 游戏 趣味性 扩充语料 提炼信息
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部