期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于回译和比例抽取孪生网络筛选的汉越平行语料扩充方法
被引量:
4
1
作者
王可超
郭军军
+2 位作者
张亚飞
高盛祥
余正涛
《计算机工程与科学》
CSCD
北大核心
2022年第10期1861-1868,共8页
回译作为翻译中重要的数据增强方法,受到了越来越多研究者的关注。其基本思想为首先基于平行语料训练基础翻译模型,然后利用模型将单语语料翻译为目标语言,组合为新语料用于模型训练。然而在汉-越低资源场景下,训练得到的基础翻译模型...
回译作为翻译中重要的数据增强方法,受到了越来越多研究者的关注。其基本思想为首先基于平行语料训练基础翻译模型,然后利用模型将单语语料翻译为目标语言,组合为新语料用于模型训练。然而在汉-越低资源场景下,训练得到的基础翻译模型性能较差,导致在其上应用回译方法得到的平行语料中含有较多噪声,较难用于下游任务。针对此问题,构建基于比例抽取的孪生网络筛选模型,通过训练使得模型可以识别平行句对和伪平行句对,在同一语义空间上对回译得到的伪平行语料进行筛选去噪,进而得到更优的平行语料。在汉越数据集上的实验结果表明,所提方法训练的模型的性能相较基线模型有显著提升。
展开更多
关键词
汉越平行语料扩充
回译
数据增强
比例抽取
孪生网络
下载PDF
职称材料
题名
基于回译和比例抽取孪生网络筛选的汉越平行语料扩充方法
被引量:
4
1
作者
王可超
郭军军
张亚飞
高盛祥
余正涛
机构
昆明理工大学信息工程与自动化学院
昆明理工大学云南省人工智能重点实验室
出处
《计算机工程与科学》
CSCD
北大核心
2022年第10期1861-1868,共8页
基金
国家自然科学基金(61732005,61761026,61866020,61672271,61762056,61972186)
国家重点研发计划(2019QY1801,2019QY1802,2019QY1800)。
文摘
回译作为翻译中重要的数据增强方法,受到了越来越多研究者的关注。其基本思想为首先基于平行语料训练基础翻译模型,然后利用模型将单语语料翻译为目标语言,组合为新语料用于模型训练。然而在汉-越低资源场景下,训练得到的基础翻译模型性能较差,导致在其上应用回译方法得到的平行语料中含有较多噪声,较难用于下游任务。针对此问题,构建基于比例抽取的孪生网络筛选模型,通过训练使得模型可以识别平行句对和伪平行句对,在同一语义空间上对回译得到的伪平行语料进行筛选去噪,进而得到更优的平行语料。在汉越数据集上的实验结果表明,所提方法训练的模型的性能相较基线模型有显著提升。
关键词
汉越平行语料扩充
回译
数据增强
比例抽取
孪生网络
Keywords
Chinese-Vietnamese parallel corpus expansion
back translation
data enhancement
proportional extraction
siamese network
分类号
H085 [语言文字—语言学]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于回译和比例抽取孪生网络筛选的汉越平行语料扩充方法
王可超
郭军军
张亚飞
高盛祥
余正涛
《计算机工程与科学》
CSCD
北大核心
2022
4
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部