期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于领域术语词典和句式框架的藏汉机器翻译领域数据增强方法研究
1
作者
格桑加措
尼玛扎西
+2 位作者
嘎玛扎西
次仁白玛
步寅硕
《高原科学研究》
CSCD
2024年第3期92-101,132,共11页
藏汉机器翻译系统在新闻、时政等领域已经取得了显著的翻译效果,这主要归功于建立了相对充足的双语句对。然而,现有藏汉双语语料中存在较大的领域偏差问题,藏医、佛学等领域的数据极度稀缺,导致藏汉翻译模型在处理这些低资源领域句对时...
藏汉机器翻译系统在新闻、时政等领域已经取得了显著的翻译效果,这主要归功于建立了相对充足的双语句对。然而,现有藏汉双语语料中存在较大的领域偏差问题,藏医、佛学等领域的数据极度稀缺,导致藏汉翻译模型在处理这些低资源领域句对时面临着领域词汇稀缺和翻译困难的挑战。为了解决这一问题,充分利用现有领域术语双语词典,提出了一种基于词典结合特定领域上下文语义关系的翻译质量提升方法,并应用于传统藏医药领域。首先,收集并建立了包含9166对词条的藏医领域术语双语词典,并利用该词典扩充低资源领域的数据,以提高翻译系统对于特定领域术语的覆盖率;其次,将词典中的词对直接添加到已有句对中、领域词典中的词来替换原有句对中的词两种方式进行数据扩充,以验证词典扩充的领域翻译性能;最后,考虑到领域特定句式信息对于翻译的重要性,通过分析特定领域的语境和语义关系,提出引入特定领域上下文句式框架来优化特殊领域的翻译性能,在传统藏医药领域进行测试。实验结果表明,在利用词典进行数据扩充后,传统藏医药领域的BLEU值从0提升到4.59,且文章提出的领域句式框架方法,仅构造5条句式框架,就能使BLEU值最高提升至6.32,这为解决低资源领域翻译问题提供了新的思路和方法。
展开更多
关键词
藏汉机器翻译
领域数据不平衡
领域句式框架
术语双语词典
下载PDF
职称材料
题名
基于领域术语词典和句式框架的藏汉机器翻译领域数据增强方法研究
1
作者
格桑加措
尼玛扎西
嘎玛扎西
次仁白玛
步寅硕
机构
西藏大学信息科学技术学院
西藏大学西藏自治区藏文信息技术人工智能重点实验室
西藏大学藏文信息技术教育部工程研究中心
西藏大学西藏信息化省部共建协同创新中心
出处
《高原科学研究》
CSCD
2024年第3期92-101,132,共11页
基金
新一代人工智能国家科技重大专项项目(2022ZD0116101)
西藏自治区自然科学基金重点项目(XZ202201ZR0054G).
文摘
藏汉机器翻译系统在新闻、时政等领域已经取得了显著的翻译效果,这主要归功于建立了相对充足的双语句对。然而,现有藏汉双语语料中存在较大的领域偏差问题,藏医、佛学等领域的数据极度稀缺,导致藏汉翻译模型在处理这些低资源领域句对时面临着领域词汇稀缺和翻译困难的挑战。为了解决这一问题,充分利用现有领域术语双语词典,提出了一种基于词典结合特定领域上下文语义关系的翻译质量提升方法,并应用于传统藏医药领域。首先,收集并建立了包含9166对词条的藏医领域术语双语词典,并利用该词典扩充低资源领域的数据,以提高翻译系统对于特定领域术语的覆盖率;其次,将词典中的词对直接添加到已有句对中、领域词典中的词来替换原有句对中的词两种方式进行数据扩充,以验证词典扩充的领域翻译性能;最后,考虑到领域特定句式信息对于翻译的重要性,通过分析特定领域的语境和语义关系,提出引入特定领域上下文句式框架来优化特殊领域的翻译性能,在传统藏医药领域进行测试。实验结果表明,在利用词典进行数据扩充后,传统藏医药领域的BLEU值从0提升到4.59,且文章提出的领域句式框架方法,仅构造5条句式框架,就能使BLEU值最高提升至6.32,这为解决低资源领域翻译问题提供了新的思路和方法。
关键词
藏汉机器翻译
领域数据不平衡
领域句式框架
术语双语词典
Keywords
Tibetan-Chinese machine translation
domain data imbalance
domain sentence structure framework
terminology bilingual dictionary
分类号
TP391.2 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于领域术语词典和句式框架的藏汉机器翻译领域数据增强方法研究
格桑加措
尼玛扎西
嘎玛扎西
次仁白玛
步寅硕
《高原科学研究》
CSCD
2024
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部