-
题名基于语种相似性挖掘的神经机器翻译语料库扩充方法
- 1
-
-
作者
李灿
杨雅婷
马玉鹏
董瑞
-
机构
中国科学院新疆理化技术研究所
中国科学院大学
新疆民族语音语言信息处理实验室(中国科学院新疆理化技术研究所)
-
出处
《计算机应用》
CSCD
北大核心
2021年第11期3145-3150,共6页
-
基金
国家自然科学基金资助项目(U1703133)
国家重点研发计划项目(2017YFC0822505-04)
+2 种基金
中国科学院“西部之光”人才培养计划A类项目(2017-XBQNXZ-A-005)
中国科学院青年创新促进会项目(2017472号)
新疆高层次引进人才项目(新人社函[2017]699号)。
-
文摘
针对低资源语言机器翻译任务上一直存在的标注数据资源匮乏问题,提出了基于语种相似性挖掘的神经机器翻译语料库扩充方法。首先,将维吾尔语和哈萨克语作为相似语言对并将其语料进行混合;然后,对混合后的语料分别进行字节对编码(BPE)处理、音节切分处理以及基于音节切分的BPE处理,从而深度挖掘哈语和维语的相似性;最后,引入“开始-中部-结束(BME)”序列标注方法对语料中已切分完成的音节进行标注,以消除音节输入所带来的一些歧义。在CWMT2015维汉平行语料和哈汉平行语料上的实验结果表明,所提方法相较于不进行特殊语料处理以及BPE语料处理训练所得普通模型在维吾尔语-汉语翻译上的双语评估替补(BLEU)值分别提升了9.66、4.55,在哈萨克语-汉语翻译上的BLEU值分别提升了9.44、4.36。所提方案实现了维语和哈语到汉语的跨语言神经机器翻译,提升了维吾尔语-汉语和哈萨克语-汉语机器翻译的翻译质量,可应用于维语和哈语的语料处理。
-
关键词
相似语种
语料扩充
机器翻译
字节对编码
音节切分
基于音节切分的字节对编码
“开始-中部-结束”序列标注方法
-
Keywords
similar language
corpus expansion
machine translation
Byte Pair Encoding(BPE)
syllable segmentation
Byte Pair Encoding(BPE)based on syllable segmentation
“Begin-Middle-End(BME)”sequence tagging method
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于共现词映射的中英韩跨语种文档相似度计算
- 2
-
-
作者
刘娇
崔荣一
赵亚慧
-
机构
延边大学计算机科学与技术学院智能信息处理研究室
-
出处
《中文信息学报》
CSCD
北大核心
2018年第3期55-63,共9页
-
基金
国家语委2015年度科研立项项目(教语信司函[2015]21号)
-
文摘
该文采用中英韩跨语种文本数据研究不同语种文档间相似度的计算方法。首先,通过共现词映射将某语种空间中的文档向量表示成另一语种空间中的文档向量;其次,利用潜在语义分析补充了不同语言间一词多义现象造成的向量缺失;最后,在具有等价语义信息的同一语种空间中计算了两个文档之间的余弦相似度。该文工作避开了外部词典和知识库,利用中英韩三个语种的对齐语料库,建立了不同语种词汇间的对应关系。结果表明,共现词映射对计算不同语种文档之间的相似度具有较大影响,对同语义的不同语种文档(即译文)的检索准确率达到95%,验证了该方法的有效性。
-
关键词
跨语种文档相似度
共现词
潜在语义分析
-
Keywords
cross-lingual documents similarity
co-occurrence
latent semantic analysis
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-