期刊文献+

面向科技文献神经机器翻译词汇表优化研究 被引量:2

Vocabulary Optimization of Neural Machine Translation for Scientific and Technical Document
原文传递
导出
摘要 【目的】针对面向科技文献的神经机器翻译中存在的词汇表受限问题,提出优化方法,进而提升翻译质量。【方法】根据科技词汇构词规律,结合点互信息,在保留词汇义素完整的同时,对神经机器翻译词汇表进行优化,达到减少未登录词的目的。【结果】选择NTCIR-2010专利语料和自动化计算机领域期刊论文摘要语料进行实验,将实验结果与普通分词和子词分词对比,证明该方法的有效性。【局限】仅考虑中文字符的优化。【结论】在中文科技文献领域,基于科技词汇构词的词汇表优化方法能够提升翻译效果。 [Objective]This paper optimizes the vocabulary of Neural Machine Translation(NMT)in scientific and technical domain for the problem of vocabulary limitation and improves the translation performance.[Methods]Based on the word formation and Point-wise Mutual Information(PMI),the paper proposes a method to optimize the vocabulary while preserving the integrity of the lexical semanteme which reduces the number of unknown words.[Results]The NTCIR-2010 corpus and abstract of journal articles in the domain of automation and computer were selected for experiments.The experimental results were compared with the segmentation method and the sub-word method,and it proved the effectiveness of the method.[Limitations]This paper did not cover the optimization of non-Chinese characters.[Conclusions]The experiments show that in scientific and technical domain,the vocabulary optimization algorithm based on scientific word formation achieves better translation performance.
作者 刘清民 姚长青 石崇德 温晓洁 孙玥莹 Liu Qingmin;Yao Changqing;Shi Chongde;Wen Xiaojie;Sun Yueying(Institute of Scientific and Technical Information of China,Beijing 100038,China;Faculty of Linguistic Sciences,Beijing Language and Culture University,Beijing 100032,China)
出处 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第3期76-82,共7页 Data Analysis and Knowledge Discovery
基金 国家自然科学基金项目"面向科技监测的实体识别与关系抽取研究"(项目编号:71403257) 中国科学技术信息研究所重点工作项目"日汉机器翻译双语资源建设与翻译引擎研发"(项目编号:ZD2017-4) 中国科学技术信息研究所创新研究基金项目"基于上下文信息的神经机器翻译未登录词分析"(项目编号:QN2018-06)的研究成果之一
关键词 神经机器翻译 科技文献 未登录词 Neural Machine Translation Scientific and Technical Document Out of Vocabulary
  • 相关文献

参考文献4

二级参考文献21

共引文献124

同被引文献17

引证文献2

二级引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部