融合术语信息的新能源专利机器翻译研究被引量：1

Research on New Energy Patent Machine Translation Integrating Terminology Information

下载PDF

导出

摘要传统的神经机器翻译模型是一个黑盒子,并不能有效把术语信息添加进去。而利用用户提供的术语词典来联合训练神经机器翻译模型具有实际意义。据此,该文提出融入术语信息的新能源领域Transformer专利机器翻译模型,使用将源端术语替换为目标端术语以及在源端术语后增添目标端术语两种手段进行术语信息融合,实验表明,在构建的新能源领域专利汉英平行语料库和术语库上,提出的专利翻译模型优于Transformer基准模型。并评测了其在人工构建的数据集、中国专利信息中心的数据集及世界知识产权局的数据集上的翻译效果。 The traditional neural machine translation is a black box and cannot effectively add terminology information.It is of practical significance to use term provided by the user to jointly train the neural machine translation model.Accordingly,we propose a new energy transformer patent machine translation model with terminology information incorporated.The source term is replaced with the target term and the target term is added after the source term to fusing the terminology information.Experimentsal results on the Chinese-English task with patent termbase in the field of new energy show that the proposed patent translation model is better than the Transformer baseline model,as well as the translation quality analysis on three datasets.

作者游新冬杨海翔陈海涛孙甜吕学强 YOU Xindong;YANG Haixiang;CHEN Haitao;SUN Tian;LV Xueqiang(Beijing Key Laboratory of Internet Culture and Digital Dissemination Research,Beijing Information Science and Technology University,Beijing 100101,China;School of Foreign Languages,Beijing Information Science and Technology University,Beijing 100192,China)

机构地区北京信息科技大学网络文化与数字传播北京市重点实验室北京信息科技大学外国语学院

出处《中文信息学报》 CSCD 北大核心 2021年第12期76-83,93,共9页 Journal of Chinese Information Processing

基金北京市自然科学基金(4212020) 国家自然科学基金(62171043) 北京市教委科研计划项目(KM20211232001) 北京信息科技大学“勤信人才”培育计划项目(QXTCPB201908)

关键词新能源专利神经机器翻译术语 TRANSFORMER new energy patent neural machine translation term Transformer

分类号 TP391.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1赵子甲.基于专利视角的我国新能源产业技术发展态势研究[J].中国发明与专利,2019,16(10):36-42. 被引量：8
2张霄军,刘群.第十四届机器翻译峰会(MT Summit XIV)综述[J].中文信息学报,2015,29(1):203-206. 被引量：1
3晋耀红.一种混合策略的专利机器翻译系统研究[J].计算机工程与应用,2012,48(4):29-32. 被引量：12
4张冬梅,晋耀红.面向专利机器翻译的要素句蜕识别和转换研究[J].计算机科学,2014,41(S1):67-71. 被引量：3
5朱筠,晋耀红.面向汉英专利机器翻译的复杂谓语形态转换研究[J].语言文字应用,2015(1):127-135. 被引量：3
6胡韧奋.面向汉英专利机器翻译的介词短语自动识别策略[J].语言文字应用,2015(1):136-144. 被引量：8
7李洪政,赵凯,胡韧奋,蒋宏飞,朱筠,晋耀红.面向专利领域的汉英机器翻译融合系统[J].情报工程,2017,3(3):105-115. 被引量：7
8苏依拉,高芬,仁庆道尔吉.中文字粒度切分在蒙汉机器翻译的应用[J].中文信息学报,2019,33(12):54-60. 被引量：2

二级参考文献48

1任楚威.英文专利文献的语言特点及其翻译研究[J].中国科技翻译,1994,7(1):25-27. 被引量：9
2陈立民.汉语的时态和时态成分[J].语言研究,2002,22(3):14-31. 被引量：50
3戴新宇,尹存燕,陈家骏,郑国梁.机器翻译研究现状与展望[J].计算机科学,2004,31(11):176-179. 被引量：28
4刘丹青.汉语关系从句标记类型初探[J].中国语文,2005(1):3-15. 被引量：119
5周慧先.汉英动词“时”和“体”的比较研究[J].云南师范大学学报（对外汉语教学与研究版）,2005,3(2):55-60. 被引量：13
6干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,19(4):17-23. 被引量：14
7Kwon O W, Choi S K, Lee K Y, et al.English-Korean patent translation system: FromTo-EK/PAT[C]//Workshop on Patent Trans- lation, 2007.
8Kaji H.Domain dependence of lexical translation: a case study of patent abstract[C]//MT Summit X Workshop on Patent Trans- lation, Thailand, 2005.
9Fujii A, Utiyama M, Yamamoto M, et al.Overview of the patent translation task at the NTCIR-7 workshop[C]//Proceedings of NTCIR-7 Workshop Meeting, Japan,2008.
10Marcu D, Wang W, Echihabi A, et al.SPMT: statistical machine translation with syntactified target language phrases[C]//Proceed- ings of the 2006 Conference on Empirical Methods in Natu- ral Language Processing(EMNLP 2006),Sydney,2006.

共引文献34

1陈韵,张鹏华,任利华.机器翻译研究述评[J].价值工程,2013,32(1):174-176. 被引量：3
2张冬梅,刘小蝶,晋耀红.基于模板的汉英专利机器翻译研究[J].计算机应用研究,2013,30(7):2044-2046. 被引量：6
3刘丙友,凌有铸,孟一博.SVPWM算法的关键技术研究及实现[J].计算机工程与应用,2014,50(2):222-225. 被引量：7
4杨洋.中英文翻译软件的开发与应用[J].电子测试,2014,25(4):36-38. 被引量：1
5胡韧奋,肖航.面向二语教学的汉语搭配知识库构建及其应用研究[J].语言文字应用,2019(1):135-144. 被引量：7
6胡韧奋.面向汉英专利机器翻译的介词短语自动识别策略[J].语言文字应用,2015(1):136-144. 被引量：8
7达瓦.伊德木草,艾山.吾买尔.实例统计翻译混合策略的汉民病历翻译的研究[J].新疆大学学报（自然科学版）,2015,32(1):68-73. 被引量：3
8万福成,于洪志,吴玺宏,何向真.面向机器翻译的藏语短语句法研究[J].计算机工程与应用,2015,51(13):211-215. 被引量：5
9李洪政,晋耀红.基于条件随机场方法的汉语专利文本介词短语识别[J].现代语文（下旬．语言研究）,2015(7):120-122. 被引量：1
10李洪政,晋耀红.汉语介词短语自动识别研究综述[J].中文信息学报,2017,31(2):1-10. 被引量：1

同被引文献4

1冯洋,邵晨泽.神经机器翻译前沿综述[J].中文信息学报,2020(7):1-18. 被引量：36
2董兴华,陈丽娟,周喜,周俊林,吐尔洪.吾司曼.汉维统计机器翻译中的形态学处理[J].计算机工程,2011,37(12):150-152. 被引量：5
3张知行,张佳影,高大启,阮彤,王俊,何萍,姚华彦.临床检验指标术语库的构建与病历挖掘应用[J].中文信息学报,2020,34(12):100-110. 被引量：1
4张泽锋,毛存礼,余正涛,黄于欣,刘奕洋.融入领域术语词典的司法舆情敏感信息识别[J].中文信息学报,2022,36(9):76-83. 被引量：10

引证文献1

1张金鹏,段湘煜.结合向量化方法与掩码机制的术语干预翻译模型[J].计算机工程,2023,49(11):70-76.

1郭建林.一种用于腐植酸分离的离心机[J].腐植酸,2021(4):76-78.
2张超轶,陈媛,张聚伟.融合术语信息的神经机器翻译参数初始化研究[J].河南科技大学学报（自然科学版）,2022,43(4):61-66. 被引量：2
3孙义栋,拥措,杨丹.基于VOLT的藏汉双向机器翻译[J].计算机与现代化,2022(5):28-32. 被引量：3
4艾天宇,陈芙.人工智能时代翻译硕士专业学生的翻译技能研究[J].英语广场（学术研究）,2022(11):25-28.
5陈怡颖,王子竹.从黑盒子到因果律:寻找量子物理的信息原理[J].电子科技大学学报,2022,51(3):322-341.
6董振恒,任维平,游新冬,吕学强.融入新能源领域术语知识的机器翻译方法[J].计算机科学,2022,49(6):305-312. 被引量：1
7房婉琪,石洁.红色电影《1921》字幕翻译中归化策略的应用[J].英语广场（学术研究）,2022(15):3-5.
8沙九,冯冲,周鹭琴,李洪政,张天夫,慧慧.面向司法领域的高质量开源藏汉平行语料库构建[J].中文信息学报,2021,35(11):51-59. 被引量：4
9李江珊.网文“出海”背景下的网游小说翻译研究——以《全职高手》游戏角色名称翻译为例[J].现代英语,2022(4):45-48.
10张叶方.社会文化负载词的英译研究——以《蛙》为例[J].英语广场（学术研究）,2022(15):6-8. 被引量：1

中文信息学报

2021年第12期

浏览历史

内容加载中请稍等...

融合术语信息的新能源专利机器翻译研究被引量：1

参考文献8

二级参考文献48

共引文献34

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

融合术语信息的新能源专利机器翻译研究 被引量：1

参考文献8

二级参考文献48

共引文献34

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

融合术语信息的新能源专利机器翻译研究被引量：1