融入汉字字形特征的中英神经机器翻译模型被引量：7

Integrating Glyph Features of Chinese Character into Chinese-English Neural Machine Translation Model

下载PDF

导出

摘要神经机器翻译技术是目前机器翻译应用中取得效果最好的方法。将外部语言学知识如单词词性、依存句法标签引入神经机器翻译系统以提高翻译性能已经被很多学者证明是一种行之有效的途径。相较于其他表音文字,汉字是一种形声字,其构造方法具有一半表音、一半表意的特殊结构,这种特殊的构造法使得汉字含有丰富的语义、语音和句法信息。该文在Marta R等工作的基础上,提出了一种新的将字形特征融入端到端模型的方法,并将之应用于中文到英文的翻译上。与基准系统相比,该方法在NIST评测集上获得平均1.1个点的显著提升,有效地证明了汉字字形特征可以对神经机器翻译模型起到促进作用。 The technology of neural machine translation is currently the best way to achieve the state-of-the-art results in application. Introducing external linguistic knowledge such as part-of-speech and dependency syntax tags into the neural machine translation system to improve translation performance has been proved effective. Compared with other phonetic characters,Chinese is a kind of semantic-phonetic compound character,which not only has the function of pronunciation but also contains semantic information. We propose a new method of incorporating glyph features into the end-to-end model based on the work of Marta R,et al,applying it to Chinese-English translation. Compared with the benchmark system, this method achieves a significant increase of 1.1 points in average on the NIST evaluation set, demonstrating that the glyph features of Chinese character can improve the neural machine translation model effectively.

作者蔡子龙熊德意 CAI Zilong;XIONG Deyi(School of Computer Science and Technology,Soochow University,Suzhou,Jiangsu 215006 ,China)

机构地区苏州大学计算机科学与技术学院

出处《中文信息学报》 CSCD 北大核心 2019年第5期75-81,共7页 Journal of Chinese Information Processing

基金国家自然科学基金(61622209 61861130364)

关键词神经机器翻译汉字字形特征端到端模型 neural machine translation glyph feature end-to-end model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1袁小于.基于规则的机器翻译技术综述[J].重庆文理学院学报（自然科学版）,2011,30(3):56-59. 被引量：8
2司念文,王衡军,李伟,单义栋,谢鹏程.基于注意力长短时记忆网络的中文词性标注模型[J].计算机科学,2018,45(4):66-70. 被引量：21
3刘挺,马金山,李生.基于词汇支配度的汉语依存分析模型[J].软件学报,2006,17(9):1876-1883. 被引量：24

二级参考文献22

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2戚世远.英汉机器翻译中的语义分析[J].计算机应用与软件,1993,10(4):54-58. 被引量：2
3郭永辉,吴保民,王炳锡.一个基于GLR算法的英汉机器翻译浅层句法分析器[J].计算机工程与应用,2004,40(34):124-129. 被引量：7
4段绮丽.机器翻译中词义的常识排歧[J].重庆大学学报（自然科学版）,2005,28(3):69-71. 被引量：2
5王祁.格语法在英汉机器翻译系统中的应用研究[J].东北大学学报（社会科学版）,2005,7(6):455-457. 被引量：4
6赵岩,王晓龙,刘秉权,关毅.融合聚类触发对特征的最大熵词性标注模型[J].计算机研究与发展,2006,43(2):268-274. 被引量：20
7刘伟权,王明会,钟义信.建立现代汉语依存关系的层次体系[J].中文信息学报,1996,10(2):32-46. 被引量：17
8马芳,吴保民,王炳锡.一种面向英汉机器翻译的从句识别方法[J].信息工程大学学报,2006,7(2):193-196. 被引量：1
9费鲲.机器翻译中句法分析的设计与实现[J].计算机工程与设计,2006,27(15):2832-2834. 被引量：1
10洪铭材,张阔,唐杰,李涓子.基于条件随机场(CRFs)的中文词性标注方法[J].计算机科学,2006,33(10):148-151. 被引量：56

共引文献50

1李剑锋,杨芸,周昌乐.一种基于汉语隐喻依存句法树的嵌入式树匹配算法[J].厦门大学学报（自然科学版）,2008,47(4):500-504. 被引量：1
2郎君,秦兵,刘挺,李正华,李生.中文人称名词短语单复数自动识别[J].自动化学报,2008,34(8):972-979. 被引量：4
3杨芸,李剑锋,周昌乐,黄孝喜.基于实例的汉语语义超常搭配的自动发现[J].计算机科学,2008,35(9):195-197. 被引量：3
4马金山,刘挺,李生.基于SVM的汉语句子片段划分[J].哈尔滨工业大学学报,2009,41(5):52-55.
5赵世奇,张宇,赵琳,刘挺,李生.基于网络挖掘的上下文相关词汇级复述研究(英文)[J].软件学报,2009,20(7):1746-1755. 被引量：2
6计峰,邱锡鹏.基于序列标注的中文依存句法分析方法[J].计算机应用与软件,2009,26(10):133-135. 被引量：6
7杨潇,马军,万建成.基于局部优先和嵌套层次的二元组合语法分析模型[J].模式识别与人工智能,2009,22(6):833-840.
8钟丹,朱倩,李梅,程显毅.人称名词短语单复数信息和最大熵模型的指代消解[J].江南大学学报（自然科学版）,2009,8(6):666-669. 被引量：1
9沈超.基于子树的确定性依存分析方法[J].计算机应用与软件,2011,28(2):268-270.
10周惠巍,黄德根,高洁,杨元生.最大生成树算法和决策式算法相结合的中文依存关系解析[J].中文信息学报,2012,26(3):16-21. 被引量：7

同被引文献68

1黄伟.汉字简化中的字形复杂度统计特征稳定性研究[J].语言文字应用,2021(1):53-64. 被引量：4
2王铭涛,方晔玮,陈文亮.基于中文字形的ELMo在电商事件识别上的应用[J].中文信息学报,2021,35(12):94-102. 被引量：4
3曹骞,熊德意.基于数据扩充的翻译记忆库与神经机器翻译融合方法[J].中文信息学报,2020(5):36-43. 被引量：6
4明玉琴,夏添,彭艳兵.基于GAN模型优化的神经机器翻译[J].中文信息学报,2020(4):47-54. 被引量：7
5戴新宇,尹存燕,陈家骏,郑国梁.机器翻译研究现状与展望[J].计算机科学,2004,31(11):176-179. 被引量：28
6余正红,伍永豪,邓娟,王俊.基于Hadoop与XMPP的云翻译系统的研究与实现[J].计算机与数字工程,2014,42(2):239-242. 被引量：2
7蒋锐滢,崔磊,何晶,周明,潘志庚.基于主题模型和统计机器翻译方法的中文格律诗自动生成[J].计算机学报,2015,38(12):2426-2436. 被引量：16
8张阳,余正涛,周珂.词汇化调序模型中融合语言特性的层次短语翻译方法研究[J].计算机与数字工程,2017,45(12):2389-2392. 被引量：3
9吕春瑾,王吉怀.基于双墩刻画符号的中国文字起源内在机制研究[J].华夏考古,2018(1):103-111. 被引量：6
10王刚,刘惠义.局部感知递归神经网络在语言模型中的应用[J].信息技术,2018,42(4):94-97. 被引量：4

引证文献7

1董斌.基于改进编码/解码模型的中英机器翻译方法[J].计算机与数字工程,2021,49(6):1253-1257. 被引量：5
2唐善成,张雪,张镤月,王瀚博,陈明.融合中文字形和字义的字向量表示方法[J].科学技术与工程,2021,21(32):13787-13792. 被引量：6
3程晓娇.基于多特征融合的机器英语翻译错误自动识别研究[J].黑龙江工业学院学报（综合版）,2021,21(10):66-71. 被引量：4
4赵崇俊.基于CNN的英语机器翻译微小误差检测系统设计[J].自动化与仪器仪表,2022(4):210-213. 被引量：5
5唐善成,鲁彪,张雪,张莹,梁少君.面向汉字矢量图形特征的字向量表征方法[J].科学技术与工程,2023,23(16):6967-6973. 被引量：2
6蒋丽媛,吴亚东,王书航,张巍瀚,李懿.融合笔画特征的命名实体识别方法[J].科学技术与工程,2023,23(17):7436-7443. 被引量：2
7郭丽娜.基于模型结构先验的神经机器翻译研究[J].自动化与仪器仪表,2023(9):192-196. 被引量：1

二级引证文献25

1刘渝.融合语言特征和神经网络的英语机器翻译研究[J].自动化与仪器仪表,2022(5):142-145. 被引量：3
2付敏.基于特征提取的英汉机器自动转换翻译系统设计[J].自动化与仪器仪表,2022(5):166-169. 被引量：1
3杨雪晴.基于语音识别的英语翻译器设计[J].自动化与仪器仪表,2022(8):221-225. 被引量：4
4刘渝.基于移动云计算模式的英语地名机器翻译系统设计[J].自动化与仪器仪表,2022(8):240-244. 被引量：1
5宋梦媛.一种基于多任务CNN的多模态人脸识别模型[J].云南师范大学学报（自然科学版）,2022,42(5):47-52. 被引量：2
6田静,贾智勇.基于深度学习算法的英语语法纠错系统设计[J].自动化与仪器仪表,2022(9):128-131. 被引量：1
7向成洪,黄小燕.基于数据挖掘算法的英语发音机器质量自动评估系统[J].自动化与仪器仪表,2022(9):147-151. 被引量：1
8李洋,蔡红珍,邢林林,苏展鹏.基于对抗迁移的复合材料检测领域命名实体识别[J].科学技术与工程,2022,22(30):13370-13377. 被引量：1
9田玉玲.日语机器翻译机器人翻译错误自动检测系统设计[J].自动化与仪器仪表,2022(11):205-209. 被引量：2
10李星.基于神经网络的智能外语翻译机器人语义纠错系统[J].自动化与仪器仪表,2023(1):246-250. 被引量：3

1林广和,张绍武,林鸿飞.基于细粒度词表示的命名实体识别研究[J].中文信息学报,2018,32(11):62-71. 被引量：15
2张衡.全媒体背景下高校思想政治教育有效性研究[J].农家参谋,2019(10):290-290.
3李学慧.浅析网络新词产生的原因及其影响[J].北方文学,2019,0(17):257-258. 被引量：3
4钱小龙.基于CNN的中文机器阅读理解模型[J].现代计算机,2019,25(7):23-27. 被引量：1
5潘沛克,王艳,罗勇,周激流.基于U-net模型的全自动鼻咽肿瘤MR图像分割[J].计算机应用,2019,39(4):1183-1188. 被引量：15
6科大讯飞新品——讯飞翻译机3.0发布[J].中国名牌,2019,0(6):96-96.
7刘雪平.汉语口语美的构成要素及传承[J].山海经（想象作文）（下）,2019,0(5):40-40.
8凌锌燕,罗淦,付林艳(指导).人工智能视角下人机翻译的路径探究[J].文化创新比较研究,2019,0(15):107-108. 被引量：2
9孙丰果.功能语境视阈下语篇翻译模型构建[J].北京化工大学学报（社会科学版）,2019,0(2):86-91. 被引量：1
10乔东东,邵矿洲,高庆伟.关于油水井压力测试技术的探讨[J].石油石化物资采购,2019,0(2):10-10. 被引量：3

中文信息学报

2019年第5期

浏览历史

内容加载中请稍等...

融入汉字字形特征的中英神经机器翻译模型被引量：7

参考文献3

二级参考文献22

共引文献50

同被引文献68

引证文献7

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

融入汉字字形特征的中英神经机器翻译模型 被引量：7

参考文献3

二级参考文献22

共引文献50

同被引文献68

引证文献7

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

融入汉字字形特征的中英神经机器翻译模型被引量：7