汉维统计机器翻译中的形态学处理被引量：5

Morphology Processing in Chinese-Uyghur Statistical Machine Translation

下载PDF

导出

摘要针对汉语和维吾尔语语序差别(前者是主-谓-宾结构,后者是主-宾-谓结构)及形态差别较大的问题,通过编写调序规则将汉语调整为主-宾-谓结构,将维吾尔语单词切分为词干、词缀等更小的词素单元来训练统计模型,同时测试词素的切分粒度对翻译性能的影响。实验结果表明,对汉语句法结构的调整及以词干、词缀等更小的词素形式参与训练可以有效提高翻译质量。 For the large differences of syntactic structure between Chinese and Uyghur, it composes rules to reorder the structure of Chinese sentences to that of Uyghar. For the large morphological differences between Chinese and Uyghur, it splits Uyghur words into stems and affixes, that is, morphemes, to train the statistical model. Meanwhile, it tests the effects of splitting granularities on translation performance. Experimental results show Chinese sentence reordering and splitting Uyghur words into morphemes can effectively improve the performance of translation system.

作者董兴华陈丽娟周喜周俊林吐尔洪.吾司曼

机构地区中国科学院新疆理化技术研究所中国科学院新疆分院

出处《计算机工程》 CAS CSCD 北大核心 2011年第12期150-152,共3页 Computer Engineering

基金中国科学院西部行动计划高新技术基金资助项目(KGCX2-YN-507)

关键词汉维统计机器翻译词素调序 Chinese-Uyghur statistical machine translation morpheme reordering

分类号 N945 [自然科学总论—系统科学]

引文网络
相关文献

参考文献8

1Arianna B, Marcello F. Morphological Pre-processing for Turkish to English Statistical Machine Translation[C] //Proc. of IWSLT’09. Tokyo, Japan:[s. n.] , 2009.
2Durgar E K, Oflazer K. Initial Explorations in English to Turkish Statistical Machine Translation[C] //Proc. of IEEE Int’l Conf. on Statistical Machine Translation. New York, USA:[s. n.] , 2006.
3Oflazer K, Durgar E K. Exploring Different Representational Units in English to Statistical Machine Translation[C] //Proc. of the 2nd Workshop on Statistical Machine Translation. Prague, Czech Republic:[s. n.] , 2007.
4Habash N, Sadat F. Arabic Preprocessing Schemes for Statistical Machine Translation[C] //Proc. of the Human Language Technology Conference.[S. l.] : IEEE Press, 2006.
5Zollmann A, Venugopal A, Vogel S. Bridging the Inflection Morphology Gap for Arabic Statistical Machine Translation[C] // Proc. of the Human Language Technology Conference. New York, USA:[s. n.] , 2006.
6李国臣, 孟静. 利用主语和谓语的句法关系识别谓语中心词[D]. 太原: 山西大学, 2005.
7Mathias C, Krista L. Unsupervised Morpheme Segmentation and Morphology Induction from Text Corpora Using Morfessor 1.0. Publications[EB/OL]. (2005-07-12). http:// www.cis.hut.fi/projects/morpho/.
8董兴华,周俊林,郭树盛,吐尔洪.吾司曼.基于短语的汉维/维汉统计机器翻译[J].计算机工程,2011,37(9):16-18. 被引量：15

二级参考文献7

1Dyer C.Using Word Lattices to Improve Translation from Morphologically Complex Languages[EB/OL].(2007-04-20).http://www.ling.umd.edul-redpony/edinburgh.pdf.
2Koehn P.Europarl:A Parallel Corpus for Statistical Machine Translation[C]//Proc.of the 10th Machine Translation Summit.Phuket,Thailand:[s.n.],2005.
3Creutz M,Lagus K.Unsupervised Morpheme Segmentation and Morphology Induction from Text Corpora Using Moffessor1.0[M].Berlin,Germany:Springer-Verlag,2005.
4Koehn P,Och F J,Marcu D.Statistical Phrase-based Translation[C]//Proc.of HLTNAACL'03.Edmonton,Canada:[s.n.],2003:48-54.
5杨攀,张建,李淼,乌达巴拉,雪艳.汉蒙统计机器翻译中的形态学方法研究[J].中文信息学报,2009,23(1):50-57. 被引量：10
6艾山.吾买尔,吐尔根.依步拉音.基于最大熵的维吾尔语句子边界识别模型[J].计算机工程,2010,36(6):24-26. 被引量：7
7米尔夏提.力提甫,米吉提.阿布力米提.汉维机器翻译中维语动词的处理方法[J].新疆大学学报（自然科学版）,2004,21(1):77-80. 被引量：2

共引文献14

1宿建军,张小燕,吐尔洪.吾司曼,李晓.联合式多引擎维汉机器翻译系统[J].计算机工程,2011,37(16):179-181. 被引量：4
2吐尔根·依布拉音,袁保社.新疆少数民族语言文字信息处理研究与应用[J].中文信息学报,2011,25(6):149-156. 被引量：27
3陈丽娟,张恒,董兴华,吐尔洪.吾司曼,周俊林.基于句法调序的汉维统计机器翻译[J].计算机工程,2012,38(3):169-171. 被引量：2
4塔依尔江.苏拉依曼,尼加提.纳吉米,帕肉克.司地克,吐尔根.依布拉音,艾山.吾买尔.维吾尔文-汉文计算机辅助翻译系统中双向翻译记忆子系统的设计与实现[J].新疆大学学报（自然科学版）,2012,29(3):339-344. 被引量：1
5米成刚,王磊,杨雅婷,陈科海.维汉机器翻译未登录词识别研究[J].计算机应用研究,2013,30(4):1112-1115. 被引量：9
6张亚军,吴晓林,贺琛琛.浅谈新疆多语种智能化研究现状[J].电脑知识与技术,2014(1):138-140.
7李响,南江,杨雅婷,周喜,米成刚.泛化语言模型在汉维机器翻译中的应用[J].计算机应用研究,2014,31(10):2994-2997. 被引量：4
8艾孜孜.吐尔逊,杨雅婷,吐尔洪.吾司曼,周俊林,李晓.维-汉统计机器翻译中维吾尔语预处理研究[J].计算机工程与设计,2014,35(11):4034-4039. 被引量：3
9刘连芳,海银花,那顺乌日图,黄家裕,吐尔根·依布拉音,玄龙云.壮、蒙古、维、哈、柯、朝语信息处理研究进展[J].广西科学院学报,2018,34(1):18-26. 被引量：7
10朱顺乐.融合深度学习特征的汉维短语表过滤研究[J].计算机技术与发展,2018,28(7):149-154. 被引量：1

同被引文献56

1游新冬,杨海翔,陈海涛,孙甜,吕学强.融合术语信息的新能源专利机器翻译研究[J].中文信息学报,2021,35(12):76-83. 被引量：1
2冯洋,邵晨泽.神经机器翻译前沿综述[J].中文信息学报,2020(7):1-18. 被引量：36
3杨宪泽,雷开彬,吴守宪,张上游,宁爱华.一种句型转换和近似机器翻译方法及算法[J].计算机工程与科学,2005,27(11):66-68. 被引量：7
4刘康龙,穆雷.语料库语言学与翻译研究[J].中国翻译,2006,27(1):59-64. 被引量：47
5谈文蓉,符红光,刘莉,杨宪泽.一种基于贝叶斯分类与机读词典的多义词排歧方法[J].计算机应用,2006,26(6):1389-1391. 被引量：5
6冯志伟,徐波,孙茂松.机器翻译的现状和问题[M].科学出版社,2003.
7NagaoM.A. Framework of a mechanical translation betweenJapanese and English by analogy principle [M], North HollandPublications,1984.
8Koehn P,Och F J, Marcu D. Statistical phrase -basedtranslation[J].Association for Computational Linguistics,2003,48-54.
9Och F J, Ney H.A systematic comparison of variousstatistical alignment models[J]. Computational linguistics,2003,29(1):19-51.
10达吾勒.阿布都哈依尔,古丽拉.阿东别克.哈萨克语词法分析器的研究与实现[J].计算机工程与应用,2008,44(19):146-149. 被引量：16

引证文献5

1陈韵,张鹏华,任利华.机器翻译研究述评[J].价值工程,2013,32(1):174-176. 被引量：3
2李晗佶,陈海庆.国内机器翻译研究动态科学知识图谱分析(2007—2016)——基于语言学类与计算机科学类期刊的词频对比统计[J].西安外国语大学学报,2018,26(2):99-104. 被引量：16
3潘一荣,李晓,杨雅婷,米成刚,董瑞.面向汉维机器翻译的调序表重构模型[J].计算机应用,2018,38(5):1283-1288. 被引量：4
4吐尔根.依布拉音,卡哈尔江.阿比的热西提,艾山.吾买尔,买合木提.买买提.中亚语言自然语言处理综述[J].中文信息学报,2018,32(5):1-13. 被引量：6
5张金鹏,段湘煜.结合向量化方法与掩码机制的术语干预翻译模型[J].计算机工程,2023,49(11):70-76.

二级引证文献29

1韦汇余,庞欣,张新.人机英译《镜花缘》质量评测研究——以林太乙译本与腾讯翻译君译文为语料[J].现代英语,2020(22):47-51. 被引量：2
2冯秋燕,朱学芳.基于科学计量的信息技术融合分析[J].情报科学,2020,0(2):142-150. 被引量：4
3季跃光,王乐,姚兴辉,李福.杂交瘦肉猪春秋育肥对比试验初报[J].新疆农业科学,2000,37(1):40-41.
4王福祥,徐庆利.翻译递归性与翻译经验关系的实证研究:翻译过程视角[J].外语教学,2018,39(6):96-101. 被引量：2
5陆雯洁,谭儒昕,刘功申,孙环荣.基于半监督学习的小语种机器翻译算法[J].厦门大学学报（自然科学版）,2019,58(2):200-208. 被引量：8
6郝越.谈“在线网络机器翻译”与“人工翻译”的互补关系[J].河北能源职业技术学院学报,2019,19(2):39-42.
7李晗佶,陈海庆.翻译技术研究现状、问题与展望[J].北京科技大学学报（社会科学版）,2019,35(4):112-118. 被引量：10
8黄妮.《了不起的盖茨比》中散射型虚构运动的翻译对比——以姚乃强译本和谷歌翻译为例[J].河北北方学院学报（社会科学版）,2019,35(4):48-51.
9黎亚飞,张瑞华.机器翻译发展与现状[J].中国轻工教育,2019,0(5):38-45. 被引量：4
10马鑫,苏敏,李杰.国际跨文化交际研究现状的文献计量分析(1998—2017)[J].外语教学,2020,41(1):59-64. 被引量：6

1郝炜.用好教材资源建构有效教学[J].福建基础教育研究,2015(8):86-87. 被引量：1
2《世界史上的科学技术》[J].Newton-科学世界,2004(1):96-96.
3王学智.词根教学在大学英语教学中的必要性和可行性[J].石家庄铁道大学学报（自然科学版）,1991,19(2):91-95.
4王佳.小议词缀[J].文教资料,2010(33):30-31.
5桂红梅.大学英语词汇记忆策略及教学启示[J].科技视界,2016,0(23):288-289. 被引量：1
6梁爱林.术语管理的意义和作用——以微软公司术语管理策略为例[J].中国科技术语,2012,14(5):10-14. 被引量：20
7王华树.科技翻译项目中的术语管理[J].中国科技术语,2015,17(4):17-21. 被引量：19
8外国语[J].内蒙古师范大学学报（自然科学汉文版）,1991,20(S1):41-42.
9朱柯润,田丹.基于机器视觉的电池尾端破皮检测[J].微电子学与计算机,2014,31(5):117-120.
10邓显婕.浅谈“词根词缀联想记忆法”在西班牙语词汇教学中的应用[J].科技信息,2013(12):197-197. 被引量：2

计算机工程

2011年第12期

浏览历史

内容加载中请稍等...

汉维统计机器翻译中的形态学处理被引量：5

参考文献8

二级参考文献7

共引文献14

同被引文献56

引证文献5

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

汉维统计机器翻译中的形态学处理 被引量：5

参考文献8

二级参考文献7

共引文献14

同被引文献56

引证文献5

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

汉维统计机器翻译中的形态学处理被引量：5