基于句法调序的汉维统计机器翻译被引量：2

Chinese-Uyghur Statistical Machine Translation Based on Syntactical Reordering

下载PDF

导出

摘要在汉语到维语的统计机器翻译中,2种语言在形态学及语序上差异较大,导致未知词较多,且产生的维语译文语序混乱。针对上述问题,在对汉语和维语的语序进行研究的基础上,提出一种汉语句法调序方法,进而对维语进行形态学分析,采用基于因素的统计机器翻译系统进行验证。实验结果证明,该方法在性能上较基线系统有显著改进,BLEU评分由15.72提高到19.17。 Chinese and Uyghur are very different in terms of morphological typology and word order, which leads to many unknown words and confusion word order in Uyghur when translate from Chinese to Uyghur using statistical method. On the basis of the word order of Chinese and Uyghur, a Chinese syntactic reordering method is proposed, and an analysis on Uyghur morphological information is made to resolve the difficulties. Experimental results on the factor-based SMT show that the approach achieves a substantial improvement in translation quality over the baseline phrase-based system, and the BLEU score is improved from 15.72 to 19.17.

作者陈丽娟张恒董兴华吐尔洪.吾司曼周俊林

机构地区中国科学院新疆理化技术研究所中国科学院研究生院中国科学院新疆分院

出处《计算机工程》 CAS CSCD 2012年第3期169-171,175,共4页 Computer Engineering

基金中国科学院西部行动计划高新技术基金资助项目(KGCX2-YN-507)

关键词统计机器翻译句法调序形态学因素模型翻译模型 Statistical Machine Translation（SMT） syntactical reordering morphological factored model translation model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Koehn P, Och F J, Marcu D. Statistical Phrase-based Translation[C] // Proc. of Conference for Computational Linguistics on Human Language. Stroudsburg, USA: [s. n.] , 2003: 127-133.
2Elming J. Syntactic Reordering Integrated with Phrase-based SMT[C] //Proc. of the 22nd International Conference on Computational Linguistics. Manchester, UK: [s. n.] , 2008: 209- 216.
3Zollmann A, Venugopal A, Vogel S. Bridging the Inflection Morphology Gap for Arabic Statistical Machine Translation[C] // Proc. of North American Chapter of the Association for Computational Linguistics. New York, USA: [s. n.] , 2006: 201-204.
4董兴华,周俊林,郭树盛,吐尔洪.吾司曼.基于短语的汉维/维汉统计机器翻译[J].计算机工程,2011,37(9):16-18. 被引量：15
5Xue Nianwen, Xia Fei. The Bracketing Guidelines for the Penn Chinese Treebank(3.0)[EB/OL]. (2000-11-12). http://www.cis. upenn.edu/~chinese.
6Li Jinji, Kim Dong-Il, Lee Jong-Hyeok. Annotation Guidelines for Chinese-Korean Word Alignment[EB/OL]. (2008-05-05). http:// www.mt-archive.info/LREC-2008-Li.pdf.

二级参考文献7

1Dyer C.Using Word Lattices to Improve Translation from Morphologically Complex Languages[EB/OL].(2007-04-20).http://www.ling.umd.edul-redpony/edinburgh.pdf.
2Koehn P.Europarl:A Parallel Corpus for Statistical Machine Translation[C]//Proc.of the 10th Machine Translation Summit.Phuket,Thailand:[s.n.],2005.
3Creutz M,Lagus K.Unsupervised Morpheme Segmentation and Morphology Induction from Text Corpora Using Moffessor1.0[M].Berlin,Germany:Springer-Verlag,2005.
4Koehn P,Och F J,Marcu D.Statistical Phrase-based Translation[C]//Proc.of HLTNAACL'03.Edmonton,Canada:[s.n.],2003:48-54.
5杨攀,张建,李淼,乌达巴拉,雪艳.汉蒙统计机器翻译中的形态学方法研究[J].中文信息学报,2009,23(1):50-57. 被引量：10
6艾山.吾买尔,吐尔根.依步拉音.基于最大熵的维吾尔语句子边界识别模型[J].计算机工程,2010,36(6):24-26. 被引量：7
7米尔夏提.力提甫,米吉提.阿布力米提.汉维机器翻译中维语动词的处理方法[J].新疆大学学报（自然科学版）,2004,21(1):77-80. 被引量：2

共引文献14

1董兴华,陈丽娟,周喜,周俊林,吐尔洪.吾司曼.汉维统计机器翻译中的形态学处理[J].计算机工程,2011,37(12):150-152. 被引量：5
2宿建军,张小燕,吐尔洪.吾司曼,李晓.联合式多引擎维汉机器翻译系统[J].计算机工程,2011,37(16):179-181. 被引量：4
3吐尔根·依布拉音,袁保社.新疆少数民族语言文字信息处理研究与应用[J].中文信息学报,2011,25(6):149-156. 被引量：27
4塔依尔江.苏拉依曼,尼加提.纳吉米,帕肉克.司地克,吐尔根.依布拉音,艾山.吾买尔.维吾尔文-汉文计算机辅助翻译系统中双向翻译记忆子系统的设计与实现[J].新疆大学学报（自然科学版）,2012,29(3):339-344. 被引量：1
5米成刚,王磊,杨雅婷,陈科海.维汉机器翻译未登录词识别研究[J].计算机应用研究,2013,30(4):1112-1115. 被引量：9
6张亚军,吴晓林,贺琛琛.浅谈新疆多语种智能化研究现状[J].电脑知识与技术,2014(1):138-140.
7李响,南江,杨雅婷,周喜,米成刚.泛化语言模型在汉维机器翻译中的应用[J].计算机应用研究,2014,31(10):2994-2997. 被引量：4
8艾孜孜.吐尔逊,杨雅婷,吐尔洪.吾司曼,周俊林,李晓.维-汉统计机器翻译中维吾尔语预处理研究[J].计算机工程与设计,2014,35(11):4034-4039. 被引量：3
9刘连芳,海银花,那顺乌日图,黄家裕,吐尔根·依布拉音,玄龙云.壮、蒙古、维、哈、柯、朝语信息处理研究进展[J].广西科学院学报,2018,34(1):18-26. 被引量：7
10朱顺乐.融合深度学习特征的汉维短语表过滤研究[J].计算机技术与发展,2018,28(7):149-154. 被引量：1

同被引文献25

1达吾勒.阿布都哈依尔,古丽拉.阿东别克.哈萨克语词法分析器的研究与实现[J].计算机工程与应用,2008,44(19):146-149. 被引量：16
2哈里旦木.阿布都克里木,吐尔根.依布拉音,帕力旦.吐尔逊,艾山.吾买尔,阿布都热依木.热合曼,阿布都克力木.阿不力孜.基于短语结构语法的维吾尔语规则库建设[J].现代计算机,2010,16(5):30-33. 被引量：2
3侯呈风,古丽拉.阿东别克.改进的HMM应用于哈萨克语词性标注[J].计算机工程与应用,2010,46(36):147-149. 被引量：8
4董兴华,周俊林,郭树盛,吐尔洪.吾司曼.基于短语的汉维/维汉统计机器翻译[J].计算机工程,2011,37(9):16-18. 被引量：15
5董兴华,陈丽娟,周喜,周俊林,吐尔洪.吾司曼.汉维统计机器翻译中的形态学处理[J].计算机工程,2011,37(12):150-152. 被引量：5
6玉素甫.艾白都拉,张海军,艾孜尔古丽.信息处理用现代维吾尔语词干词类标记集研究[J].信息技术与标准化,2011(6):45-48. 被引量：8
7李佳正,刘凯,麦热哈巴.艾力,吕雅娟,刘群,吐尔根.依布拉音.维吾尔语中汉族人名的识别及翻译[J].中文信息学报,2011,25(4):82-87. 被引量：13
8吐尔根·依布拉音,袁保社.新疆少数民族语言文字信息处理研究与应用[J].中文信息学报,2011,25(6):149-156. 被引量：27
9麦热哈巴.艾力,姜文斌,吐尔根.依布拉音.维吾尔语词法中音变现象的自动还原模型[J].中文信息学报,2012,26(1):91-96. 被引量：8
10玉素甫.艾白都拉,艾孜尔古丽,祖丽皮亚.基于网站用词调查的现代维吾尔语词长研究[J].计算机应用与软件,2012,29(5):32-34. 被引量：9

引证文献2

1潘一荣,李晓,杨雅婷,米成刚,董瑞.面向汉维机器翻译的调序表重构模型[J].计算机应用,2018,38(5):1283-1288. 被引量：4
2吐尔根.依布拉音,卡哈尔江.阿比的热西提,艾山.吾买尔,买合木提.买买提.中亚语言自然语言处理综述[J].中文信息学报,2018,32(5):1-13. 被引量：6

二级引证文献10

1冯秋燕,朱学芳.基于科学计量的信息技术融合分析[J].情报科学,2020,0(2):142-150. 被引量：4
2陆雯洁,谭儒昕,刘功申,孙环荣.基于半监督学习的小语种机器翻译算法[J].厦门大学学报（自然科学版）,2019,58(2):200-208. 被引量：8
3潘一荣,李晓,杨雅婷,董瑞.面向汉维机器翻译的双语关联度优化模型[J].计算机应用研究,2020,37(3):726-730. 被引量：2
4张志远,李媛媛.加入目标指导的强化对抗文本生成方法研究[J].计算机应用研究,2020,37(11):3343-3346. 被引量：3
5买买提・许库尔,艾孜尔古丽.现代维吾尔语句子资源库构建研究[J].信息与电脑,2021,33(5):204-207.
6耿立波,酆格斐,詹卫东,杨亦鸣.中国计算语言学研究现状与展望[J].语言科学,2021,20(5):491-499. 被引量：3
7李健,马延周,胡瑞娟.基于深度学习的轻量级自然语言描述生成算法[J].计算机仿真,2022,39(10):369-372. 被引量：1
8冯笑,杨雅婷,董瑞,马博.基于集成修剪的维汉神经机器翻译系统[J].制造业自动化,2023,45(2):69-73. 被引量：3
9古丽孜热·艾尼外,旷志寰.汉语-哈萨克语平行语料库构建及技术研究[J].山西大学学报（自然科学版）,2023,46(3):537-545. 被引量：1
10罗凯昂,哈里旦木·阿布都克里木,刘畅,阿布都克力木·阿布力孜,郭文强.融合剪枝和多语微调的黏着语命名实体识别[J].计算机工程与应用,2023,59(24):121-130. 被引量：1

1孙广范,宋金平,肖健,袁琦.句法调序的统计机器翻译方法研究[J].计算机工程与应用,2009,45(36):142-144. 被引量：1
2廖晓姣,李英.基于边缘检测和形态学的车牌定位算法[J].现代电子技术,2011,34(10):17-19. 被引量：10
3段汕.遥感影像处理中的数学形态学方法[J].中南民族大学学报（自然科学版）,2007,26(2):105-110. 被引量：3
4薛永增,李生,赵铁军,杨沐昀.短语统计机器翻译的句法调序模型[J].通信学报,2008,29(1):7-14. 被引量：6
5丛家慧,颜云辉,董德威.Gabor滤波器在带钢表面缺陷检测中的应用[J].东北大学学报（自然科学版）,2010,31(2):257-260. 被引量：11
6张黎.伺服系统抗干扰设计研究[J].中国高新技术企业,2011(2):80-83. 被引量：1
7茅正冲,时文静,邬锋.带钢表面缺陷检测方法[J].计算机工程与设计,2014,35(1):233-236. 被引量：4
8徐艳敏.一种基于特征的人脸定位方法的研究[J].机电工程技术,2008,37(11):50-52. 被引量：1
9徐鹏云,孙维连,夏玲,白庆华.基于数字图像处理的孢子特征提取[J].农机化研究,2008,30(5):48-50. 被引量：4
10伍万坤,吴清烈.基于信任与网站质量视角下的社会化商务驱动因素研究[J].科技与经济,2015,28(5):1-5.

计算机工程

2012年第3期

浏览历史

内容加载中请稍等...

基于句法调序的汉维统计机器翻译被引量：2

参考文献6

二级参考文献7

共引文献14

同被引文献25

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于句法调序的汉维统计机器翻译 被引量：2

参考文献6

二级参考文献7

共引文献14

同被引文献25

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于句法调序的汉维统计机器翻译被引量：2