期刊文献+

汉维句子对齐长度计算单位的研究

Research on the Length Calculation Unit in Chinese-Uyghur Sentence Alignment
下载PDF
导出
摘要 在面向机器翻译的语料库建设过程中,基于长度的汉维句子对齐和长度相似度算法大多都以字符作为汉维句子长度的计算单位。但是,还有其他计算方法值得尝试。对长度计算单位的4种组合进行统计与实验分析,以确定汉维句子长度计算的最佳单位,最终提高汉维句子对齐的准确率。双语句子汉语字符数和维文词数之间相关系数较高,句子长度比值近似于正态分布。根据实验结果,汉文字符和维文单词是汉维句子对齐的最佳长度计算单位,句子对齐的准确率和召回率最高,分别达到94%和93.6%。 During the corpus construction for machine translation,most of the available length-based Chinese-Uyghur sentence alignment methods take characters as their sentence length computation unit,but there are other units can be used to calculate the length of the sentences.Four different combination of sentence length computation methods are compared on the base of statistical analysis and experiments in or?der to determine a best unit of sentence length and to improve the accuracy of sentence alignment.The number of Chinese characters and the number of Uyghur words in the translated sentences are highly correlated,and the sentence length ratio is more similar to the normal distribution.The experiment results also show that Chinese characters and Uyghur words are the best length calculation units for Chinese-Uyghur sentence alignment,and the precision and recall of the sentence alignment are highest,reaching94%and93.6%respectively.
作者 塞麦提.麦麦提敏 吐尔根.伊布拉音 SAMAT Mamitimin;TURGUN Ibrahim(Xinjiang University, Urumqi 830046)
机构地区 新疆大学
出处 《现代计算机》 2018年第22期8-11,16,共5页 Modern Computer
基金 国家社科基金项目(No.17XYY034) 教育部人文社科青年项目(No.16XJJC740001)
关键词 汉语 维吾尔语 句子对齐 基于长度的方法 句子长度单位 Chinese Uyghur Sentence Alignment Length-Based Method Unit of Sentence Length
  • 相关文献

参考文献5

二级参考文献33

  • 1吕学强,李清隐,黄志丹,沈嫣娜,姚天顺.基于统计的汉英句子对齐研究[J].小型微型计算机系统,2004,25(6):990-992. 被引量:15
  • 2张艳,柏冈秀纪.基于长度的扩展方法的汉英句子对齐[J].中文信息学报,2005,19(5):31-36. 被引量:24
  • 3李维刚,刘挺,张宇,李生.基于长度和位置信息的双语句子对齐方法[J].哈尔滨工业大学学报,2006,38(5):689-692. 被引量:25
  • 4肖全宝,徐晨,宋广为,卢少平.用于语音识别的基于高谱分辨率的谱减法[J].广西师范大学学报(自然科学版),2006,24(4):26-29. 被引量:4
  • 5Chunyu Kit,Jonathan J Webster, King Kui Sin,et al.Clause alignment for bilingual HK legal texts:A lexical-based approach[J]. International Journal of Corpus Linguisties,2004,9(1):29-51.
  • 6周威,万康,刘志杰.汉英双语自动对齐混合算法[C].中国,南京:全国第八届计算语言学联合学术会议(JSCL-2005).清华大学出版社,2005:274-280.
  • 7Thomas C Chuang, Kevin C Yeh. Aligning parallel bilingual corpora statistically with punctuation criteria[J] .Computational Linguistics and Chinese Language Proceessing, 2005,10 (1): 95-122.
  • 8揭春雨,刘晓月,冼景炬,等.从网上获取香港法律双语语料库[C].中国,南京:全国第八届计算语言学联合学术会议(JSCL-2005).清华大学出版社,2005:193-199.
  • 9Dolan W B,Pinkham J,Richardson S D.The Microsoft Research Machine Translation System[J].AMTA,2002:237-239.
  • 10Wu D,Xia X.Large-scale automatic extraction of an English-Chinese translation lexicon[J].Machine Translation,1995,9(3/4):285-313.

共引文献27

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部