汉维句子对齐长度计算单位的研究

Research on the Length Calculation Unit in Chinese-Uyghur Sentence Alignment

下载PDF

导出

摘要在面向机器翻译的语料库建设过程中,基于长度的汉维句子对齐和长度相似度算法大多都以字符作为汉维句子长度的计算单位。但是,还有其他计算方法值得尝试。对长度计算单位的4种组合进行统计与实验分析,以确定汉维句子长度计算的最佳单位,最终提高汉维句子对齐的准确率。双语句子汉语字符数和维文词数之间相关系数较高,句子长度比值近似于正态分布。根据实验结果,汉文字符和维文单词是汉维句子对齐的最佳长度计算单位,句子对齐的准确率和召回率最高,分别达到94%和93.6%。 During the corpus construction for machine translation,most of the available length-based Chinese-Uyghur sentence alignment methods take characters as their sentence length computation unit,but there are other units can be used to calculate the length of the sentences.Four different combination of sentence length computation methods are compared on the base of statistical analysis and experiments in or?der to determine a best unit of sentence length and to improve the accuracy of sentence alignment.The number of Chinese characters and the number of Uyghur words in the translated sentences are highly correlated,and the sentence length ratio is more similar to the normal distribution.The experiment results also show that Chinese characters and Uyghur words are the best length calculation units for Chinese-Uyghur sentence alignment,and the precision and recall of the sentence alignment are highest,reaching94%and93.6%respectively.

作者塞麦提.麦麦提敏吐尔根.伊布拉音 SAMAT Mamitimin;TURGUN Ibrahim(Xinjiang University, Urumqi 830046)

机构地区新疆大学

出处《现代计算机》 2018年第22期8-11,16,共5页 Modern Computer

基金国家社科基金项目(No.17XYY034) 教育部人文社科青年项目(No.16XJJC740001)

关键词汉语维吾尔语句子对齐基于长度的方法句子长度单位 Chinese Uyghur Sentence Alignment Length-Based Method Unit of Sentence Length

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1吕学强,李清隐,黄志丹,沈嫣娜,姚天顺.基于统计的汉英句子对齐研究[J].小型微型计算机系统,2004,25(6):990-992. 被引量：15
2田生伟,吐尔根.依布拉音,禹龙,加米拉.吾守尔,杨飞宇.多策略汉维句子对齐[J].计算机科学,2010,37(4):215-218. 被引量：8
3昝红英,张霞,刘亚雷.基于多种长度单位的汉英句子分组对齐算法[J].郑州大学学报（理学版）,2009,41(2):33-36. 被引量：2
4张霞,昝红英,张恩展.汉英句子对齐长度计算方法的研究[J].计算机工程与设计,2009,30(18):4356-4358. 被引量：7
5塞麦提.麦麦提敏,侯敏,吐尔根.伊布拉音.基于锚点句对的汉维句子对齐方法[J].计算机工程,2015,41(4):166-170. 被引量：5

二级参考文献33

1吕学强,李清隐,黄志丹,沈嫣娜,姚天顺.基于统计的汉英句子对齐研究[J].小型微型计算机系统,2004,25(6):990-992. 被引量：15
2张艳,柏冈秀纪.基于长度的扩展方法的汉英句子对齐[J].中文信息学报,2005,19(5):31-36. 被引量：24
3李维刚,刘挺,张宇,李生.基于长度和位置信息的双语句子对齐方法[J].哈尔滨工业大学学报,2006,38(5):689-692. 被引量：25
4肖全宝,徐晨,宋广为,卢少平.用于语音识别的基于高谱分辨率的谱减法[J].广西师范大学学报（自然科学版）,2006,24(4):26-29. 被引量：4
5Chunyu Kit,Jonathan J Webster, King Kui Sin,et al.Clause alignment for bilingual HK legal texts:A lexical-based approach[J]. International Journal of Corpus Linguisties,2004,9(1):29-51.
6周威,万康,刘志杰.汉英双语自动对齐混合算法[C].中国,南京:全国第八届计算语言学联合学术会议(JSCL-2005).清华大学出版社,2005:274-280.
7Thomas C Chuang, Kevin C Yeh. Aligning parallel bilingual corpora statistically with punctuation criteria[J] .Computational Linguistics and Chinese Language Proceessing, 2005,10 (1): 95-122.
8揭春雨,刘晓月,冼景炬,等.从网上获取香港法律双语语料库[C].中国,南京:全国第八届计算语言学联合学术会议(JSCL-2005).清华大学出版社,2005:193-199.
9Dolan W B,Pinkham J,Richardson S D.The Microsoft Research Machine Translation System[J].AMTA,2002:237-239.
10Wu D,Xia X.Large-scale automatic extraction of an English-Chinese translation lexicon[J].Machine Translation,1995,9(3/4):285-313.

共引文献27

1邢富坤,孙晓迪.基于汉语标点句的汉英双语对齐语料库构建及对齐语序分析[J].语料库语言学,2021(2):136-147. 被引量：1
2才藏太,赵海兴,才让加.汉藏句子自动对齐技术研究[J].青海师范大学学报（自然科学版）,2022,38(1):1-3.
3昝红英,张霞,刘亚雷.基于多种长度单位的汉英句子分组对齐算法[J].郑州大学学报（理学版）,2009,41(2):33-36. 被引量：2
4李晓光,王鹏,张威,王大玲.面向多领域资源的汉英双语语料库构建的研究[J].计算机应用,2008,28(1):146-148. 被引量：2
5刘泽权,田璐,刘超朋.《红楼梦》中英文平行语料库的创建[J].当代语言学,2008,10(4):329-339. 被引量：35
6陈相,林鸿飞.基于锚信息的生物医学文献双语摘要句子对齐[J].中文信息学报,2009,23(1):58-62. 被引量：4
7张霞,昝红英,张恩展.汉英句子对齐长度计算方法的研究[J].计算机工程与设计,2009,30(18):4356-4358. 被引量：7
8王大鹏,姜怡,姜欣.语料库在茶典籍英译中的实例应用[J].沈阳师范大学学报（自然科学版）,2010,28(2):240-242. 被引量：4
9安见才让,王玲玲.一种汉藏双语句子对齐算法[J].微处理机,2011,32(3):55-57.
10李文刚,周杰,杨保群.基于词典和句长及位置的双语对齐方法的改进[J].现代电子技术,2011,34(14):25-27. 被引量：2

1Zhi Liu,Shijie Sun,Ju Xing,Zhe Fu,Xiaohe Hu,Jianwen Pi,Xiaofeng Yang,Yunsong Lu,Jun Li.MN-SLA： A Modular Networking SLA Framework for Cloud Management System[J].Tsinghua Science and Technology,2018,23(6):635-644. 被引量：1
2田春燕,徐毅,解威,郭淑云.满族典籍平行语料库对齐方法与评价——以《尼山萨满》为例[J].大连民族大学学报,2018,20(3):264-268.
3刘瑞.影视对白平行文本语料库建设[J].河南科技,2017,36(21):31-33. 被引量：2
4崔建玲.绿维文旅寻找乡村振兴的破题路径[J].农产品市场,2018,0(43):39-41.
5于俊婷,何宏业,刘伍颖,易绵竹.ROUGE-SN:基于跨越N元语法的机器翻译评测方法[J].数码设计,2017,0(3):1-5. 被引量：2
6于俊婷,赵晓潇,何宏业.一种基于字符包的Levenshtein句子匹配算法[J].数码设计,2017,0(8):19-21.
7陈一舟,王加阳,郑娜.不完备序决策系统的约简一致性研究[J].小型微型计算机系统,2018,39(12):2566-2570.
8张愿强,田旭伟,莫钧,胡品,普应平.基于.net平台的无棱镜全站仪输电线路测量技术研究[J].通信电源技术,2018,35(9):98-99.
9张立华,张宝成.基于VISSIM仿真的城市道路养护施工作业区长度优化研究[J].公路工程,2018,43(6):207-211. 被引量：10
10莫东山,曹国辉.预应力钢-混凝土组合连续箱梁挠度分析[J].湖南城市学院学报（自然科学版）,2018,27(5):7-11. 被引量：2

现代计算机

2018年第22期

浏览历史

内容加载中请稍等...

汉维句子对齐长度计算单位的研究

参考文献5

二级参考文献33

共引文献27

相关作者

相关机构

相关主题

浏览历史