用于双语科技术语对齐的汉维文可比语料库构建被引量：2

Construction of Chinese-Uyghur Comparable Corpus for Alignment of Bilingual Technical Terms

下载PDF

导出

摘要面向汉文维吾尔文(以下简称汉维)双语科技术语抽取这一应用目标,本文提出新闻科技领域的汉维可比语料库设计方案并进行实验.将网络采集的汉维语料利用机器翻译系统进行初加工后映射到向量空间中并使用LSI算法计算出各向量间的相关性,利用计算后的向量建立索引并依次计算出源文本与候选文本的相似值.本文设计两种实验进行对比,对选取的可比语料进行评估、筛选,最终达到构建汉维可比语料库的目的. In order to realize the practical requirement of Chinese-Uyghur bilingual scientific and technical terms, this paper proposes a Chinese-Uyghur comparable corpus design for the field of news, science and technology and carries out a feasibility experiment. It is first proposed to use more mature Chinese-Uyghur machine translation system to establish the Chinese-Uyghur comparable corpus. We use the Chinese-Uyghur corpus collected on the network to map the collected corpus to the vector space and use the LSI algorithm to compute the correlation between the words. The calculated text is indexed as candidate text and then the similarity between the source text and the candidate text is calculated in turn. Furthermore, two experimental schemes are designed and compared, and the selected corpus is evaluated and screened to achieve the goal of constructing the Chinese-Uyghur comparable corpus.

作者彭飞吐尔根.依布拉音艾山.吾买尔米尔夏提.力提甫

机构地区新疆大学信息科学与工程学院新疆大学新疆多语种信息技术重点实验室

出处《新疆大学学报（自然科学版）》 CAS 北大核心 2017年第3期316-321,共6页 Journal of Xinjiang University(Natural Science Edition)

基金国家自然科学基金项目(61463048 61462083 61331011) 国家重点基础研究发展计划(973)项目(2014cb340506)

关键词可比语料库汉维可比语料库构建双语术语抽取 LSI comparable corpora Chinese-Uyghur bilingual corpora construction bilingual language term extraction LSI

分类号 TP391.2 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1孙广范,宋金平,袁琦,肖健,单玉秋.中英可比语料库中翻译等价对抽取方法研究[J].计算机工程与应用,2007,43(32):44-46. 被引量：9
2庞伟.双语语料库构建研究综述[J].信息技术与信息化,2015(3):105-108. 被引量：7
3热西旦.塔依,吐尔根.依布拉音.汉文-维吾尔文双语语料库中段落对齐技术研究[J].新疆大学学报（自然科学版）,2010,27(1):102-105. 被引量：6
4任高举,吐尔根.伊布拉音,艾山.吾买尔.统计机器翻译中汉维短语对抽取的研究[J].新疆大学学报（自然科学版）,2010,27(3):349-352. 被引量：4
5梁建飞,吐尔根.依布拉音,田生伟,赛依旦.阿不力米提.汉维主题网页自动获取技术的研究[J].计算机应用与软件,2012,29(1):42-45. 被引量：2
6康小丽,章成志.用于双语术语抽取的专业领域中英文可比语料库构建[J].现代图书情报技术,2012(2):28-33. 被引量：5

二级参考文献69

1刘超朋.平行语料库概述[J].燕山大学学报（哲学社会科学版）,2007,8(S1):120-121. 被引量：10
2欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
3荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
4邹修明,祝志杰.双语句子对齐系统中多层次分段对齐方法研究[J].淮阴师范学院学报（自然科学版）,2002,1(1):32-35. 被引量：1
5游贵荣,陆玉昌.基于统计和机器学习的中文Web网页正文内容抽取[J].福建商业高等专科学校学报,2009(2):68-72. 被引量：5
6张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
7姚天顺.自然语言理解:一种让机器懂得人类语言的研究(第二版)[M].中文信息处理丛书.北京:清华大学出版社,1995年.
8Philippe Langlais, Michel Simard, Jean Veronis. Methods and Practical Issue in Evaluation Alignment Techniques[J]. COLING-ACL98. Montreal, Canada, 1998, 1: 711-717.
9李维刚,刘挺,李生.双语语料库段落重组对齐方法研究[C].哈尔滨工业大学计算机学院信息检索研究室论文集,第一卷,2003,11:17-73.
10黄河燕,王树梅,王飞.多语种双语对齐平台的设计与实现[C].南京理工大学硕士论文,2004年.

共引文献25

1满静.翻译项目管理模式下的财经类新闻翻译记忆库的建立[J].现代英语,2023(20):79-82.
2章成志,王惠临.多语言文本聚类研究综述[J].现代图书情报技术,2009(6):31-36. 被引量：4
3康小丽,章成志,王惠临.基于可比语料库的双语术语抽取研究述评[J].现代图书情报技术,2009(10):7-13. 被引量：6
4李文刚,周杰,杨保群.基于词典和句长及位置的双语对齐方法的改进[J].现代电子技术,2011,34(14):25-27. 被引量：2
5玛依拉.艾尼扎提,胡学钢.一种基于汉维对齐的双语语料库的获取方法[J].合肥工业大学学报（自然科学版）,2011,34(11):1670-1673.
6俞卓,黄河燕.基于可比语料库的双语术语抽取技术研究[J].情报学报,2011,30(12):1286-1292.
7谭煜辉,吐尔根·依布拉音,艾山·吾买尔,买合木提·买买提.基于统计的维文汉文人名音译研究[J].新疆大学学报（自然科学版）,2012,29(1):108-111. 被引量：1
8康小丽,章成志.用于双语术语抽取的专业领域中英文可比语料库构建[J].现代图书情报技术,2012(2):28-33. 被引量：5
9赛依旦.阿不力米提,买合木提.买买提,艾山.吾买尔,吐尔根.依布拉音.基于WCF的维汉机器翻译系统的设计与实现[J].新疆大学学报（自然科学版）,2012,29(4):466-470. 被引量：1
10吴玥.基于依存上下文的中—英词表构建方法[J].信息通信,2013,26(7):95-96. 被引量：1

同被引文献10

1彭凤,靳焱,韩涛.从汉维词汇多角度分析汉维思维方式的差异[J].新疆师范大学学报（哲学社会科学版）,2013,34(6):88-94. 被引量：7
2赵学会.怎样教会维吾尔族学生用汉语称读数字[J].语文建设,1994(11):26-27. 被引量：3
3米莉万.雪合来提,刘凯,吐尔根.依布拉音.基于维吾尔语词干词缀粒度的汉维机器翻译[J].中文信息学报,2015,29(3):201-206. 被引量：12
4罗柳明.汉维公示语翻译问题初探[J].伊犁师范学院学报（社会科学版）,2016,35(2):108-114. 被引量：2
5阿依古丽.哈力克,艾山.吾买尔,吐尔根.伊布拉音,卡哈尔江.阿比的热西提,买合木提.买买提.汉维时间数字和量词的识别与翻译研究[J].中文信息学报,2016,30(6):190-200. 被引量：8
6哈里旦木.阿布都克里木,刘洋,孙茂松.神经机器翻译系统在维吾尔语-汉语翻译中的性能对比[J].清华大学学报（自然科学版）,2017,57(8):878-883. 被引量：25
7潘一荣,李晓,杨雅婷,米成刚,董瑞.面向汉维机器翻译的调序表重构模型[J].计算机应用,2018,38(5):1283-1288. 被引量：4
8裘凯伦.汉语分数及小数认知中的语义一致与概念分布[J].哈尔滨师范大学社会科学学报,2019,10(1):102-106. 被引量：1
9廖映红.21世纪当代汉语语言中数词的对比研究[J].汉字文化,2018(7):17-19. 被引量：1
10徐春兰.汉维语基数词称数法对比研究[J].语言与翻译,2003(2):26-29. 被引量：7

引证文献2

1潘一荣,李晓,杨雅婷,董瑞.面向汉维机器翻译的双语关联度优化模型[J].计算机应用研究,2020,37(3):726-730. 被引量：2
2赵莉莉,马雪梅.汉维数词对比与翻译[J].文化创新比较研究,2021,5(32):136-139.

二级引证文献2

1赵崇俊.基于Spark的大规模机器翻译系统研究[J].自动化与仪器仪表,2022(3):73-77. 被引量：3
2哈里旦木·阿布都克里木,侯钰涛,姚登峰,阿布都克力木·阿布力孜,陈吉尚.维吾尔语机器翻译研究综述[J].计算机工程,2024,50(1):1-16. 被引量：1

1刘豹,张桂平,蔡东风.基于统计和规则相结合的科技术语自动抽取研究[J].计算机工程与应用,2008,44(23):147-150. 被引量：36
2甘榕生,胡庆玲.职业教育与区域产业融合的实践与思考——以《印象·刘三姐》为例[J].教育界（高等教育）,2017,0(3):32-33. 被引量：1
3关林芳,胡彧.基于Andriod智能手机的农田灌溉预约系统设计[J].人民长江,2017,48(B06):297-300. 被引量：6
4彭琳.论科技英语专业术语的相对不可译性[J].科技视界,2017(8):96-97. 被引量：1
5王文贤,陈兴蜀,王海舟,吴小松.一种基于Solr的HBase海量数据二级索引方案[J].信息网络安全,2017(8):39-44. 被引量：15
6李俊烨,卫丽丽,尹延路,吴绍菊,周立宾,张心明.磨粒流研抛伺服阀阀芯喷嘴的冲蚀磨损分析[J].光学精密工程,2017,25(7):1857-1865. 被引量：6

新疆大学学报（自然科学版）

2017年第3期

浏览历史

内容加载中请稍等...

用于双语科技术语对齐的汉维文可比语料库构建被引量：2

参考文献6

二级参考文献69

共引文献25

同被引文献10

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

用于双语科技术语对齐的汉维文可比语料库构建 被引量：2

参考文献6

二级参考文献69

共引文献25

同被引文献10

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

用于双语科技术语对齐的汉维文可比语料库构建被引量：2