摘要
在自然语言处理领域,以双语平行语料库为基础的应用日益增多,平行语料库的建设对于机器翻译、双语词典编纂、词义消歧和跨语言信息检索具有重要的价值。因此,设计了高效实用的汉维哈柯双语语料库加工系统。该系统将文档对齐、句子对齐以及词语对齐技术有机地融合为一体,具有高效、方便、快捷和可扩充等特点。
In the field of naturallanguage processing, applications based on mandarin-to-ethnic language parallel corpara have been increasing. The building of parallel corpara is of vital importance to machine translation, mandarin-to-ethnic language lecicography, disambiguity and interiangnage concordance. In the current paper, an efficient system for processing Mandarin-Uygur, Mandarin-Kazak and Mandarin- Kirghiz parallel corpa is established. The intergrated text alignment, sentence alignment arid word alignment in this system make it highly efficient, convenient and expandable.
作者
艾山·毛力尼亚孜
谭勋
吐尔根·依布拉音
艾山·吾买尔
AISHAN Molniyaz, TAN Xun, TURGUN Ibrahim, AISHAN Wumaier (College of Information Science and Engineering, Xinjiang University, Urumqi 830046, China)
出处
《电脑知识与技术》
2011年第10期6895-6896,6925,共3页
Computer Knowledge and Technology
基金
电子信息产业发展基金维哈柯语言文字软件开发及产业化维哈柯文辅助翻译软件项目
新疆多语种信息技术重点实验室开放课题
新疆大学博士科研启动基金
国家大学生创新性实验计划项目(编号:101075523)
新疆维吾尔自治区自然科学基金(2011211807)
青年教师科研培育基金(XJEDU2010S07)
关键词
双语语料
平行语料库
词语对齐
bilingual corpora
parallel corpus
word alignment