-
题名基于机器翻译的维吾尔语形态分析研究
被引量:3
- 1
-
-
作者
徐春
杨勇
蒋同海
-
机构
中国科学院新疆理化技术研究所
中国科学院大学
新疆财经大学计算机科学与工程学院
新疆师范大学计算机科学技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2017年第14期138-142,154,共6页
-
基金
新疆自治区高校科研计划项目(No.XJEDU2013I27)
教育部人文社会科学研究项目(No.12XJJC740006)
+1 种基金
中国科学院西部之光项目(No.XBBS201216
No.LHXZ201301)
-
文摘
针对现有维吾尔语形态分析研究中存在的数据稀疏、模型构建复杂等问题,提出一种基于机器翻译的维吾尔语形态分析模型,即将维吾尔语词干提取(词性标注)任务中词干提取前(词性标注前)的句子看作是机器翻译模型训练过程中的源语言端,词干提取后(词性标注后)的句子看作是目标语言端;为了达到最佳的效果,加入了外部信息模块和联合校验模块以优化模型。实验结果表明,基于机器翻译框架的维吾尔语形态分析模型在词干提取、词性标注两个任务上优于其他模型。对比英语(词干提取、词性标注)、汉语(分词、词性标注)实验结果,提出的方法更适合维吾尔语形态分析。
-
关键词
维吾尔语形态分析
基于机器翻译
词干提取
词性标注
模型优化
-
Keywords
Uyghur morphology analysis
machine translation based
word stemming
part-of- speech tagging
model optimization
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名维吾尔语复杂形态对汉维机器翻译的影响研究
被引量:2
- 2
-
-
作者
穆妮热·穆合塔尔
李晓
杨雅婷
-
机构
中国科学院新疆理化技术研究所
中国科学院大学
新疆民族语音语言信息处理实验室
-
出处
《计算机工程》
CAS
CSCD
北大核心
2020年第2期309-314,共6页
-
基金
国家自然科学基金(U1703133)
中科院西部之光人才培养引进计划(2017-XBQNXZ-A-005)
+2 种基金
中国科学院青年创新促进会项目(2017472)
新疆维吾尔自治区重大科技专项(2016A03007-3)
新疆维吾尔自治区高层次人才引进工程(Y839031201)
-
文摘
维吾尔语形态较为复杂,构形词缀在维吾尔语中占有重要地位,其语法与汉语有较大差别。针对维吾尔语的形态特点,分析汉语端到维吾尔语端在统计机器翻译中维吾尔语词缀的作用,搭建基于短语的汉维统计机器翻译系统,对词级粒度、词干级粒度、最大词干级粒度、词干-词缀级粒度、词干-词尾级粒度的汉维平行语料库进行对比实验,研究不同粒度的维吾尔语对汉维机器翻译中的词语对齐质量和语言模型质量的影响。实验结果表明,在上述5种粒度的维吾尔语语料中,基于词干的维吾尔语和基于词干-词尾的维吾尔语目标端语料的翻译质量明显提高。
-
关键词
维吾尔语形态
构形词缀
词缀粒度
统计机器翻译
翻译质量
-
Keywords
Uyghur morphology
configuration affix
affix granularity
statistical machine translation
translation quality
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-