摘要
现代维吾尔语名词词干识别是自然语言处理领域的重要基础性研究,主要目的是从句子中提取名词词干,提高名词识别效率。首先陈述形态分析概念,通过这些形态特征可以准确地识别其词性的意义;其次讨论维吾尔语的词类划分标准、名词的形态特征分析,总结词缀歧义及消解规则;该文提出研究总体思路,设计现代维吾尔语新词中名词识别算法,其中包括特征选择及参数估计、词内部特征、前后依存词特征等;最后将初中、高中物理维吾尔语教材作为验证对象,对名词词干进行统计与分析。
Modern Uyghur noun stem identification is a fundamental issue in the field of natural language processing. The morphological analysis is first introduced, especially on its role in identifying the POS of words. Then this paper describes the POS scheme in Uyghur, as well as the morphological characteristics of Uyghur nouns, suffix ambiguity and the disambiguation rules. The algorithm of new nouns identification in modern Uyghur language is pro posed, including feature selection (features within and between words) and parameter estimation. The experiment is carried on the corpus of Uyghur physical textbooks in junior and senior middle schools.
出处
《中文信息学报》
CSCD
北大核心
2015年第6期208-212,共5页
Journal of Chinese Information Processing
基金
新疆维吾尔自治区自然科学基金(2014211A045)
新疆维吾尔自治区哲学社会科学研究规划基金(14CYY093)
教育部人文社会科学一般项目(14YJC740001)
新疆维吾尔自治区高校科研计划青年教师科研启动基金(20140706213103147)
国家自然科学基金(61132009
61262066)
国家社科基金(14AZD11)
关键词
现代维吾尔语
形态分析
名词词干识别
modern Uyghur
morphological analysis
noun stems recognition