维吾尔语词切分方法初探被引量：39

Research on Uighur Word Segmentation

下载PDF

导出

摘要维语词的词干 -词附加成分切分、音节切分的规律对维吾尔语自然语言处理方面提供更多方便。本文提出了以“词 =词根 +附加成分”结构。维语附加成分种类繁多 ,连接形式各式各样 ,在句子中起着非常重要的作用 ,同时有相当的规律性。本文提出了维语中可能出现的基本语音规律的处理方法 ,如 :语音同化、音节切分、语音和谐规律处理。本文对维文词的词法和语音法结构进行了归纳 ,提出了维语词切分的一些规律和实现方法。以新疆高校学报为语料来测试 ,对规则词准确率达到 95 %。 Root-affix and syllable segmentation of Uighur word bring great facilities in Uighur natural language processing. Affix in Uighur are various, they link between themselves and to a root in different ways. But there are intricate rules in their linkage. In this paper, we propose methods of handling with the basic phonetic features of Uighur words, such as the final vowel change, rules of vowel and consonant harmony, and syllable segmentation. We also summarized the word structures and phonetic structures of Uighur, and proposed some rules of Uighur word segmentation and implementation of this segmentation. According to the implementation of these rules on regular words from scientific publishing in Xinjiang, the accuracy is 95%.

作者古丽拉.阿东别克米吉提.阿布力米提

机构地区新疆大学信息科学与工程学院

出处《中文信息学报》 CSCD 北大核心 2004年第6期61-65,共5页 Journal of Chinese Information Processing

基金国家自然科学基金资助 (6 996 30 0 2 )

关键词人工智能自然语言处理维吾尔语词干词附加成分切分 artificial intelligence natural language processing uighur word segmentation root affix segmentation

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1Gulila·Adongbieke. The Research of Proofreading for the Uighur Character [A],The 2001 IEEE International Conference on System, Man and Cybernetics (SMC2001)[C], 2001.10.7 - . 10.10, Tucson, Arizona ,U.S.A,P874- 876.

同被引文献328

1艾赛提江.艾拜都拉.维文搜索引擎设计及实现[J].新疆教育学院学报,2004,20(4):102-106. 被引量：3
2易中梅.应用检索实例谈谈信息检索的查全率和查准率[J].科技信息,2008(24):363-364. 被引量：8
3那顺乌日图,淑琴.面向信息处理的蒙古语规范化研究[J].中央民族大学学报（哲学社会科学版）,2007,34(6):115-122. 被引量：6
4靳尚怡.现代维吾尔语语素的种类和词的结构[J].民族语文,1985(2):31-40. 被引量：4
5白锡嘉.机器翻译与自然语言的理解[J].中国科技翻译,1996,9(2):31-34. 被引量：7
6陈世明.试论维吾尔语部分词尾的演变[J].西北民族研究,1989(1):234-240. 被引量：1
7霍盛.试论维吾尔语形态变化的功能及其特点[J].新疆大学学报（哲学社会科学版）,1991,23(3):104-111. 被引量：3
8胡毅.维吾尔语附加语素的分类问题[J].语言与翻译,1999,0(4):19-21. 被引量：2
9阿不都许库尔.毛拉克.现代维语词的音节分写规则[J].语言与翻译,1999,0(4):25-26. 被引量：3
10王华,丁晓青,哈力木拉提.多字体多字号印刷维吾尔文字符识别[J].清华大学学报（自然科学版）,2004,44(7):946-949. 被引量：18

引证文献39

1许日俊,刘昌平.印刷体朝鲜文字符中字母的分割与识别研究[J].中文信息学报,2006,20(2):66-71. 被引量：2
2阿依克孜.卡德尔,开沙尔.卡德尔,吐尔根.依布拉音.面向自然语言信息处理的维吾尔语名词形态分析研究[J].中文信息学报,2006,20(3):43-48. 被引量：22
3赛麦提.麦麦提明.现代维吾尔语同形词词性自动标注探析[J].语言与翻译,2006(3):35-38. 被引量：1
4卢有飞,张伟,张岩,缪成,李春.维文版Office设计中关键技术的研究与实现[J].中文信息学报,2007,21(2):112-116. 被引量：7
5赵永进,郭大庆,卢有飞,李英凡.维文软件中排版关键技术的研究与实现[J].计算机工程与应用,2007,43(22):106-108. 被引量：8
6张伟,任大明,许晓辉,赵凡,张岩.维、哈、柯文显示及排版技术研究[J].计算机应用研究,2008,25(3):836-838. 被引量：4
7阿孜古丽.夏力甫.维吾尔语动词附加语素的复杂特征研究[J].中文信息学报,2008,22(3):105-109. 被引量：8
8玛依热.依布拉音,米吉提.阿不里米提,艾斯卡尔.艾木都拉.基于最小编辑距离的维语词语检错与纠错研究[J].中文信息学报,2008,22(3):110-114. 被引量：11
9米热古丽.艾力,米吉提.阿不力米提,艾斯卡尔.艾木都拉.基于词法分析的维吾尔语元音弱化算法研究[J].中文信息学报,2008,22(4):43-47. 被引量：17
10吐尔地.托合提,维尼拉.木沙江,艾斯卡尔.艾木都拉.维、哈、柯全文搜索引擎检索器的关键技术[J].计算机工程,2008,34(21):45-47. 被引量：4

二级引证文献155

1陈海艳.新中国成立以来的维吾尔语研究概述[J].民族翻译,2021(1):88-96. 被引量：1
2阿孜古丽.夏力甫.维吾尔语动词附加语素的复杂特征研究[J].中文信息学报,2008,22(3):105-109. 被引量：8
3蔡京哲,崔荣一.线性化朝鲜文字的歧义性研究[J].中文信息学报,2008,22(5):121-128. 被引量：2
4苏建辉,程晶,蒋同海.维、哈、柯文版Linux操作系统关键技术的设计实现[J].计算机科学,2008,35(10):288-291.
5早克热·卡德尔,吐尔根·依布拉音.维吾尔语形容词构形词缀有限状态自动机[J].电脑知识与技术,2009,5(2):939-941. 被引量：4
6早克热.卡德尔,艾山.吾买尔,吐尔根.依布拉音,艾斯卡尔.艾木都拉.维吾尔语名词构形词缀有限状态自动机的构造[J].中文信息学报,2009,23(6):116-121. 被引量：19
7汪漪,李皓,李晓,周俊林,王磊.多语种构件模型的研究与实现[J].计算机工程与应用,2010,46(14):143-147.
8艾山.吾买尔,吐尔根.依步拉音,早克热.卡德尔.基于噪声信道的维吾尔语央音原音识别模型[J].计算机工程与应用,2010,46(15):118-120. 被引量：2
9吾守尔.斯拉木,曹锦梅,朱雪莲,陈少鸿.维吾尔语、哈萨克语、柯尔克孜语在图书馆编目系统的应用[J].中文信息学报,2010,24(4):119-122. 被引量：4
10木太里甫.艾山,凯比努尔.赛地艾合买提.少数民族语言电子邮件系统的研究与开发[J].网络安全技术与应用,2010(12):48-51.

1达吾勒.阿布都哈依尔,古丽拉.阿东别克.哈萨克语词法分析器的研究与实现[J].计算机工程与应用,2008,44(19):146-149. 被引量：16
2郑文超,徐鹏.利用word2vec对中文词进行聚类的研究[J].软件,2013,34(12):160-162. 被引量：29
3S.苏雅拉图.蒙古文多变体附加成分智能化处理研究[J].中文信息学报,2000,14(4):59-64. 被引量：3
4薛化建,董兴华,王磊,吐尔洪.吾司曼,蒋同海.基于词缀库的非监督维吾尔语词切分方法[J].计算机工程与设计,2011,32(9):3191-3194. 被引量：7
5赵伟,侯宏旭,从伟,宋美娜.基于条件随机场的蒙古语词切分研究[J].中文信息学报,2010,24(5):31-35. 被引量：13
6菊花,金良.使用程序自动分析蒙古文词的研究[J].内蒙古师范大学学报（自然科学汉文版）,2014,43(2):225-228.
7户冰心,古丽拉.阿东别克,祁卉.哈萨克语“v+n+n”格式的歧义消解[J].计算机工程,2014,40(12):141-145.
8迪丽达尔·迪力沙提.浅谈现代维吾尔语动词构形附加成分“ ”[J].电脑知识与技术,2013,9(2):831-832.
9才让拉毛,安见才让.藏文词一“ ”的消歧研究[J].中国科技博览,2015,0(45):276-277. 被引量：1
10柳涛.文中文词编码系统[J].电脑编程技巧与维护,2013(4):71-72.

中文信息学报

2004年第6期

浏览历史

内容加载中请稍等...

维吾尔语词切分方法初探被引量：39

参考文献1

同被引文献328

引证文献39

二级引证文献155

相关作者

相关机构

相关主题

浏览历史

维吾尔语词切分方法初探 被引量：39

参考文献1

同被引文献328

引证文献39

二级引证文献155

相关作者

相关机构

相关主题

浏览历史

维吾尔语词切分方法初探被引量：39