基于感知器算法的维吾尔语词性标注研究被引量：4

A Perceptron Approach to Uyghur POS Tagging

下载PDF

导出

摘要维吾尔语自动标注是维吾尔语信息处理后续句法分析、语义分析及篇章分析必不可少的基础工作。词性是词的重要的语法信息,假如一个词的词性无法确定或一个词给予错误的词性,对后续句法分析造成直接的影响。本文使用感知器训练算法和viterbi算法对维吾尔语进行词性标注,并在词性标注时利用词的上下文信息作为特征。实验结果表明,该方法对维吾尔语词性标注有良好的效果。 Uyghur POS tagging is essential for subsequent tasks such as Uyghur sentence analysis, semantic analysis and discourse analysis. In this paper, perceptron training algorithm and viterbi algorithm are used for Uyghur POS tagging, and the context information of the words are employed. Experiment results show that this method has good results for the Uyghur POS tagging.

作者帕提古力.依马木买合木提.买买提吐尔根.依布拉音卡哈尔江.阿比的热西提

机构地区新疆大学信息科学与工程学院

出处《中文信息学报》 CSCD 北大核心 2014年第5期187-191,共5页 Journal of Chinese Information Processing

关键词词性标注感知器算法维吾尔语词性标注 The speech tagging Perceptron algorithm Uyghur speech tagging

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1吐尔根·依不拉音,阿里甫·库尔班.基于词典的现代维吾尔语词性自动标注系统的研究[A].中文输入技术发展历程及输入方案汇编(论文集)[C],2006.11.
2Màrquez,Lluís,LluisPadro et al.A Machine Learning Approach to POS Tagging.Machine Learning 2000,39(1):59-91.
3Brill Eric.Transformation based Error-driven Learning and Natural Language Processing:A Case Study in Part-of-speech Tagging.Computational linguistics.1995,21(4):543-565.
4周明,吴进,黄昌宁.用于词性标注的一种快速学习算法──对Brill的基于变换算法的一项改进[J].计算机学报,1998,21(4):357-366. 被引量：8
5买合木提·买买提,吐尔根·依布拉音.基于N-gram的维吾尔语词性标注研究[C]//第二届全国少数民族青年自然语言处理学术研讨会论文集,2008.
6艾斯卡尔.亚克甫,肖克来提,玉素甫.艾白都拉.维吾尔语词频统计子系统的体系结构[J].新疆师范大学学报（自然科学版）,2006,25(2):16-20. 被引量：3
7艾山·吾买尔·维吾尔语词法句法分析关键技术的研究[D].博士论文,新疆大学,2010年.
8Ratnaparkhi A.A Maximum Entropy Model for Partof-speech Tagging[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.1996,1:133-142.
9Dobrushin R L.Central Limit Theorem for Nonstationary Markov Chains[J].Theory of Probability & Its Applications,1956,l(1):65-80.
10Lafferty John,Andrew McCallum,Fernando CN Pereira.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data.ICML 18(2001):45-54.

二级参考文献1

1姚天昉,林莉,玉素甫.艾白都拉.基于德语语料库词性标注和统计方法的研究[J].上海交通大学学报,1996,30(6):35-40. 被引量：1

共引文献10

1陈文亮,朱靖波,吕学强.词性标注规则的获取和优化[J].术语标准化与信息技术,2004(2):23-26. 被引量：5
2洪铭材,张阔,唐杰,李涓子.基于条件随机场(CRFs)的中文词性标注方法[J].计算机科学,2006,33(10):148-151. 被引量：56
3胡冠龙,张建,李淼.改进的基于转换方法的拉丁蒙文词性标注[J].计算机应用,2007,27(4):963-965. 被引量：4
4王蕾,朱巧明,李培峰,杨季文.基于实例和错误驱动的规则学习方法及其应用[J].计算机应用与软件,2008,25(1):162-164. 被引量：1
5孙静,李军辉,周国栋.基于条件随机场的无监督中文词性标注[J].计算机应用与软件,2011,28(4):21-23. 被引量：9
6卡哈尔江.阿比的热西提,吐尔根.依布拉音,姚天昉,艾山.吾买尔,艾山.毛力尼亚孜.一种改进的维吾尔语句子相似度计算方法[J].中文信息学报,2011,25(4):50-53. 被引量：8
7吐尔根·依布拉音,袁保社.新疆少数民族语言文字信息处理研究与应用[J].中文信息学报,2011,25(6):149-156. 被引量：26
8周溢辉,杨娜,昝红英.汉语常用语气词用法规则自动改进算法研究[J].计算机应用与软件,2012,29(12):73-76.
9阿依努尔·阿迪力,玉素甫·艾白都拉.小学柯尔克孜语文新课标教材用词状况调查[J].时代报告（学术版）,2013(01X):8-9.
10田卫东,李亚娟.基于CRF和错误驱动的中心词识别[J].计算机应用研究,2013,30(8):2345-2348. 被引量：3

同被引文献35

1玉素甫.艾白都拉,阿布都热依木.沙力.现代维语语料库的词类标注研究[J].民族语文,2005(4):63-66. 被引量：7
2陈鹏,古丽拉.阿东别克.隐马尔可夫模型在维吾尔语词性标注中的应用[J].电脑知识与技术,2006,1(4):127-128. 被引量：1
3阿依克孜.卡德尔,开沙尔.卡德尔,吐尔根.依布拉音.面向自然语言信息处理的维吾尔语名词形态分析研究[J].中文信息学报,2006,20(3):43-48. 被引量：22
4洪铭材,张阔,唐杰,李涓子.基于条件随机场(CRFs)的中文词性标注方法[J].计算机科学,2006,33(10):148-151. 被引量：56
5达吾勒.阿布都哈依尔,古丽拉.阿东别克.哈萨克语词法分析器的研究与实现[J].计算机工程与应用,2008,44(19):146-149. 被引量：16
6杨攀,李淼,张建.基于短语统计翻译的汉维机器翻译系统[J].计算机应用,2009,29(7):2022-2025. 被引量：5
7哈里旦木.阿布都克里木,吐尔根.依布拉音,帕力旦.吐尔逊,艾山.吾买尔,阿布都热依木.热合曼,阿布都克力木.阿不力孜.基于短语结构语法的维吾尔语规则库建设[J].现代计算机,2010,16(5):30-33. 被引量：2
8昝红英,张军珲,朱学锋,俞士汶.副词“就”的用法及其自动识别研究[J].中文信息学报,2010,24(5):10-16. 被引量：6
9侯呈风,古丽拉.阿东别克.改进的HMM应用于哈萨克语词性标注[J].计算机工程与应用,2010,46(36):147-149. 被引量：8
10董兴华,周俊林,郭树盛,吐尔洪.吾司曼.基于短语的汉维/维汉统计机器翻译[J].计算机工程,2011,37(9):16-18. 被引量：15

引证文献4

1李萍,杨勇,赛买提.艾力,任鸽.基于HMM的维吾尔语词性标注研究[J].现代计算机,2017,23(5):11-14. 被引量：1
2吐尔根.依布拉音,卡哈尔江.阿比的热西提,艾山.吾买尔,买合木提.买买提.中亚语言自然语言处理综述[J].中文信息学报,2018,32(5):1-13. 被引量：6
3徐春,杨勇,蒋同海.基于机器翻译的维吾尔语形态分析研究[J].计算机工程与应用,2017,53(14):138-142. 被引量：3
4黄海斌,常宝宝,詹卫东.基于高斯混合模型的现代汉语构式成分自动标注方法[J].中文信息学报,2020,34(9):1-8. 被引量：3

二级引证文献13

1詹卫东,王佳骏.面向计算的构式研究:现状、问题与展望[J].语言学研究,2022(1):39-51.
2冯秋燕,朱学芳.基于科学计量的信息技术融合分析[J].情报科学,2020,0(2):142-150. 被引量：4
3贾钰峰,章蓬伟,邵小青,张玉茜.印刷维吾尔文识别后处理[J].智能计算机与应用,2020(4):239-242.
4徐春,蒋同海,于凯,姜文斌.维吾尔语和韩语形态分析之模型构建[J].北京邮电大学学报,2018,41(1):88-94. 被引量：3
5吾买尔江·买买提明,古丽尼格尔·阿不都外力,买合木提·买买提,卡哈尔江·阿比的热西提,吐尔根·依布拉音.乌兹别克语词干提取算法的比较研究[J].中文信息学报,2020,34(1):45-50. 被引量：2
6买买提・许库尔,艾孜尔古丽.现代维吾尔语句子资源库构建研究[J].信息与电脑,2021,33(5):204-207.
7耿立波,酆格斐,詹卫东,杨亦鸣.中国计算语言学研究现状与展望[J].语言科学,2021,20(5):491-499. 被引量：3
8詹卫东.构式的形式与意义表征--语言数据资源建设视野下的构式研究[J].语言学论丛,2021(2):187-208. 被引量：2
9郝暾,施春宏.构式语法的应用空间探析[J].语言文字应用,2022(1):17-30. 被引量：2
10李健,马延周,胡瑞娟.基于深度学习的轻量级自然语言描述生成算法[J].计算机仿真,2022,39(10):369-372. 被引量：1

1李萍,杨勇,赛买提.艾力,任鸽.基于HMM的维吾尔语词性标注研究[J].现代计算机,2017,23(5):11-14. 被引量：1
2尼加提·纳吉米,买合木提·买买提,吐尔根·依布拉音.基于N元模型的维吾尔语词性标注实验研究[J].计算机工程与应用,2012,48(25):137-140. 被引量：2
3王海波,祖漪清,力提甫.托乎提.基于功能词缀串的维吾尔语词性标注方法[J].中文信息学报,2013,27(5):179-183. 被引量：8
4帕力旦.吐尔逊,房鼎益.融合形态特征的最大熵维吾尔语词性标注[J].西北大学学报（自然科学版）,2015,45(5):721-726. 被引量：1
5李晓,蒋同海,周喜,王磊,杨雅婷.面向复杂形态语言机器翻译的多模型融合词性标注研究[J].网络新媒体技术,2014,3(1):60-64. 被引量：1
6陈鹏,古丽拉.阿东别克.隐马尔可夫模型在维吾尔语词性标注中的应用[J].电脑知识与技术,2006,1(4):127-128. 被引量：1
7郭祥昊,钟义信,杨丽.一种应用言语行为理论的新闻篇章理解与摘要生成方法[J].情报学报,1998,17(4):257-262. 被引量：4
8牛洪梅,加米拉.吾守尔,吐尔根.依布拉音.现代维吾尔语的词性标注校对技术研究[J].伊犁师范学院学报（自然科学版）,2007,1(1):43-46. 被引量：2
9哈里旦木.阿布都克里木,吐尔根.依布拉音,帕力旦.吐尔逊,艾山.吾买尔,阿布都热依木.热合曼,阿布都克力木.阿不力孜.基于短语结构语法的维吾尔语规则库建设[J].现代计算机,2010,16(5):30-33. 被引量：2
10储琢佳.篇章分析中的逗号分类与识别研究[J].赤峰学院学报（哲学社会科学版）,2016,37(3):225-226.

中文信息学报

2014年第5期

浏览历史

内容加载中请稍等...

基于感知器算法的维吾尔语词性标注研究被引量：4

参考文献12

二级参考文献1

共引文献10

同被引文献35

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于感知器算法的维吾尔语词性标注研究 被引量：4

参考文献12

二级参考文献1

共引文献10

同被引文献35

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于感知器算法的维吾尔语词性标注研究被引量：4