基于N元模型的维吾尔语词性标注实验研究被引量：2

Experimental study of N-gram based Uyghur part of speech tagging

下载PDF

导出

摘要词性标注有很多不同的研究方法,目前的维吾尔语词性标注方法都以基于规则的方法为主,其准确程度尚不能完全令人满意。在大规模人工标注的语料库的基础之上,研究了基于N元语言模型的维吾尔语词性自动标注的方法,分析了N元语言模型参数的选取以及数据平滑,比较了二元、三元文法模型对维吾尔语词性标注的效率;研究了标注集和训练语料规模对词性标注正确率的影响。实验结果表明,用该方法对维吾尔语进行词性标注有良好的效果。 There are many approaches to the problem of part-of-speech tagging, current Uyghur part-of-speech tag- ging is mainly based on rule based methods and does not achieve the state-of-art accuracy. A large scale of manually annotated Uyghur corpus and a number of well-conducted experiments are used to identify the efficiency of N-gram based part-of-speech tagging scheme for Uyghur texts. The N-gram language model parameters and data smoothing are analyzed, and the efficiency of Bigram and Trigram models are compared. The impacts of tag sets and size of training data on tagging accuracy are studied. The experiments show that N-gram based part-of-speech tagging for Uyghur texts has achieved good results.

作者尼加提·纳吉米买合木提·买买提吐尔根·依布拉音

机构地区华北电力大学新疆电力信息通信有限责任公司新疆信息产业有限责任公司新疆大学信息科学与工程学院

出处《计算机工程与应用》 CSCD 2012年第25期137-140,173,共5页 Computer Engineering and Applications

基金国家电子信息产业发展基金(文号:财建[2009]537 工信部财[2009]453) 国家自然科学基金(No.60963018 No.61063026) 国家教育部项目(No.MZ115-75) 新疆维吾尔自治区高新技术项目(No.200712109) 新疆维吾尔自治区高校项目(No.XJEDU2008I08) 新疆多语种信息技术重点实验室开放课题

关键词词性标注 N元模型维吾尔语词性标注 part-of-speech tagging N-gram model Uyghur part -of-speech tagging

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1张孝飞,陈肇雄,黄河燕,蔡智.词性标注中生词处理算法研究[J].中文信息学报,2003,17(5):1-5. 被引量：13
2魏欧,吴健,孙玉芳,sonata.iscas.ac.cn.基于统计的汉语词性标注方法的分析与改进[J].软件学报,2000,11(4):473-480. 被引量：31
3Merialdo B.Tagging English text with a probabilistic model[J].Computational Linguistics, 1994,20(2) : 155-171.
4周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
5刘启和,詹思瑜,杨国纬.基于统计语言模型的双向词类标注方法[J].计算机科学,2003,30(9):59-60. 被引量：2
6徐望,王炳锡.N-gram语言模型中的插值平滑技术研究[J].信息工程大学学报,2002,3(4):13-15. 被引量：13
7孙茂松,卢红娜,邹嘉彦.基于隐Markov模型的汉语词类自动标注的实验研究[J].清华大学学报（自然科学版）,2000,40(9):57-60. 被引量：6
8Jelinek F.Statistical methods for speech recognition[M]. [S.1.] :The MIT Press, 1997.
9MANNING CD,SCHUTZE H．统计自然语言处理基础[M]．苑春法，等译．北京：电子工业出版社，2005．
10哈密提·铁木尔.现代维吾尔语语法[M].北京:民族出版社,1987.

二级参考文献39

1周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
2周强.基于语料库和面向统计学的自然语言处理技术[J].计算机科学,1995,22(4):36-40. 被引量：25
3白拴虎.语言信息处理专论[M].北京:清华大学出版社、广西科学技术出版社,1996.37-77.
4刘开瑛等.语料库词类自动标注算法研究[A].陈肇雄.机器翻译研究进展[C].北京:电子工业出版社,1992.378—386.
5周强俞士汶.一种切分和词性标注相融合的汉语语料库多级处理方法[A].陈力为.计算语言学研究与应用[C].北京:北京语言学院出版社,1993.126—131.
6白栓虎黄昌宁夏莹.基于统计的汉语语料库词性自动标注的研究与实现[A].黄昌宁,夏莹.语言信息处理专论[C].北京:清华大学出版社,..
7Jelinek, F.. Self-organized language modeling for speech recognition. Readings in Speech Recognition[C], A. Waibel and K. F. Lee, eds., Morgan-Kaufmann, San Mateo, CA, 1990, 450-506.
8Miller, D., Leek, T., and Schwartz, R. M.. A hidden Markov model information retrieval system.Proc. 22nd International Conference on Research and Development in Information Retrieval[C], Berkeley, CA, 1999, 214-221.
9Zue, V. W.. Navigating the information superhighway using spoken language interfaces[R].IEEE Expert, October, 1995,10(5) :39-43.
10L. E. Baum. An inequality and associated maximization technique in statistical estimation for probabilistic functions of a Markov process [J], Inequalities, 1972, 3: 1- 8.

共引文献100

1曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
2王朝静,郑庆华.面向答疑文本的词类标注方法的研究与实现[J].计算机工程与应用,2004,40(16):57-60. 被引量：2
3于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量：17
4陈文亮,朱靖波,吕学强.词性标注规则的获取和优化[J].术语标准化与信息技术,2004(2):23-26. 被引量：5
5刘壁松,李春平.一个可扩展的文本分类系统的设计与实现[J].计算机工程与应用,2004,40(30):102-106. 被引量：2
6张虎,郑家恒,刘江.汉语语料库词性标注自动校对方法研究[J].计算机应用,2005,25(1):17-19. 被引量：1
7梁以敏,黄德根.基于完全二阶隐马尔可夫模型的汉语词性标注[J].计算机工程,2005,31(10):177-179. 被引量：25
8王朔.神经网络与规则相结合的词类标注方法[J].天津理工大学学报,2005,21(2):86-88. 被引量：1
9李朝虹,陆建湖.现代汉语自动分析研究现状综述[J].广西教育学院学报,2003(1):112-116. 被引量：1
10黄永文,何中市.基于互信息的统计语言模型平滑技术[J].中文信息学报,2005,19(4):46-51. 被引量：8

同被引文献7

1张晓艳,王挺,陈火旺.基于混合统计模型的汉语命名实体识别方法[J].计算机工程与科学,2006,28(6):135-139. 被引量：20
2吐尔根·依不拉音,阿里甫·库尔班.基于词典的现代维吾尔语词性自动标注系统的研究[C]//中文输入技术发展历程及输入方案汇编(论文集),2006,11.
3阿里甫.库尔班,吾买尔江.库尔班,吐尔根.伊布拉音.面向信息处理的维吾尔语词语分类体系及标记研究(Ⅱ)[J].新疆大学学报（自然科学版）,2010,27(1):106-112. 被引量：7
4哈里旦木.阿布都克里木,吐尔根.依布拉音,帕力旦.吐尔逊,艾山.吾买尔,阿布都热依木.热合曼,阿布都克力木.阿不力孜.基于短语结构语法的维吾尔语规则库建设[J].现代计算机,2010,16(5):30-33. 被引量：2
5玉素甫.艾白都拉,张海军,艾孜尔古丽.信息处理用现代维吾尔语词干词类标记集研究[J].信息技术与标准化,2011(6):45-48. 被引量：8
6努尔比娅.塔依尔,地里木拉提.吐尔逊,艾斯卡尔.肉孜.面向韵律层边界自动划分的维吾尔语词性自动标注技术研究[J].计算机应用与软件,2011,28(8):165-168. 被引量：1
7艾孜尔古丽,齐向卫,玉素甫.艾白都拉.基于网站用词调查的现代维吾尔语词干提取和应用研究[J].计算机应用与软件,2012,29(3):32-34. 被引量：11

引证文献2

1王海波,祖漪清,力提甫.托乎提.基于功能词缀串的维吾尔语词性标注方法[J].中文信息学报,2013,27(5):179-183. 被引量：8
2艾孜尔古丽,米尔夏提,玉素甫.艾白都拉.现代维吾尔语词干词类标注标记集验证性研究[J].计算机工程与科学,2015,37(12):2318-2323. 被引量：2

二级引证文献10

1帕丽旦.木合塔尔,吾守尔.斯拉木,买买提阿依甫.基于混合模型的维吾尔文词性标注方法[J].计算机仿真,2019,36(1):268-273. 被引量：6
2张海军.维吾尔语短语自动抽取研究进展[J].计算机科学与探索,2015,9(12):1420-1429. 被引量：3
3袁蕾.三十年来维吾尔语生成语法研究综述[J].贵州民族研究,2016,37(11):217-220.
4李萍,杨勇,赛买提.艾力,任鸽.基于HMM的维吾尔语词性标注研究[J].现代计算机,2017,23(5):11-14. 被引量：1
5艾孜尔古丽,艾孜海尔江,玉素甫.艾白都拉,祖力克尔江,米尔夏提.维吾尔文初中数学教材词干分析研究[J].中文信息学报,2017,31(5):108-113. 被引量：1
6吐尔根.依布拉音,卡哈尔江.阿比的热西提,艾山.吾买尔,买合木提.买买提.中亚语言自然语言处理综述[J].中文信息学报,2018,32(5):1-13. 被引量：6
7帕提曼·艾克木.浅谈现代维吾尔语的歧义短语[J].当代教研论丛,2017,0(3):24-24.
8依不拉音.吾斯曼,张绍武,于凯.互联网上的维语多文转换机制的设计与实现[J].计算机工程与应用,2018,54(19):114-121. 被引量：1
9李成华,孙雅婧,张世娟,艾提日也古丽·艾尼瓦尔.基于CRF模型的维吾尔语分词研究[J].中南民族大学学报（自然科学版）,2019,38(4):596-604.
10赵一江,余超,于清.适用于少数民族的Unity3d虚拟仿真系统关键技术研究[J].现代电子技术,2023,46(23):133-136. 被引量：1

1李萍,杨勇,赛买提.艾力,任鸽.基于HMM的维吾尔语词性标注研究[J].现代计算机,2017,23(5):11-14. 被引量：1
2曾华琳,李堂秋.基于上下文信息提取的概率分词算法[J].学术问题研究,2006,0(1):127-131.
3帕提古力.依马木,买合木提.买买提,吐尔根.依布拉音,卡哈尔江.阿比的热西提.基于感知器算法的维吾尔语词性标注研究[J].中文信息学报,2014,28(5):187-191. 被引量：4
4杜璞.中文信息处理的主流技术[J].科技创新导报,2009,6(24):172-172. 被引量：1
5曾华琳,李堂秋,史晓东.一种基于提取上下文信息的分词算法[J].计算机应用,2005,25(9):2025-2027. 被引量：9
6康铁钢,戴汝为.一种基于大规模标注语料库的词语聚类方法[J].系统仿真学报,2003,15(10):1439-1442. 被引量：3
7周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
8王海波,祖漪清,力提甫.托乎提.基于功能词缀串的维吾尔语词性标注方法[J].中文信息学报,2013,27(5):179-183. 被引量：8
9王成平.计算机彝文信息处理主流技术的分析与探讨[J].信息系统工程,2012,25(7):148-150. 被引量：1
10多杰卓玛.N元模型在藏文文本局部查错中的应用研究[J].计算机工程与科学,2009,31(4):117-119. 被引量：19

计算机工程与应用

2012年第25期

浏览历史

内容加载中请稍等...

基于N元模型的维吾尔语词性标注实验研究被引量：2

参考文献12

二级参考文献39

共引文献100

同被引文献7

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于N元模型的维吾尔语词性标注实验研究 被引量：2

参考文献12

二级参考文献39

共引文献100

同被引文献7

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于N元模型的维吾尔语词性标注实验研究被引量：2