期刊文献+

基于N元模型的维吾尔语词性标注实验研究 被引量:2

Experimental study of N-gram based Uyghur part of speech tagging
下载PDF
导出
摘要 词性标注有很多不同的研究方法,目前的维吾尔语词性标注方法都以基于规则的方法为主,其准确程度尚不能完全令人满意。在大规模人工标注的语料库的基础之上,研究了基于N元语言模型的维吾尔语词性自动标注的方法,分析了N元语言模型参数的选取以及数据平滑,比较了二元、三元文法模型对维吾尔语词性标注的效率;研究了标注集和训练语料规模对词性标注正确率的影响。实验结果表明,用该方法对维吾尔语进行词性标注有良好的效果。 There are many approaches to the problem of part-of-speech tagging, current Uyghur part-of-speech tag- ging is mainly based on rule based methods and does not achieve the state-of-art accuracy. A large scale of manually annotated Uyghur corpus and a number of well-conducted experiments are used to identify the efficiency of N-gram based part-of-speech tagging scheme for Uyghur texts. The N-gram language model parameters and data smoothing are analyzed, and the efficiency of Bigram and Trigram models are compared. The impacts of tag sets and size of training data on tagging accuracy are studied. The experiments show that N-gram based part-of-speech tagging for Uyghur texts has achieved good results.
出处 《计算机工程与应用》 CSCD 2012年第25期137-140,173,共5页 Computer Engineering and Applications
基金 国家电子信息产业发展基金(文号:财建[2009]537 工信部财[2009]453) 国家自然科学基金(No.60963018 No.61063026) 国家教育部项目(No.MZ115-75) 新疆维吾尔自治区高新技术项目(No.200712109) 新疆维吾尔自治区高校项目(No.XJEDU2008I08) 新疆多语种信息技术重点实验室开放课题
关键词 词性标注 N元模型 维吾尔语词性标注 part-of-speech tagging N-gram model Uyghur part -of-speech tagging
  • 相关文献

参考文献12

二级参考文献39

  • 1周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量:43
  • 2周强.基于语料库和面向统计学的自然语言处理技术[J].计算机科学,1995,22(4):36-40. 被引量:25
  • 3白拴虎.语言信息处理专论[M].北京:清华大学出版社、广西科学技术出版社,1996.37-77.
  • 4刘开瑛 等.语料库词类自动标注算法研究[A].陈肇雄.机器翻译研究进展[C].北京:电子工业出版社,1992.378—386.
  • 5周强 俞士汶.一种切分和词性标注相融合的汉语语料库多级处理方法[A].陈力为.计算语言学研究与应用[C].北京:北京语言学院出版社,1993.126—131.
  • 6白栓虎 黄昌宁 夏莹.基于统计的汉语语料库词性自动标注的研究与实现[A].黄昌宁,夏莹.语言信息处理专论[C].北京:清华大学出版社,..
  • 7Jelinek, F.. Self-organized language modeling for speech recognition. Readings in Speech Recognition[C], A. Waibel and K. F. Lee, eds., Morgan-Kaufmann, San Mateo, CA, 1990, 450-506.
  • 8Miller, D., Leek, T., and Schwartz, R. M.. A hidden Markov model information retrieval system.Proc. 22nd International Conference on Research and Development in Information Retrieval[C], Berkeley, CA, 1999, 214-221.
  • 9Zue, V. W.. Navigating the information superhighway using spoken language interfaces[R].IEEE Expert, October, 1995,10(5) :39-43.
  • 10L. E. Baum. An inequality and associated maximization technique in statistical estimation for probabilistic functions of a Markov process [J], Inequalities, 1972, 3: 1- 8.

共引文献100

同被引文献7

引证文献2

二级引证文献10

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部