期刊文献+

基于条件随机域的词性标注模型 被引量:12

Conditional Random Fields Based POS Tagging
下载PDF
导出
摘要 词性标注主要面临兼类词消歧以及未知词标注的难题,传统隐马尔科夫方法不易融合新特征,而最大熵马尔科夫模型存在标注偏置等问题。论文引入条件随机域建立词性标注模型,易于融合新的特征,并能解决标注偏置的问题。此外,又引入长距离特征有效地标注复杂兼类词,以及应用后缀词与命名实体识别等方法提高未知词的标注精度。在条件随机域模型框架下,进一步探讨了融合模型的方法及性能。词性标注开放实验表明,条件随机域模型获得了96.10%的标注精度。 The main difficulties in POS tagging are multi-class word disambiguation and unknown word tagging. However,more features cannot be added into Hidden Markov Model,and there is label bias problem in Maximum Entropy Markov Model.So Conditional Random Field(CRF) is introduced to build POS tagging model in this paper,in order to overcome above problems.In addition,long distance features are extracted and utilized to label complicated multi-class word.As for the unknown word tagging,named entities recognition and suffix-based method etc. are adopted to improve the POS tagging performance.Moreover,we explore the mixing models' performance based on CRF.The experiment indicates our model can achieve a good performance with 96.10% tagging precision.
出处 《计算机工程与应用》 CSCD 北大核心 2006年第21期13-16,42,共5页 Computer Engineering and Applications
基金 国家自然科学基金重点资助项目(编号:60435020) 国家自然科学基金资助项目(编号:60504021)
关键词 词性标注 条件随机域 触发对 POS tagging, Conditional Random Fields,trigger
  • 相关文献

参考文献14

二级参考文献34

  • 1黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量:83
  • 2宋柔.关于分词规范的探讨[J].语言文字应用,1997(3):113-114. 被引量:12
  • 3孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量:101
  • 4刘开瑛 等.语料库词类自动标注算法研究[A].陈肇雄.机器翻译研究进展[C].北京:电子工业出版社,1992.378—386.
  • 5周强 俞士汶.一种切分和词性标注相融合的汉语语料库多级处理方法[A].陈力为.计算语言学研究与应用[C].北京:北京语言学院出版社,1993.126—131.
  • 6白栓虎 黄昌宁 夏莹.基于统计的汉语语料库词性自动标注的研究与实现[A].黄昌宁,夏莹.语言信息处理专论[C].北京:清华大学出版社,..
  • 7Jelinek, F.. Self-organized language modeling for speech recognition. Readings in Speech Recognition[C], A. Waibel and K. F. Lee, eds., Morgan-Kaufmann, San Mateo, CA, 1990, 450-506.
  • 8Miller, D., Leek, T., and Schwartz, R. M.. A hidden Markov model information retrieval system.Proc. 22nd International Conference on Research and Development in Information Retrieval[C], Berkeley, CA, 1999, 214-221.
  • 9Zue, V. W.. Navigating the information superhighway using spoken language interfaces[R].IEEE Expert, October, 1995,10(5) :39-43.
  • 10L. E. Baum. An inequality and associated maximization technique in statistical estimation for probabilistic functions of a Markov process [J], Inequalities, 1972, 3: 1- 8.

共引文献70

同被引文献92

引证文献12

二级引证文献47

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部