期刊文献+

词性标注中生词处理算法研究 被引量:13

An Approach of Processing New Words Based on HMM in Tagging of Speech of Part
下载PDF
导出
摘要 词性兼类是自然语言理解必须解决的一类非常重要的歧义现象,尤其是对生词的词性歧义处理有很大的难度。文章基于隐马尔科夫模型(HMM),通过将生词的词性标注问题转化为求词汇发射概率,在词性标注中提出了一种生词处理的新方法。该方法除了用到一个标注好的单语语料库外,没使用任何其他资源(比如语法词典、语法规则等),封闭测试正确率达97%左右,开放测试正确率也达95%左右,基本上达到了实用的程度。同时还给出了与其他同样基于HMM的词性标注方法的测试比较结果,结果表明本文方法的标注正确率有较大的提高。 Ambiguity of part of speech (POS) which urgent needs to be resolved is a very important ambiguous phenomenon in natural language processing. Furthermore, it is very difficult to disambiguate the ambiguity of part of speech of the new words. In this paper, through converting the problem of tagging of POS to the problem of calculation of word's emission probability; a new approach based on HMM is proposed to solve this problem. This approach uses nothing more than a tagged corpus (e.g. no grammar dictionaries, no grammar rules), and the result shows that the correct rata arrive at 97% in close test and 92% in open test.
出处 《中文信息学报》 CSCD 北大核心 2003年第5期1-5,共5页 Journal of Chinese Information Processing
基金 国家自然科学基金资助项目(60272088)
关键词 计算机应用 中文信息处理 自然语言理解 词性兼类 隐马尔科夫模型 语料库 computer application Chinese information processing natural language processing (NLP) ambiguity of POS HMM corpus
  • 相关文献

参考文献11

  • 1刘开瑛 等.语料库词类自动标注算法研究[A].陈肇雄.机器翻译研究进展[C].北京:电子工业出版社,1992.378—386.
  • 2周强 俞士汶.一种切分和词性标注相融合的汉语语料库多级处理方法[A].陈力为.计算语言学研究与应用[C].北京:北京语言学院出版社,1993.126—131.
  • 3白栓虎 黄昌宁 夏莹.基于统计的汉语语料库词性自动标注的研究与实现[A].黄昌宁,夏莹.语言信息处理专论[C].北京:清华大学出版社,..
  • 4黄昌宁 李娟子.语料库语言学[M].北京:商务印书馆,2002.115-120.
  • 5陈志忠,陈肇雄,高庆狮.通用的自然语言词法分析机制[J].计算机学报,1991,14(2):93-99. 被引量:3
  • 6黄昌宁 李涓子.语料库语言学[M].北京:商务印书馆,2002..
  • 7Jelinek, F.. Self-organized language modeling for speech recognition. Readings in Speech Recognition[C], A. Waibel and K. F. Lee, eds., Morgan-Kaufmann, San Mateo, CA, 1990, 450-506.
  • 8Miller, D., Leek, T., and Schwartz, R. M.. A hidden Markov model information retrieval system.Proc. 22nd International Conference on Research and Development in Information Retrieval[C], Berkeley, CA, 1999, 214-221.
  • 9Zue, V. W.. Navigating the information superhighway using spoken language interfaces[R].IEEE Expert, October, 1995,10(5) :39-43.
  • 10L. E. Baum. An inequality and associated maximization technique in statistical estimation for probabilistic functions of a Markov process [J], Inequalities, 1972, 3: 1- 8.

二级参考文献3

  • 1陈肇雄,中国科学,1989年,2期
  • 2陈肇雄,1988年
  • 3陈肇雄,1988年

共引文献60

同被引文献119

引证文献13

二级引证文献77

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部