期刊文献+

错误驱动学习在未登录词词性标注中的应用 被引量:1

Application of error-driven learning approach for unknown word in POS tagging
下载PDF
导出
摘要 词性兼类是自动词性标注过程的关键所在,特别是确定未登录词词性的正确率对整个标注效果有很大的影响。对兼类词排歧方法进行了研究,针对统计和规则两种方法各自的优点和局限,提出运用隐马尔科夫模型和错误驱动学习方法相结合自动标注方法,最后介绍了如何通过这种方法在只有一个词库的有限条件下进行词性标注和未登录词的词性猜测。实验结果表明,该方法能有效提高未登录词词性标注的正确率。 Ambiguity of POS is the key of automatic part-of-speech tagging procedure.Especially,the correction of tagging unknown word greatly affects automatic POS results.Firstly the ambiguity of POS is studied.After comparing the advantage and weakness of the statistical methods and the rule-governed methods,an automatic POS tagging method based on both HMM and TBL is presented.Finally,how to complete part-of-speech tagging and guess the part-of-speech of the unknown words with a limited lexicon is shown.And the tests prove that the method can raise the accuracy of unknown words tagging.
作者 梁妍 朱耀庭
出处 《计算机工程与设计》 CSCD 北大核心 2008年第6期1532-1534,共3页 Computer Engineering and Design
基金 天津市科技攻关重点基金项目(04310731R) 天津师范大学青年基金项目(52LE69)
关键词 词性标注 未登录词 基于转换的学习 隐马尔科夫模型 词性兼类 part-of-speech tagging unknown words transformation based learning HMM ambiguity of POS
  • 相关文献

参考文献8

二级参考文献59

  • 1李智强.韵律研究和韵律标音[J].语言文字应用,1998(1):107-111. 被引量:3
  • 2周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量:43
  • 3周强.基于语料库和面向统计学的自然语言处理技术[J].计算机科学,1995,22(4):36-40. 被引量:25
  • 4温锁林.中文文本兼类词的标注技术.中文信息算是国际会议论文集[M].北京,1998..
  • 5刘开瑛 郑家恒 等.语料库司类自动标注算法研究.机器翻译研究进展[M].电子工业出版社,1992,8.378-385.
  • 6王素格.汉语词性标注知识获取方法研究.山西大学硕士学位论文[M].,2000,6..
  • 7刘开瑛 等.语料库词类自动标注算法研究[A].陈肇雄.机器翻译研究进展[C].北京:电子工业出版社,1992.378—386.
  • 8周强 俞士汶.一种切分和词性标注相融合的汉语语料库多级处理方法[A].陈力为.计算语言学研究与应用[C].北京:北京语言学院出版社,1993.126—131.
  • 9白栓虎 黄昌宁 夏莹.基于统计的汉语语料库词性自动标注的研究与实现[A].黄昌宁,夏莹.语言信息处理专论[C].北京:清华大学出版社,..
  • 10[1]Bernard Merialdo.Tagging English Text with a Probabilistic Model[J].Computational Linguistics,1995,20:155-171.

共引文献75

同被引文献14

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部