期刊文献+

用基于词的二元模型消解交集型分词歧义 被引量:7

Using Word-based Bi-gram as a Discriminator for Crossing Ambiguities in Chinese Word Segmentation
下载PDF
导出
摘要 解决交集型分词歧义问题,对于大规模语料库建设具有十分重要的意义。我们用基于词的二元模型对两个各200万字的语料库中的三字长交集型字串进行了消歧实验,封闭测试正确率达到99%以上,开放测试正确率达到90%以上,比以往最好结果有明显的提高。 It is very important to solve the crossing ambiguities in word segmentation for Chinese information processing. We employ the word-based bi-gram to discriminate the 3-character crossing ambiguous string in two corpora. The precision rates are above 99% and 90% respectively in close test and open test, which are much higher than the best results yielded before.
作者 陈小荷
出处 《南京师大学报(社会科学版)》 CSSCI 北大核心 2004年第6期109-113,共5页 Journal of Nanjing Normal University(Social Science Edition)
关键词 中文信息处理 基于词的二元模型 交集型分词歧义 Chinese information processing Word-based Bi-gram crossing ambiguities in Chinese word segmentation
  • 相关文献

参考文献3

  • 1梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.
  • 2孙茂松,左正平,黄昌宁.消解中文三字长交集型分词歧义的算法[J].清华大学学报(自然科学版),1999,39(5):101-103. 被引量:22
  • 3[6]Christopher D. Manning, Hinrich Schütze. Foundations of Statistical Natural Language Processing. London: The MIT Press. 1999.

二级参考文献3

  • 1Sun Maosong,Proc 5th Conf Applied Natural Language Processing,1997年
  • 2刘开瑛,语言文字应用,1997年,1期,101页
  • 3孙茂松,语言文字应用,1995年,4期,40页

共引文献61

同被引文献71

引证文献7

二级引证文献22

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部