期刊文献+

交集型歧义字段切分方法研究 被引量:22

Study of Segmentation Strategy on Ambiguous Phrases of Overlap Type
下载PDF
导出
摘要 本文通过动态建立独立成词能力频次库的方法以及基于词语 /词性搭配的规则库 ,对交集型歧义字段进行处理 ,大大提高了切分正确率。在 4万语料的开放测试中 ,交集型歧义字段的切分正确率可达 98%以上。 This paper presents a segmentation strategy on ambiguous phrases of overlap type with rules based on the independent wording ability frequency and collocating of words & parts of speech, which improves the accuracy of segmentation greatly. In an open test of a Chinese corpus with 40000 characters, the accuracy of segmentation for ambiguous phrases of overlap type reached 98%.
机构地区 山西大学
出处 《情报学报》 CSSCI 北大核心 2000年第6期637-643,共7页 Journal of the China Society for Scientific and Technical Information
关键词 汉语 自动分词 汉字切分 交集型 歧义 独立成词能力频次 ambiguity segmentation ambiguous phrases of overlap type independent wording ability frequency Chinese word segmentation
  • 相关文献

参考文献1

二级参考文献14

  • 1孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量:87
  • 2陈智健.Internet/Intranet上信息查询的研究与实现,汕头大学硕士论文[M].,1998..
  • 3孙茂权 张维杰.英语姓名译名的自动辨识.计算机语言学研究与应用[M].北京语言学院出版社,1993..
  • 4沈达阳 孙茂松.中国地名的自动辨识.计算语言学研究与进展[M].清华大学出版社,1995..
  • 5孙茂松,计算语言学研究与应用,1993年
  • 6Shen Dayang,Proc AP Web’98,1998年
  • 7陈智健,硕士学位论文,1998年
  • 8Sun Maosong,Proc 5th ANLP,1997年
  • 9Shen Dayang,Proc Workshop DAIMAS-97,1997年
  • 10沈达阳,计算机科学,1997年,24卷,4期

共引文献6

同被引文献123

引证文献22

二级引证文献155

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部