期刊文献+

具有三级索引词库结构的中文分词方法研究 被引量:16

Study on Chinese Word Segmentation Based on Key-word Library Having Three Level Index
下载PDF
导出
摘要 提出了一种分组并具有三级索引结构的词库组织体系,给出了合适的索引密度间隔;针对系统基本词库的扩充问题,考虑了一种基于词频统计并具有过滤功能的关键词自动抽取和小词条添加方法。大量仿真实验结果表明,采用该方法可较大提高中文文本的切词速度及信息的查全查准率。 In this article, we'll give a method of organizing words library using three level index, and also give the appropriate index density interval; Aim at the expansion of words library, we consider the method of key words auto extraction and small words addition basing on word frequency statistics and having filtration function. A large number of simulation experiments show that this method can improve the speed of Chinese word segmentation and the recall ratio and precision ratio of information.
出处 《计算机应用研究》 CSCD 北大核心 2006年第8期49-51,共3页 Application Research of Computers
基金 国家自然科学基金资助项目(60473051)
关键词 中文切词 正向最大匹配 词库 索引密度 全文检索 Chinese Word Segmentation Forward Maximum Method Words Library Index Density Full-text Retrieval
  • 相关文献

参考文献5

二级参考文献24

  • 1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量:45
  • 2孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量:66
  • 3《中图法》编委会.中国分类主题词表[M].北京:华艺出版社,1994..
  • 4马晏.基于评价的汉语自动分词系统的研究与实现[A]..语言信息处理专论[C].北京:清华大学出版社,1996..
  • 5Choi A, Cheng C H, Ko Y L. Word extraction from Chinese documents by occurrence counts [ A].1988 International Conference on Computer Processing of Chinese and Oriental Languages, Toronto,Canada: 488 - 491.
  • 6Fan C K, Tsai W H. Automatic word identification in Chinese sentences by the relaxation technique[J]. Computer Processing of Chinese and Oriental Languages, 1988, 4(1):33-56.
  • 7Ji He,Ah-Hwee Tan,Chew-Lim Tan.A comparative Study on Chinese Text Categorization Methods[C].In:PRICAI 2000 Workshop on Text and Web Mining, Melbourne, 2000-08 : 24--25.
  • 8Ronen Feldman et al.Text Mining via Information Extraction[J].Principles of Data Mining and Knowledge Discover, 1999 : 165-174.
  • 9MitchellTM著 曾华军 张银奎译.机器学习[M].北京:机械工业出版社,2003..
  • 10梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.

共引文献202

同被引文献100

引证文献16

二级引证文献114

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部