期刊文献+

汉语自动分词词典新机制—词值哈希机制 被引量:1

New Dictionary Mechanism for Chinese Word Segmentation
下载PDF
导出
摘要 汉语词典查询是中文信息处理系统的重要基础部分,对系统效率有重要的影响.国内自80年代中后期就开展了中文分词词典机制的研究,为了提高现有基于词典的分词机制的查询效率,对于词长不超过4字的词提出了一种全新的分词词典机制——基于汉字串进制值的拉链式哈希机制即词值哈希机制.对每个汉字的机内码从新编码,利用进制原理,计算出一个词语的词值,建立一个拉链式词值哈希机制,从而提高查询匹配速度. Word query in Chinese Dictionary is essential part in Chinese information processing system. It has a great impact on system efficiency. The Chinese word segmentation has been studied since the late 1980s. In order to improve the existing word query efficiency, for short word of no more than 4 Chinese characters, a new hash algorithm is proposed, named Zipper-style hash indexing based on the value of each characters in Chinese word. The hash value is calculated according to machine code of each character, the weight of the left character is big than the right. The weight is equal to the maximum value of all Chinese characters minus the minimum value. The speed of word query is improved with this kind of Zipper-style Chinese word value hash indexing.
出处 《计算机系统应用》 2013年第2期233-235,共3页 Computer Systems & Applications
关键词 中文信息处理 中文分词 词典机制 2000进制 拉链式词值哈希机制 Chinese information processing Chinese word segmentation dictionary mechanism two thousand decimal zipper-style Chinese word value hash indexing
  • 相关文献

参考文献9

  • 1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量:45
  • 2梁南元.书面汉语自动分词系统一CDWS.中文信息学报,1987,(2):44-52.
  • 3Choi A, Cheng CH, Ko YL. Word extraction from Chinese documents by occurrence counts. 1988 Int. Conference on computer Processing of Chinese and Oriental Languages, Toronto, Canada,488-491.
  • 4Fan CK, Tsai WH. Automatic word identification in Chinese sentences by the relaxation technique. Computer Processing of Chinese and Oriental Languages, 1988,4( 1):33-56.
  • 5马晏.基于评价的汉语自动分词系统的研究与实现[A]..语言信息处理专论[C].北京:清华大学出版社,1996..
  • 6李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制[J].中文信息学报,2003,17(4):13-18. 被引量:108
  • 7孙茂松,左正平,黄昌宁.汉语自动分词词典新机制的实验研究.中文信息报2000,(1).
  • 8吴晶晶,荆继武,聂晓峰,王平建.一种快速中文分词词典机制[J].中国科学院研究生院学报,2009,26(5):703-711. 被引量:16
  • 9李振星,徐泽平,唐卫清,唐荣锡.全二分最大匹配快速分词算法[J].计算机工程与应用,2002,38(11):106-109. 被引量:39

二级参考文献24

共引文献186

同被引文献7

引证文献1

二级引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部