摘要
词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一特点提出了一种新的分词词典机制-四字哈希机制,充分发挥了现代计算机内存大空间的优势,提高了分词的速度和效率。
As a basic component of Chinese word segmentation system, the dictionary mechanism influences the speed and the efficiency of segmentation significantly. In this paper, we provide a new dictionary mechanism named four-character-hash-indexing (FCHI). This mechanism takes advantages of the the big memory of computers, so that FCHI improves the speed and the efficiency of segmentation.
出处
《微型电脑应用》
2006年第10期35-36,55,共3页
Microcomputer Applications
关键词
中文信息处理
自动分词
分词词典
四字哈希
Chinese information processing Automatic word segmentation Segmentation dictionary Four-character-hash-indexing