-
题名一种改进的高效分词词典机制
被引量:8
- 1
-
-
作者
王东
陈笑蓉
-
机构
贵州大学计算机科学与技术学院
-
出处
《贵州大学学报(自然科学版)》
2007年第4期380-384,389,共6页
-
基金
贵州省教育厅自然科学研究项目(2004102)
-
文摘
汉语自动分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用。作者在研究几种分词词典机制的基础上提出了一种新的分词词典机制,其基本思想是:根据一字词和二字词出现频率高的特点,将词首字和次字组合成Hash索引表,其余字组成剩余结点数组。基于这种分词词典机制设计的组合Hash索引分词算法使得一字词和二字词查询只须在组合hash索引表中一步完成,从而显著提高查询速度。通过真实语料的对比实验,该算法在不降低精度的前提下,处理速度比整词二分平均提高了13.8倍,比TR IE索引树平均提高了2.7倍。结果表明:组合hash索引分词算法是实用有效的。
-
关键词
汉语自动分词
hash索引算法
中文信息处理
-
Keywords
Chinese automatic word segmentation
hash index algorithm
Chinese information processing
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-