-
题名基于双哈希结构的整词二分词典机制
被引量:3
- 1
-
-
作者
张贤坤
李亚南
田雪
-
机构
天津科技大学计算机科学与信息工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2014年第11期3956-3960,共5页
-
基金
天津市科技型中小企业创新资金基金项目(12ZXCXGX33500)
-
文摘
为提高逆向最大匹配分词算法的速率,分析传统的整词二分词典机制,针对哈希结构尾字词典的不足,提出一种基于双哈希结构的整词二分词典机制,并改进对应的逆向最大匹配算法。利用记录词长的尾字词典机制,使用双哈希结构保存词条,降低词典的词条匹配时间复杂度。实验结果表明,该词典机制将逆向最大匹配算法的分词速率提高近一倍。
-
关键词
中文分词
词典机制
尾字词典
哈希结构
逆向最大匹配算法
-
Keywords
Chinese word segmentation
dictionary mechanism
last word dictionary~ Hash structure
reverse maximum matching algorithm
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Hash结构词典的逆向回溯中文分词技术研究
被引量:5
- 2
-
-
作者
梁桢
李禹生
-
机构
武汉工业学院计算机与信息工程系
-
出处
《计算机工程与设计》
CSCD
北大核心
2010年第23期5158-5160,F0003,共4页
-
基金
湖北省教育厅科研基金项目(D200618003)
-
文摘
为了提高现有的中文分词效率,提出了基于Hash结构词典的逆向回溯中文分词方法。针对首字Hash结构词典的不足,设计了能够记录词长的Hash结构尾字词典,然后对逆向最大匹配分词算法进行了分析,为了解决其存在的中文分词歧义问题,设计出一种逆向回溯最大匹配算法,该改进算法采用的回溯机制能够有效消除分词中可能存在的一些歧义问题。实验结果表明,该方法实现了提高中文分词速度并减少交集型歧义字符串切分错误的设计目标。
-
关键词
中文分词
哈希结构
尾字词典
逆向最大匹配算法
分词歧义
逆向回溯算法
-
Keywords
Chinese segmentation
Hash structure
last word dictionary
reverse maximummatchingmethod
segmentation ambiguity
reverse backtracking method
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-