-
题名基于Hash的正向回溯算法的改进
被引量:1
- 1
-
-
作者
曹菲
聂文惠
陈伟鹤
-
机构
江苏大学计算机科学与通信工程学院
-
出处
《信息技术》
2017年第11期167-171,共5页
-
文摘
中文分词一直是中文类搜索引擎的重要前提之一。针对经典的机械分词方法中字符串匹配的最长匹配字的选择问题,提出了一种基于Hash的词典结构,避免了最长匹配字的过长或过短。对于歧义的发现,引入了回溯机制,即算法在每次查询词语完毕后,再以查询的词语的最后一个字为首字,开始进行新一轮的查询。对于回溯机制带来的查询次数倍增问题,提出对词语末字的检验是否能成为首字的算法,减少查询次数和时间复杂度。该方法相比于其他融合方法,具有较快的查询速度和较好的歧义处理能力。
-
关键词
分词
Hash词典
回溯
尾字检验
-
Keywords
segmentation
Hash dictionary
backtracking
tail character test
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-