基于Hash的正向回溯算法的改进被引量：1

Improvement on forward backtracking algorithm based on Hash

下载PDF

导出

摘要中文分词一直是中文类搜索引擎的重要前提之一。针对经典的机械分词方法中字符串匹配的最长匹配字的选择问题,提出了一种基于Hash的词典结构,避免了最长匹配字的过长或过短。对于歧义的发现,引入了回溯机制,即算法在每次查询词语完毕后,再以查询的词语的最后一个字为首字,开始进行新一轮的查询。对于回溯机制带来的查询次数倍增问题,提出对词语末字的检验是否能成为首字的算法,减少查询次数和时间复杂度。该方法相比于其他融合方法,具有较快的查询速度和较好的歧义处理能力。 Chinese word segmentation is one of the important preconditions of Chinese search engine. For the longest matching word selection in the string matching of classical method of mechanical word segmentation,this paper proposed a Hash-based dictionary structure,to avoid the longest matching word is too long or too short. For the discovery of ambiguity,the paper introduces the backtracking mechanism,that is,when the algorithm in each querying of word is completed,the algorithm query the last character of the word,finally using the last character of first word to start a new round of inquiry. However,the backtracking mechanism has brought about the problem of doubling the time of queries,so it proposed that the last character of the word can become the first word,reduces the number of queries and time complexity. Compared with other fusion methods,the proposed method has a faster searching speed and the ability to deal with ambiguity.

作者曹菲聂文惠陈伟鹤

机构地区江苏大学计算机科学与通信工程学院

出处《信息技术》 2017年第11期167-171,共5页 Information Technology

关键词分词 Hash词典回溯尾字检验 segmentation Hash dictionary backtracking tail character test

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1尹存燕,黄书剑,戴新宇,陈家骏.中英命名实体识别及对齐中的中文分词优化[J].电子学报,2015,43(8):1481-1487. 被引量：6
2李江波,周强,陈祖舜.汉语词典的快速查询算法研究[J].中文信息学报,2006,20(5):31-39. 被引量：25
3张劲松,袁健.回溯正向匹配中文分词算法[J].计算机工程与应用,2009,45(22):132-134. 被引量：16
4丁振国,张卓,黎靖.基于Hash结构的逆向最大匹配分词算法的改进[J].计算机工程与设计,2008,29(12):3208-3211. 被引量：26

二级参考文献43

1孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
2王秀坤,李政,简幼良,刘剑.基于Hash方法的机器翻译词典的组织与构造[J].大连理工大学学报,1996,36(3):352-355. 被引量：12
3罗智勇,宋柔.现代汉语通用分词系统中歧义切分的实用技术[J].计算机研究与发展,2006,43(6):1122-1128. 被引量：19
4肖红,许少华,李欣.具有三级索引词库结构的中文分词方法研究[J].计算机应用研究,2006,23(8):49-51. 被引量：16
5张李义,李亚子.基于反序词典的中文逆向最大匹配分词系统设计[J].现代图书情报技术,2006(8):42-45. 被引量：12
6张培颖,李村合.一种中文分词词典新机制——四字哈希机制[J].微型电脑应用,2006,22(10):35-36. 被引量：16
7翟伟斌,周振柳,蒋卓明,许榕生.汉语分词词典设计[J].计算机工程与应用,2007,43(1):1-2. 被引量：11
8孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
9黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
10张永奎,张彦,安增波,刘睿.Web新闻语料分词和标注错误分析[J].计算机工程与应用,2007,43(15):166-169. 被引量：4

共引文献67

1徐吉,朱兰娟.用于网络搜索引擎的中文分词消岐算法[J].微型电脑应用,2011(4):52-54.
2姜峻岭,张英杰.基于层析数据的智能特征识别算法研究[J].航空制造技术,2004,47(7):70-73.
3杨来,何清,许立达,史忠植.Dynamic Hash TRIE算法的研究与分析[J].广西师范大学学报（自然科学版）,2008,26(1):134-138.
4高艳萍,于红,尹祥贵,綦孝姬,王春永,赵志强.基于双数组Trie树的渔业领域分词研究[J].安徽农业科学,2008,36(11):4788-4790.
5孙宏纲,陆余良.中文博客主题情感句自动抽取研究[J].计算机工程与应用,2008,44(20):165-168. 被引量：3
6岑咏华.一种基于多重哈希词典和K-最短路径算法的中文粗分词方案研究[J].情报理论与实践,2009,32(3):110-114. 被引量：5
7买合木提·买买提,吐尔根·依布拉音,艾山·吾买尔.“突厥语大词典”电子词典的设计与实现[J].电脑知识与技术,2009,5(4):2649-2651. 被引量：1
8高文利,朱丽.哈希表在计算语言学中的运用[J].现代语文（下旬．语言研究）,2009(6):110-111. 被引量：1
9田占霄,韩宪忠,王克俭.一种改进的长词优先逆向最大匹配分词消歧策略[J].河北农业大学学报,2009,32(4):100-102. 被引量：1
10吴晶晶,荆继武,聂晓峰,王平建.一种快速中文分词词典机制[J].中国科学院研究生院学报,2009,26(5):703-711. 被引量：16

同被引文献12

1姚兴山.基于Hash算法的中文分词研究[J].现代图书情报技术,2008(3):78-81. 被引量：5
2蔡蕊.一种改进的基于Hash的中文分词算法研究[J].福建电脑,2010,26(2):69-70. 被引量：3
3熊志斌,朱剑锋.基于改进Trie树结构的正向最大匹配算法[J].计算机应用与软件,2014,31(5):276-278. 被引量：11
4陈之彦,李晓杰,朱淑华,付丹龙,邢诒海.基于Hash结构词典的双向最大匹配分词法[J].计算机科学,2015,42(B11):49-54. 被引量：18
5杨进才,陈忠忠,谢芳,胡金柱.基于汉语拼音首字母索引的混合分词算法[J].计算机系统应用,2016,25(4):221-225. 被引量：1
6丁洁.基于层次分析法的中文分词算法改进[J].信息技术,2016,40(10):190-193. 被引量：1
7张义,李治江.基于高斯词长特征的中文分词方法[J].中文信息学报,2016,30(5):89-93. 被引量：3
8刘超,王卫东.基于双哈希词典机制中文分词的研究[J].信息技术,2016,40(11):152-156. 被引量：1
9胡婕,张俊驰.双向循环网络中文分词模型[J].小型微型计算机系统,2017,38(3):522-526. 被引量：11
10刘勇,魏光泽.基于双字哈希结构的最大匹配算法机制改进[J].电子设计工程,2017,25(16):11-15. 被引量：6

引证文献1

1杨光豹,杨丰赫,郑慧锦.基于字符树结构的高性能中文词库技术[J].计算机系统应用,2019,28(8):262-267.

1邹静,李斌,张利,骆扬,孙运传,李世贤.基于Hash聚合动态数据持有性方案安全性分析[J].清华大学学报（自然科学版）,2017,57(11):1145-1149. 被引量：3
2吴民虎.浅谈韩中双语类词典结构——以《韩汉大词典》《韩中辞典》等四部词典为例[J].韩国语教学与研究,2017(3):157-160.
3伊尔夏提.吐尔贡,吾守尔.斯拉木,热西旦木.吐尔洪太.基于有监督分词方法的维吾尔文情感分析[J].计算机工程与设计,2017,38(11):3143-3146. 被引量：3
4侯垚.-种基于中文分词的应用研究[J].神州,2017,0(32):49-49.
5王晓波.基于KMP算法Next数组的分析与优化[J].电子世界,2017,0(20):196-196. 被引量：3
6郭小芬,刘聪,李炜.SVM在中文广告分类中的应用[J].电信技术,2017(10):73-76. 被引量：1
7马杨,刘梦赤.分布式信息网数据库管理系统的动态数据划分研究[J].计算机工程,2017,43(9):34-38. 被引量：7
8宋雪亚,王传安.基于中文分词的主观题自动评分算法研究[J].河北北方学院学报（自然科学版）,2017,33(9):7-11. 被引量：3
9邓晓枫,蒋廷耀.基于Lucene和MMSEG算法的中文分词器研究[J].信息通信,2017,30(9):146-148. 被引量：1
10谭鸿,徐周波.基于对称性破坏技术的装配序列规划问题的CSP求解[J].计算机时代,2017,0(10):1-5.

信息技术

2017年第11期

浏览历史

内容加载中请稍等...

基于Hash的正向回溯算法的改进被引量：1

参考文献4

二级参考文献43

共引文献67

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Hash的正向回溯算法的改进 被引量：1

参考文献4

二级参考文献43

共引文献67

同被引文献12

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Hash的正向回溯算法的改进被引量：1