汉语词典的快速查询算法研究被引量：24

A Study on Fast Algorithm for Chinese Dictionary Lookup

下载PDF

导出

摘要汉语词典查询是中文信息处理系统的重要基础部分,对系统效率有重要的影响。本文对汉语词典查询算法研究作了简要回顾,设计实现了基于双数组TR IE机制的汉语词典查询算法,并提出了基于双编码机制的词典查询算法。最后以逐字二分法查询性能为基准,使用这两种词典询机制进行了词语直接查询和分词查询两种应用的性能测试。经过实验分析,双数组TR IE机制的词典查询算法在查询速度上提高明显,查询速度约是逐字二分法的5倍。双编码机制的的词典查询算法查询速度有一定提高,而且调整机制更加灵活。 The dictionary mechanism serves as one of the basic components in Chinese information processing systems. Its performance influences the performances of these systems significantly. In this paper, we review the algorithms for Chinese dictionary lookup at first, then design and implement a Chinese dictionary based on Double-Array TRIE mechanism, and present a new Chinese dictionary based on Double Coding mechanism. In the end, we compare their space and time complexity experimentally with the binary-seek-by-characters mechanism. It can be seen that the Chinese dictionary based on Double-Array TRIE mechanism improves the speed obviously.

作者李江波周强陈祖舜

机构地区清华大学计算机系智能技术与系统国家重点实验室

出处《中文信息学报》 CSCD 北大核心 2006年第5期31-39,共9页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60173008) 欧盟FP6项目ALVIS的科技部配套经费资助

关键词计算计应用中文信息处理汉语词典查询双数组TRIE 双编码算法 computer application Chlnese information processing Chinese dictionary lookup double-array TRIE double coding algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1王秀坤,李政,简幼良,刘剑.基于Hash方法的机器翻译词典的组织与构造[J].大连理工大学学报,1996,36(3):352-355. 被引量：12
2孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118
3李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制[J].中文信息学报,2003,17(4):13-18. 被引量：107
4杨文峰,陈光英,李星.基于PATRICIA tree的汉语自动分词词典机制[J].中文信息学报,2001,15(3):44-49. 被引量：29
5Aoe,J.An Efficient Digital Search Algorithm by Using a Double-Array Structure[J]..IEEE Transactions on Software Engineering.1989,(9).
6Theppitak Karoonboonyanan.An Implementation of Double-Array Trie.http://linux.thai.net/thep/datrie/datrie.html.
7欧几里德算法.http://www.nhyz.org/nhxi/suanfa/main.htm

二级参考文献10

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2马晏.基于评价的汉语自动分词系统的研究与实现[A]..语言信息处理专论[C].北京:清华大学出版社,1996..
3Choi A, Cheng C H, Ko Y L. Word extraction from Chinese documents by occurrence counts [ A].1988 International Conference on Computer Processing of Chinese and Oriental Languages, Toronto,Canada: 488 - 491.
4Fan C K, Tsai W H. Automatic word identification in Chinese sentences by the relaxation technique[J]. Computer Processing of Chinese and Oriental Languages, 1988, 4(1):33-56.
5刘开瑛，自然语言处理，1990年
6管纪文，计算机程序设计技巧.3，1984年
7梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52.
8孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118
9姚天顺,张桂平,吴映明.基于规则的汉语自动分词系统[J].中文信息学报,1990,4(1):37-43. 被引量：43
10简幼良,黄德根.中日英兼容汉字操作系统NiHao-FP的设计与实现[J].大连理工大学学报,1992,32(5):600-607. 被引量：1

共引文献191

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：41
2段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
3李丹宁,李丹,王保华,马新强.几种基于词典的中文分词算法评价[J].贵州科学,2008,26(3):1-8. 被引量：4
4范戈,廖碧成.一种基于词义分析的短信问答系统的设计与实现[J].山东通信技术,2009,29(1):18-21.
5马志强,刘利民,苏依拉,马瑞明.基于Lucene的站内搜索引擎研究[J].内蒙古工业大学学报（自然科学版）,2009,28(1):52-57. 被引量：7
6曾铭,俞俊生,刘绍华.一种用于社交网站的云安全敏感信息过滤模型[J].华中科技大学学报（自然科学版）,2012,40(S1):211-214. 被引量：4
7崔岩.脚本测试技术在列控中心开发测试中的运用[J].铁路通信信号工程技术,2013,10(S1):149-153. 被引量：2
8金瑜,陆启明,高峰.基于上下文相关的最大概率汉语自动分词算法[J].计算机工程,2004,30(16):146-148. 被引量：8
9张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
10邓曙光,曾朝晖.汉语分词中一种逐词匹配算法的研究[J].湖南城市学院学报（自然科学版）,2005,14(1):76-78. 被引量：6

同被引文献185

1张雪英,闾国年.基于字面相似度的地理信息分类体系自动转换方法[J].遥感学报,2008,12(3):433-441. 被引量：15
2陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
3黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
4孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
6孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
7温滔,朱巧明,吕强.一种快速汉语分词算法[J].计算机工程,2004,30(19):119-120. 被引量：19
8李娜.用于文本智能处理的电子词典的一种设计方法[J].南京师范大学学报（工程技术版）,2003,3(3):31-34. 被引量：2
9王兰成.基于EMM中文抽词算法的XMARC主题信息挖掘[J].情报学报,2005,24(1):82-86. 被引量：5
10吴建胜,战学刚,迟呈英.一种基于自动机的分词方法[J].计算机工程与应用,2005,41(8):81-82. 被引量：8

引证文献24

1杨来,何清,许立达,史忠植.Dynamic Hash TRIE算法的研究与分析[J].广西师范大学学报（自然科学版）,2008,26(1):134-138.
2高艳萍,于红,尹祥贵,綦孝姬,王春永,赵志强.基于双数组Trie树的渔业领域分词研究[J].安徽农业科学,2008,36(11):4788-4790.
3孙宏纲,陆余良.中文博客主题情感句自动抽取研究[J].计算机工程与应用,2008,44(20):165-168. 被引量：3
4岑咏华.一种基于多重哈希词典和K-最短路径算法的中文粗分词方案研究[J].情报理论与实践,2009,32(3):110-114. 被引量：5
5买合木提·买买提,吐尔根·依布拉音,艾山·吾买尔.“突厥语大词典”电子词典的设计与实现[J].电脑知识与技术,2009,5(4):2649-2651. 被引量：1
6高文利,朱丽.哈希表在计算语言学中的运用[J].现代语文（下旬．语言研究）,2009(6):110-111. 被引量：1
7吴晶晶,荆继武,聂晓峰,王平建.一种快速中文分词词典机制[J].中国科学院研究生院学报,2009,26(5):703-711. 被引量：16
8王世昆,李绍滋,柯逍.基于遗传算法和舍伍德思想的双数组Trie树改进[J].计算机工程与应用,2009,45(29):128-130. 被引量：3
9林庆,袁晓峰,吴旻.中文Web文档聚类算法研究[J].计算机工程与设计,2009,30(20):4759-4761. 被引量：3
10吴龙,吴健,任红民.基于双数组Trie树的嵌入式TTS系统研究[J].现代机械,2010(4):67-70.

二级引证文献87

1简玲,叶天鹏,林祥,谢方军.多源融合的大数据网络安全态势感知平台研究与探索[J].信息网络安全,2020(S02):139-143. 被引量：8
2董坤,张海霞,刘艳梅,李洋.宽带卫星网络安全态势感知技术研究[J].信息网络安全,2020(S02):98-101. 被引量：2
3曾铭,俞俊生,刘绍华.一种用于社交网站的云安全敏感信息过滤模型[J].华中科技大学学报（自然科学版）,2012,40(S1):211-214. 被引量：4
4王曰芬,徐丹丹,李飞.专利信息内容挖掘及其试验研究[J].现代图书情报技术,2008(12):59-65. 被引量：8
5何维,王宇.基于句子关系图的网页文本主题句抽取[J].现代图书情报技术,2009(3):57-61. 被引量：9
6岑咏华,王曰芬,王晓蓉.面向企业技术创新决策的专利数据挖掘研究综述(下)[J].情报理论与实践,2010,33(2):124-128. 被引量：5
7买买提依明·哈斯木,维尼拉·木沙江.基于后缀树的维吾尔文网页聚类算法的研究与实现[J].电脑知识与技术,2010,6(9):7072-7073.
8魏莎莎,熊海灵.中文分词中的歧义识别处理策略[J].微计算机信息,2010,26(30):190-192. 被引量：6
9张硕果,汪成亮.结合CRFs的词典分词法[J].计算机系统应用,2010,19(11):115-118. 被引量：1
10蒋才智,王浩.基于memcached的动态四字双向词典机制[J].计算机应用研究,2011,28(1):152-154. 被引量：1

1高雪霞,邝涛.基于词典知识库的快速检索算法研究[J].德州学院学报,2011,27(4):70-73.
2韩莹,王茂发,陈新房,潘志安,张艳霞.汉语自动分词词典新机制—词值哈希机制[J].计算机系统应用,2013,22(2):233-235. 被引量：1
3杲广娟.创新给生活加点糖[J].中国发明与专利,2007,4(12).
4江光杰,郝伟刚.实时UNIX中文信息处理系统[J].军事通信技术,1993(1):26-31.
5彭琦,俞春强.浅析中文分词方法[J].信息通信,2015,28(3):92-93. 被引量：4
6认真与发烧[J].世界广播电视,2005,19(3):102-102.
7引火虫.极点五笔当汉语词典用[J].电脑迷,2008,0(22):75-75.
8安清波.计算机双语词典的功能现状与发展前景[J].计算机时代,2000(8):25-27.
9浏览器中英文单词随时查[J].电脑迷,2004,0(2):81-81.
10李斌,范德生.关于网络语言流行利与弊的讨论——安徽省歙县中学高二(11)班主题班会[J].网络科技时代,2004,0(10):9-11. 被引量：1

中文信息学报

2006年第5期

浏览历史

内容加载中请稍等...

汉语词典的快速查询算法研究被引量：24

参考文献7

二级参考文献10

共引文献191

同被引文献185

引证文献24

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

汉语词典的快速查询算法研究 被引量：24

参考文献7

二级参考文献10

共引文献191

同被引文献185

引证文献24

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

汉语词典的快速查询算法研究被引量：24