基于Trie树的相似字符串查找算法被引量：10

Similar string search algorithm based on Trie tree

下载PDF

导出

摘要基于Trie树的相似字符串查找算法是利用编辑距离的阈值来计算每个节点的活跃节点集,已有算法由于存在大量的冗余计算,导致时间复杂度和空间复杂度都比较高。针对这个问题,采用了基于活跃节点的对称性和动态规划算法的思想对已有算法进行改进,并对活跃节点集进行了修剪,提出了New-Trie-Stack算法。该算法避免了活跃节点的重复计算,以及已有算法在保存所有已遍历节点的活跃节点集时的空间开销。实验结果表明New-Trie-Stack算法在时间复杂度和空间复杂度上都有明显的下降。 Similar string search algorithms based on Trie tree need to compute active-node set of a node by editing distance threshold.A large number of redundant computation leads to a high time and space complexity.A new algorithm named New-Trie-Stack was proposed,which utilized the symmetrical properties of active-node set and the dynamic programming method to improve the performance.It could avoid the redundancy cost on active-node set computing and storing;moreover,active-node sets were pruned.The experimental results show that New-Trie-Stack algorithm has lower time complexity and space complexity.

作者刘丽霞张志强

机构地区闽南理工学院信息管理系哈尔滨工程大学计算机科学与技术学院

出处《计算机应用》 CSCD 北大核心 2013年第8期2375-2378,共4页 journal of Computer Applications

基金国家自然科学基金资助项目(61272184 61202090 61100007)

关键词 TRIE树相似字符串编辑距离活跃节点动态规划 Trie tree similar string edit distance active-node dynamic programming

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1LI G L, DENG D, WANG J N, et al. Pass-Join: a partition-based method for similarity joins [ J]. Proceedings of the VLDB Endow- ment, 2011,5(3) : 253 - 264.
2JESTES J., LI F F, YAN Z P, et al. Probabilistic string similarity joins[ C] // Proceedings of 29th ACM SIGMOD International Confer- ence on Management of Data. New York: ACM, 2010:327 -338.
3BRYAN B, EBERHARDT F, FALOUTSOS C. Compact similarity joins [ C]//ICDE 2008: Proceeding of the 24th International Con- ference on Data Engineering. Piseataway: IEEE, 2008:346 -355.
4XIAO C, WANG W, LIN X M, et al. Efficient similarity joins for near duplicate detection [ C]// WWW'08: Proceedings of the 17th International Conference on World Wide Web. New York: ACM, 2011:695-704.
5FENG J H, WANG J N, LI G L. Tile-Join: a Tile-based method for efficient string similarity joins [ J]. The VLDB Journal, 2012, 21 (4) : 437 -461.
6李璐王宏志李建中等.Ed-Sjoin;一种优化的字符串相似连接算法.计算机研究与发展,2009,:319-325.
7FENG J H, LI G L. Efficient fuzzy type-ahead search in XML data [ J]. IEEE Transactions on knowledge and Data Engineering, 2012, 24(5) : 882 - 895.
8FENG J H, LI G L, WANG J Y. Finding Top-k answers in keyword search over relational database using tuple units [ J]. IEEE Transac- tions on Knowledge and Data Engineering, 2011, 23 ( 12): 1781 - 1794.
9FENG J H, LI G L, WANG J Y, et al. Finding and ranking com- pact connected trees for effective keyword proximity search in XML documents[ J]. Information Systems, 2010, 35 (2) : 186 - 203.
10AGRAWAL P, WIDOM J. Confidence-aware join algorithms [ C]// ICDE 2009: Proceedings of the 25th International Conference on Da- ta Engineering. Washington, DC: IEEE Computer Society, 2009: 628 - 639.

共引文献1

1姜国华,姜守旭,王宏志,李建中,高宏.标签劣质的XML数据上的查询处理[J].计算机科学与探索,2011,5(8):673-685. 被引量：1

同被引文献97

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
2张雪英,闾国年.基于字面相似度的地理信息分类体系自动转换方法[J].遥感学报,2008,12(3):433-441. 被引量：15
3乐娟.基于Trie树的京剧术语语义词典[J].计算机工程,2011,37(S1):30-32. 被引量：3
4曹犟,邬晓钧,夏云庆,郑方.基于拼音索引的中文模糊匹配算法[J].清华大学学报（自然科学版）,2009(S1):1328-1332. 被引量：14
5张俊兰,张波.基于数据库的字符串检索[J].电脑学习,2005(1):62-63. 被引量：1
6乐小虬,杨崇俊,于文洋.基于空间语义角色的自然语言空间概念提取[J].武汉大学学报（信息科学版）,2005,30(12):1100-1103. 被引量：27
7杨建刚,曹衍龙,杨将新,郭海丰,张龙.基于ORACLE/EJB的汉字模糊同音查询的实现[J].计算机应用与软件,2006,23(2):53-54. 被引量：3
8苗兰芳,杨传斌.模糊串匹配算法及其应用[J].小型微型计算机系统,1996,17(10):72-76. 被引量：3
9杨长辉,岳友友.一种基于编辑距离的XML查询方案[J].计算机应用,2006,26(12):2991-2993. 被引量：2
10丁晟春,李岳盟,甘利人.基于顶层本体的领域本体综合构建方法研究[J].情报理论与实践,2007,30(2):236-240. 被引量：45

引证文献10

1刘楠,文伟平.基于结构比对的软件同源综合检测工具的设计与实现[J].信息网络安全,2014(6):31-38. 被引量：1
2马晓阳,杨洪耕.基于Tire树的电能质量数据交换格式文件一致性检测[J].电力系统自动化,2016,40(2):134-140. 被引量：2
3汪洋,刘师培,王峥.基于Trie树和有限状态自动机的中文地址解析模型[J].计算机与现代化,2016(7):60-67. 被引量：3
4曹广顺,呙维,朱欣焰,佘冰.一种基于key-value数据库的快速地名地址输入提示方法[J].计算机应用研究,2017,34(11):3334-3338. 被引量：1
5吴振华,高瑞泽.智能家居场景下改进的中文字符串匹配算法[J].南昌航空大学学报（自然科学版）,2018,32(2):81-85. 被引量：1
6陈永杰,吾守尔.斯拉木,于清.一种基于Aho-Corasick算法改进的多模式匹配算法[J].现代电子技术,2019,42(4):89-93. 被引量：14
7丁川芸,兰全祥.基于AC自动机和贝叶斯方法的垃圾内容识别[J].黑龙江工业学院学报（综合版）,2019,19(2):36-39.
8陆智卿,袁翔,何旭,李学强.基于本体的沉积相领域知识库构建[J].计算机与数字工程,2020,48(7):1670-1673. 被引量：1
9谭永滨,侯梦飞,张志军,李小龙,程朋根,章泽之.基于模式匹配的交通微博文本位置信息提取模型[J].地理与地理信息科学,2021,37(5):16-22. 被引量：4
10余兴武,郑大元,韩鹏,杨明川.设备备件重复库存自动处理算法的应用与研究[J].中国设备工程,2021(22):10-11.

二级引证文献27

1李娜,杜彦辉,高峰.移动僵尸网络综述[J].信息网络安全,2015(4):19-27. 被引量：4
2黄飞腾,南余荣,翁国庆,杨晓东.DG并网对暂态电压扰动方向判定的影响及其校正算法[J].电工技术学报,2017,32(23):176-184. 被引量：2
3刘宇,张敬会.基于AC自动机和地址概率模型的地址标准化算法[J].计算机与现代化,2018(12):45-50. 被引量：1
4睢贵芳.试论最大匹配算法在校园网信息提取中的应用[J].电子制作,2019,27(10):92-94.
5武琰,樊海红.复合可重构无线网络信息交换方法仿真[J].计算机仿真,2019,36(6):293-296. 被引量：1
6刘羿,冯子恩,万晓娴.基于知识图谱的急诊问答系统[J].电脑与电信,2020(4):51-55. 被引量：6
7刘治国,宋广跃,蔡文珠,刘庆利.基于TextRank算法的未知网络协议帧定位方法[J].计算机工程,2020,46(7):179-184. 被引量：1
8熊仁都,杨嘉佳,朱广宇,唐球,隋然.PARA-AC:一种基于AC自动机的高性能匹配算法[J].电子技术应用,2020,46(11):87-90. 被引量：5
9董永强.一种带改进密钥样本函数的Trie树算法[J].许昌学院学报,2021,40(2):98-102.
10汪滢,熊璐,刘晓.基于大数据处理的模式匹配算法效率分析[J].现代电子技术,2021,44(9):124-128.

1郑福祺.设备型号冗余数据检测的算法[J].广石化科技,2007(2):38-41.
2陈奇.相似字符串的比较方法[J].华南师范大学学报（自然科学版）,1999,31(2):35-39. 被引量：2
3李文,洪亲,滕忠坚,石兆英,胡小丹,刘海博.基于n-gram的字符串分割技术的算法实现[J].计算机与现代化,2010(9):85-87. 被引量：6
4陈子阳,韩玉俊,王璿,周军锋.高效的top-k相似字符串查询算法[J].通信学报,2014,35(12):10-20. 被引量：1
5何晓明,洪亲,蔡坚勇,林鸿.基于n-gram中英文字符串分割算法实现[J].电脑知识与技术（过刊）,2012,18(8X):5530-5533. 被引量：2
6肖袁,吉根林.基于索引的XML查询技术研究[J].计算机科学,2007,34(1):78-80. 被引量：5
7左璐.域名纠错功能的设计与实现[J].知识经济,2010(13):176-176.
8李波,杨卫东.XML流上的关键字查询算法[J].计算机工程,2009,35(4):35-37. 被引量：3
9王燚.基于Trie结构的带通配符的相似字符串匹配算法[J].计算机应用,2004,24(10):121-124. 被引量：2

计算机应用

2013年第8期

浏览历史

内容加载中请稍等...

基于Trie树的相似字符串查找算法被引量：10

参考文献15

共引文献1

同被引文献97

引证文献10

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于Trie树的相似字符串查找算法 被引量：10

参考文献15

共引文献1

同被引文献97

引证文献10

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于Trie树的相似字符串查找算法被引量：10