高效的top-k相似字符串查询算法被引量：1

Efficient top-k string similarity query algorithms

下载PDF

导出

摘要研究基于编辑距离的top-k相似字符串查询处理方法,即对于给定的字符串集合S和查询串σ,返回S中前k个与σ编辑距离最小的字符串。首先提出了基于长度跳跃索引的2种自适应过滤策略来减少字符串之间编辑距离的计算次数;其次提出了查询字符串与不匹配字符串集合的编辑距离下界,以便在处理和σ无公共特征的字符串时,进一步减少编辑距离的计算次数;最后给出了基于上述过滤策略的高效top-k相似字符串查询算法,并在3个真实的数据集上进行了实验,实验结果验证了所提算法的高效性。 Computing top-k similar strings based on edit distance,i.e.,given a query string σ and string set S,finding k similar strings to σ based on edit distance from S.Firstly,two adaptive filter strategies based on length-skip index are proposed,such that to reduce the times of edit distance computation between two strings.Then the lower bound of edit distance between query string and unmatched string set is proposed,such that to further reduce the times of edit distance computation when processing strings that do not have common signatures with the query string.Finally efficient algorithms to return top-k similar strings are proposed.Experimental results on three real datasets verify the benefits over the state-of-the-art algorithm.

作者陈子阳韩玉俊王璿周军锋

机构地区燕山大学信息科学与工程学院河北省计算机虚拟技术与系统集成重点实验室

出处《通信学报》 EI CSCD 北大核心 2014年第12期10-20,共11页 Journal on Communications

基金国家自然科学基金资助项目(61040023 61272124 61303040) 河北省教育厅研究计划基金资助项目(Y2012014) 河北省科学技术研究与发展计划科技支撑计划基金资助项目(11213578)~~

关键词字符串相似性非对称特征方案长度跳跃索引 string similarity asymmetric signature scheme length-skip index

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献19

1LI C, LU J, LU Y. Efficient merging and filtering algorithms for approximate string queries[A]. ICDE[C]. 2008. 257-266.
2KAHVECI T, SINGH A K. Efficient index structures for string databases[A]. VLDB[C]. 2001.351-360.
3ZHANG Z. HADJIELEFTHERlOU M. 001 B C, et al. Bed-tree: an all-purpose index structure for string similarity query based on edit distance[A]. SIGMOD[C]. 2010.915-926.
4CHAUDHURl S, GANJAM K, GANTI V, et al. Robust and efficient fuzzy match for online data c1eaning[A]. SIGMOD[C]. 2003.313-324.
5HADJIELEFTHERlOU M, KOUDAS N. SRIVASTAVA D. Incremental maintenance of length normalized indexes for approximate string matching[A]. SIGMOD[C]. 2009.429-440.
6LI G, DENG D. FENG J, el at. Top-k String Similarity Search with Edit-Distance Constraints[A]. ICDE[C]. 2013.925-936.
7YANG Z, YU J, KlTSUREGAWA M. Fast algorithms for top-k approximate string matching[A]. AAAJ[C]. 2010.1467-1463.
8GRAVANO L, IPEIROTIS P G, JAGADISH H V, et al. Approximate string joins in a database (almost) for free[A]. VLDB[C]. 2001. 491-500.
9XIAO C. WANG W, LIN X. Ed-join: an efficient algorithm for similarity joins with edit distance constraints[A]. VLDB[C]. 2008.933-944.
10XIAO C. WANG W. LIN X. et al. Top-k set similarity joins[A]. ICDE[C].2009.916-927.

同被引文献8

1谢俊,石东源,杨增力,段献忠.基于多代理系统的继电保护定值在线校核预警系统[J].电力系统自动化,2007,31(13):77-82. 被引量：37
2明哲,李海强.调度自动化系统与继电保护及故障信息系统统一数据模型的研究[J].广东电力,2009,22(4):13-16. 被引量：16
3徐宁,宋宇波,刘金官,严国平.继电保护定值远程安全配置系统的设计与研究[J].南京邮电大学学报（自然科学版）,2009,29(3):57-63. 被引量：4
4王峰,刘之尧,张弛,李一泉,张智锐.广东电网继电保护及故障信息系统高级应用功能设计与实现[J].广东电力,2009,22(12):35-38. 被引量：13
5陈建业,张涛,陈浩.安全隔离技术在电力信息网络安全防护中的应用[J].山东理工大学学报（自然科学版）,2009,23(5):72-75. 被引量：11
6赵安国,樊陈.变电站继电保护通用定值交换格式[J].电力系统自动化,2011,35(4):61-64. 被引量：9
7胡丽娟,梁久祯.基于层次关联边条件随机场的Web对象抽取[J].计算机工程,2012,38(20):45-48. 被引量：1
8何锋,谷锁林,陈彦辉.基于编辑距离相似度的文本校验技术研究与应用[J].飞行器测控学报,2015,34(4):389-394. 被引量：12

引证文献1

1邓帅,乔向阳,马兵,陆振坤,杜鸣亮,程宜风.变电站继电保护定值单电子核验交接系统研究与应用[J].电工技术,2017(1):6-8. 被引量：2

二级引证文献2

1王喆,吴超.变电站保护装置参数与继电保护定值单比对技术的研究[J].电力系统装备,2021(6):153-154. 被引量：1
2曹海欧,崔玉,易新,李萍,朱鹏宇,李金铄,戴志辉.基于神经网络的定值名称智能比对方法[J].现代电力,2023,40(4):587-595.

1王燕,周军锋,汤显,陈子阳,郭景峰.一种新的基于对称性的字符串相似性处理算法[J].燕山大学学报,2014,38(1):49-56.
2陈奇.相似字符串的比较方法[J].华南师范大学学报（自然科学版）,1999,31(2):35-39. 被引量：2
3郑福祺.设备型号冗余数据检测的算法[J].广石化科技,2007(2):38-41.
4刘凤晨,黄河,刘庆文,丁永生.随机跳跃索引:一种支持随机插入的可信赖索引[J].计算机学报,2009,32(5):974-981.
5刘丽霞,张志强.基于Trie树的相似字符串查找算法[J].计算机应用,2013,33(8):2375-2378. 被引量：10
6吴悠漾,孟祥兆,田颖.基于模糊哈希的恶意代码检测[J].信息系统工程,2017,30(1):62-62. 被引量：2
7王金宝,高宏,李建中,杨东华.外存中高效的字符串相似性查询处理[J].计算机研究与发展,2015,52(3):738-748. 被引量：3
8李军国,代廷平,崔秉良.二次建模在政府信息化软件开发中的应用与研究[J].电子技术应用,2009,35(3):112-114. 被引量：3
9马家军.针对人脸个体差异性的核线性判别分析[J].商洛学院学报,2016,30(2):10-14.
10陈懿诚,骆吉洲,李建中.Part-Join:基于划分的字符串相似性连接[J].计算机应用研究,2014,31(10):3002-3006.

通信学报

2014年第12期

浏览历史

内容加载中请稍等...

高效的top-k相似字符串查询算法被引量：1

参考文献19

同被引文献8

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

高效的top-k相似字符串查询算法 被引量：1

参考文献19

同被引文献8

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

高效的top-k相似字符串查询算法被引量：1