双向过滤的字符串相似连接验证方法被引量：2

Verification method for string similarity joins based on bi-directional filtering

下载PDF

导出

摘要字符串相似连接是指在字符串集合中找出相似的字符串对,是许多应用的关键操作,寻找高效的字符串相似连接算法已成为研究热点。基于划分的过滤-验证方法(Pass-Join)与其他方法相比具有较高的效率。它按照字符串长度递增的顺序访问字符串集合,通过查找一个字符串的划分块是否存在于另一个字符串中,快速筛选出可能相似的字符串对(候选集),然后利用编辑距离进行相似性验证。研究发现,按照字符串长度递减的顺序进行过滤(长度递减过滤)的效果优于按照长度递增的顺序过滤(长度递增过滤)的效果,基于此,提出双向过滤-验证机制:在过滤阶段对长度递减过滤的结果再进行一次长度递增过滤,进一步减小候选集大小;在验证阶段利用双向过滤产生的两对划分块和其匹配子串分隔字符串对,从而减小需要验证的字符串的长度,加速验证过程。实验证明,双向过滤-验证算法在真实数据集上优于原算法。 A string similarity join finds similar string pairs from two sets of strings.It plays an important role in many real-world applications.Various algorithms have been proposed to address its efficiency issues.Partition-based filter-verification methods,such as Pass-Join,are promising,which quickly screens out possible similar string pairs(candidate set)by searching partitioned parts of a string in another string,in order of increasing length,and then performs similarity verification based on edit-distance.Motivated by the fact that the effect produced by filtering in the descending order of string length is better than in the ascending order,a novel bi-directional filtering-verification mechanism is proposed.At the filtering stage,it pipelines the results from length descending filtering to length ascending filtering to further reduce the size of the candidate set.At the verification stage,it makes use of the two pairs of matched substrings from the bi-directional filtering to partition the target string pairs into several short substring pairs to accelerate the verification process.Experimental results show that the proposed bi-directional filtering-verification algorithm outperforms the origin algorithm on real-world datasets.

作者黄樱宋春花牛保宁 HUANG Ying;SONG Chunhua;NIU Baoning(School of Computer Science and Technology, Taiyuan University of Technology, Taiyuan 030024, China)

机构地区太原理工大学计算机学院

出处《计算机工程与应用》 CSCD 北大核心 2017年第9期72-79,共8页 Computer Engineering and Applications

基金国家科技支撑项目课题(No.2012BAH04F02) 人社部留学人员科技活动项目(No.2011-508)

关键词字符串相似连接双向过滤-验证机制过滤-验证框架 string similarity joins bi-directional filtering-verification mechanism filter-verification framework

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1庞俊,谷峪,许嘉,于戈.相似性连接查询技术研究进展[J].计算机科学与探索,2013,7(1):1-13. 被引量：15

共引文献14

1曾光,陈性元,杜学绘,夏春涛.基于图相似匹配的政务网络结构一致性验证方法[J].计算机应用,2014,34(7):1909-1914.
2徐媛媛,陈华辉.基于MapReduce的增量式数据集的相似性连接[J].计算机应用研究,2014,31(11):3369-3374. 被引量：2
3马友忠,慈祥,孟小峰.海量高维向量的并行Top-k连接查询[J].计算机学报,2015,38(1):86-98. 被引量：10
4庞俊,于戈,许嘉,谷峪.基于MapReduce框架的海量数据相似性连接研究进展[J].计算机科学,2015,42(1):1-5. 被引量：16
5陈一帆,赵翔,何培俊,张维明,唐九阳.BMGSJoin:一种基于MapReduce的图相似度连接算法[J].模式识别与人工智能,2015,28(5):472-480. 被引量：4
6马友忠,贾世杰,张永新.基于卡方分布的高维数据相似性连接查询算法[J].计算机应用,2016,36(7):1993-1997. 被引量：2
7冯林静.多核的并行相似连接[J].计算机技术与发展,2017,27(7):43-46.
8周宁南,张孝,刘城山,王珊.基于动态时间规整的时序数据相似连接[J].计算机学报,2018,41(8):1798-1813. 被引量：9
9王俊陆,张永普,宋宝燕,丁琳琳,张师文.基于Map-Reduce的向量空间约束连接路径查询方法[J].小型微型计算机系统,2018,39(9):2056-2059.
10鲍广慧,张兆功,李建中,玄萍.基于MapReduce的相似自连接新方法:过滤和内切圆算法[J].计算机研究与发展,2016,53(12):2847-2857.

同被引文献21

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
2谌志群,张国煊.文本挖掘研究进展[J].模式识别与人工智能,2005,18(1):65-74. 被引量：49
3王增平,刘国平,仇向东,滕小雷.继电保护定值在线整定功能的实现[J].电力系统保护与控制,2012,40(1):127-130. 被引量：29
4蒙亮,朱林,陈金富.继电保护定值在线核对系统设计[J].电气技术,2012,13(11):59-62. 被引量：10
5姜华,韩安琪,王美佳,王峥,吴雲玲.基于改进编辑距离的字符串相似度求解算法[J].计算机工程,2014,40(1):222-227. 被引量：72
6祝高乐,刘青.含STATCOM的线路继电保护在线校核顺序研究[J].电力系统保护与控制,2015,43(11):7-12. 被引量：4
7常建秋,沈炜.基于字符串匹配的中文分词算法的研究[J].工业控制计算机,2016,29(2):115-116. 被引量：19
8杨涛,胡勇,罗列琥.智能变电站继电保护SV及GOOSE输入自动测试方法[J].浙江电力,2017,36(7):1-5. 被引量：10
9刘俊红,邓兆云,李泽科,李焕明.基于即插即用的智能变电站信息自动校核技术[J].电力系统保护与控制,2018,46(2):137-143. 被引量：25
10冷贵峰,方胜文,王荣,毕兆东,连欣乐,俞秋阳.继电保护定值在线整定软件开发与实践[J].电力大数据,2018,21(5):78-81. 被引量：8

引证文献2

1李红志,王彪,陈卉,孔祥鹏,陈中.基于混合专业词典的继电保护定值在线智能比对方法[J].广东电力,2020,33(4):58-66. 被引量：12
2严建军,彭雯.基于文本挖掘的语词典研究[J].无线互联科技,2020,17(11):128-129.

二级引证文献12

1黄超,巫聪云,李海勇,蒙亮.继电保护定值在线巡检系统的研发与应用[J].广西电力,2021,44(1):12-18. 被引量：3
2王峰,刘世丹,陈桥平,李一泉,谭乾,丁佳彦,梁远升,李海锋.基于IEC 61850标准的远方修改保护定值的风险应对策略及可靠性分析[J].广东电力,2021,34(5):82-89. 被引量：10
3黄超,李海勇,巫聪云,冯志东,汪清涓.省地调度边界后备保护整定配合研究[J].广西电力,2021,44(2):49-54. 被引量：2
4焦飞,闫冬,李仲青,窦竟铭,查雯婷,梁营玉.基于改进离散花授粉算法的继电保护定值优化方法的研究[J].智慧电力,2021,49(5):48-55. 被引量：9
5常俊晓,应宇鹏,廖小兵,黄镇.基于图像处理的继电保护装置定值自动核对方法[J].电测与仪表,2021,58(11):67-73. 被引量：18
6黄国平,黄华斌,许丹盈.继电保护远方智能检验技术研究[J].湖北电力,2021,45(6):31-39. 被引量：6
7任康杰,刘阳,李勇,金明亮,李银红.一种适用于继电保护在线整定的极小断点集求取算法[J].电力系统保护与控制,2022,50(14):43-52. 被引量：9
8刘莹,严慜,毛鸿飞,张霄霄,鄢天毕.国网湖州供电公司定值智能在线比对技术的研究与应用[J].电力系统装备,2023(5):165-168.
9曹海欧,崔玉,易新,李萍,朱鹏宇,李金铄,戴志辉.基于神经网络的定值名称智能比对方法[J].现代电力,2023,40(4):587-595.
10王怀璧.基于数据融合的配电网继电保护定值校核方法[J].机械工程与自动化,2023(5):184-185. 被引量：5

1余祥宣,徐智勇,何绪斌.网络环境下的身份验证[J].计算机与数字工程,1996,24(5):21-26. 被引量：1
2朱珍,王军,雷飞.基于智能控制器的污水处理控制系统[J].自动化仪表,2003,24(8):43-45. 被引量：1
3无限透明的蓝.两种模式双向过滤——Vista的防火特性[J].大众硬件,2007(6):118-120.
4李东灵.Windows 2000的安全漏洞及其解决方法[J].商丘职业技术学院学报,2009,8(5):54-55.
5胡鹏杰.关于Windows 2000的漏洞解决浅析[J].商场现代化,2010(9):24-24.
6贺斌.身份认证的理论与技术[J].长江大学学报（自然科学版）,2004,1(1):19-22. 被引量：12
7朱猛.巧用Windows NT网络打印分隔页[J].电脑知识与技术（过刊）,1999(9):14-15.
8飒飒.查IP地址的几种常用方法[J].电脑爱好者（普及版）,2006,0(7):50-50.
9李洋.正确部署防火墙[J].网管员世界,2011(17):76-77.
10张扬嵩.如何实现Oracle中字符串分隔[J].电脑编程技巧与维护,2010(23):87-87.

计算机工程与应用

2017年第9期

浏览历史

内容加载中请稍等...

双向过滤的字符串相似连接验证方法被引量：2

参考文献1

共引文献14

同被引文献21

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

双向过滤的字符串相似连接验证方法 被引量：2

参考文献1

共引文献14

同被引文献21

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

双向过滤的字符串相似连接验证方法被引量：2