期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
Pass-Join-K:多分段匹配的相似性连接算法
1
作者 余海洋 林琛 +2 位作者 陈珂 江弋 邹权 《计算机科学与探索》 CSCD 2013年第10期924-932,共9页
相似性连接是数据清理工作的基本模型,获得了大量数据库工作者的关注。研究了基于编辑距离的相似性连接问题,即在两个字符串集合中寻找编辑距离小于一个阈值的字符串对,并在Pass-Join算法的基础上,提出了一个新的Pass-Join-K算法。P... 相似性连接是数据清理工作的基本模型,获得了大量数据库工作者的关注。研究了基于编辑距离的相似性连接问题,即在两个字符串集合中寻找编辑距离小于一个阈值的字符串对,并在Pass-Join算法的基础上,提出了一个新的Pass-Join-K算法。Pass-Join—K算法在长短字符串上都有很好的表现。该算法的主要思想是利用Pass-Join算法的划分原理,以多次匹配的方式,达到更加严格地选取候选配对的目的。实验结果显示,Pass-Join-K算法减少了候选对的数量,在实际数据集上相比元算法在运行时间上有2~5倍的提升。 展开更多
关键词 编辑距离 相似性连接 多次匹配 数据清理 Pass—Join—K算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部