-
题名基于过滤的并行字符串相似性连接方法
被引量:1
- 1
-
-
作者
杜明
夏龙雷
朱斌
-
机构
东华大学计算机科学与技术学院
-
出处
《计算机工程与设计》
北大核心
2017年第2期389-394,共6页
-
文摘
对现有的PP-Join相似连接方法进行研究,提出一种处理字符串相似连接方法 TriP-Join,采用并行处理。对字符串集合中记录进行分段处理,依此求出记录的前缀长度;在候选阶段动态地建立反向索引表,根据反向索引表筛选出每个记录的候选集;并行地对每个记录候选集进行验证。实验结果表明,在双核处理器环境下,相似连接方法节省时间在20%~25%,相似连接时间随着阈值减小和数据量增大急剧降低。对PP-Join处理方式进行优化,减少对相同字符串的重复处理,使其并行效果更优,进一步降低字符串相似连接时间。
-
关键词
字符串相似连接
候选集
反向索引表
过滤
并行
-
Keywords
string similarity join
candidate set
inverted index list
filter
parallel
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-