期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于长度过滤和有效权值的SNM改进算法 被引量:7
1
作者 郭文龙 《计算机工程与应用》 CSCD 2014年第19期123-127,共5页
异构数据库集成中产生了相似重复记录,但数量是有限的,采用传统的SNM算法进行检测,需要在窗口内对所有记录进行比对,效率不高。针对这一缺陷,提出一种基于长度过滤和有效权值的SNM改进算法,在窗口内根据两条记录的长度比例首先将不可能... 异构数据库集成中产生了相似重复记录,但数量是有限的,采用传统的SNM算法进行检测,需要在窗口内对所有记录进行比对,效率不高。针对这一缺陷,提出一种基于长度过滤和有效权值的SNM改进算法,在窗口内根据两条记录的长度比例首先将不可能构成相似重复记录的数据排除在外,减少了记录比较的次数,提高了检测效率;进一步通过设置属性有效性因子和权重比例计算有效权值,利用有效权值进行检测,提高了查全率和查准率。实验证明改进算法在各种性能上均优于SNM算法。 展开更多
关键词 相似重复记录 数据清洗 有效权值 SNM算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部