-
题名基于长度过滤和有效权值的SNM改进算法
被引量:7
- 1
-
-
作者
郭文龙
-
机构
福建江夏学院电子信息科学学院
-
出处
《计算机工程与应用》
CSCD
2014年第19期123-127,共5页
-
基金
福建省教育厅A类科技项目(No.JA12335)
福建江夏学院青年科研人才培育基金(No.JXZ20130010)
-
文摘
异构数据库集成中产生了相似重复记录,但数量是有限的,采用传统的SNM算法进行检测,需要在窗口内对所有记录进行比对,效率不高。针对这一缺陷,提出一种基于长度过滤和有效权值的SNM改进算法,在窗口内根据两条记录的长度比例首先将不可能构成相似重复记录的数据排除在外,减少了记录比较的次数,提高了检测效率;进一步通过设置属性有效性因子和权重比例计算有效权值,利用有效权值进行检测,提高了查全率和查准率。实验证明改进算法在各种性能上均优于SNM算法。
-
关键词
相似重复记录
数据清洗
有效权值
SNM算法
-
Keywords
approximately duplicate records
data cleaning
effective weights
Sorted-Neighborhood Method(SNM)
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-