-
题名一种使用双阈值的数据仓库环境下重复记录消除算法
被引量:9
- 1
-
-
作者
洪圆
孙未未
施伯乐
-
机构
复旦大学计算机与信息技术系
-
出处
《计算机工程与应用》
CSCD
北大核心
2005年第1期168-170,216,共4页
-
基金
国家863高技术研究发展计划基金项目(编号:2002AA4Z3430)
-
文摘
重复记录消除是数据清理研究中一个很重要的方面,它的目的是检测并消除那些冗余的、可能对后来的OLAP和数据挖掘造成影响的数据。已有研究都是通过设定一个相似度阈值来判断两条记录是否为重复记录。过大的阈值将导致返回率下降,过小的阈值将导致误检率上升。文章提出了一种双阈值的重复记录消除方法,利用数据仓库环境下数据库表之间的外键联系做进一步判断,可以有效地提高判断质量,减小误检率。
-
关键词
重复记录消除
数据仓库
外键参照
双阈值
-
Keywords
duplicate elimination,data warehouse,foreign key reference,two thresholds
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-