期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种使用双阈值的数据仓库环境下重复记录消除算法 被引量:9
1
作者 洪圆 孙未未 施伯乐 《计算机工程与应用》 CSCD 北大核心 2005年第1期168-170,216,共4页
重复记录消除是数据清理研究中一个很重要的方面,它的目的是检测并消除那些冗余的、可能对后来的OLAP和数据挖掘造成影响的数据。已有研究都是通过设定一个相似度阈值来判断两条记录是否为重复记录。过大的阈值将导致返回率下降,过小的... 重复记录消除是数据清理研究中一个很重要的方面,它的目的是检测并消除那些冗余的、可能对后来的OLAP和数据挖掘造成影响的数据。已有研究都是通过设定一个相似度阈值来判断两条记录是否为重复记录。过大的阈值将导致返回率下降,过小的阈值将导致误检率上升。文章提出了一种双阈值的重复记录消除方法,利用数据仓库环境下数据库表之间的外键联系做进一步判断,可以有效地提高判断质量,减小误检率。 展开更多
关键词 重复记录消除 数据仓库 外键参照 双阈值
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部