-
题名数据清理研究
被引量:2
- 1
-
-
作者
张志兵
李华旸
张勇
-
机构
华中科技大学计算机学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2004年第28期164-166,共3页
-
基金
国家电子政务支持(编号:2001BA110B01)
-
文摘
异构数据的数据清理,侧重于重复记录,异常数值的探测,有效地发现数据源中的重复记录、异常等,笔者通过增加过滤条件的方法提高了字符串匹配算法的效率,加快了重复记录的识别,另外在刷新数据仓库的数据提出了增量式算法,有效地减少了比较的次数,节省了大量时间并确保数据仓库中数据的质量。文章实现了一个数据清理工具原型—DMCleaner,并用其进行了试验,结果表明采用了这些改进以后,数据清理的速度、效率和正确性都有了很大的提高,数据质量得到了保证。
-
关键词
dmcleaner
数据集成
数据清理
-
Keywords
dmcleaner,data integration,data cleaning
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-