在数据仓库环境中提高数据质量

下载PDF

导出

摘要数据仓库是数据挖掘的重要基础，要提高数据挖掘的质量，就必须提高数据的质量，在数据仓库环境中提高数据质量是一个复杂艰苦的工作，需要持续不断地进行，才能有效地改善数据质量。提高数据质量的方法主要有：入数据仓库前对数据进行数据预处理，特别是其中的数据清洗，它能明显的改善数据质量；在使用一段时间后，要定期对入数据仓库后的数据进行数据刷新、数据过滤等措施，以保证数据仓库中的数据是有效的、最新的，能对人们进行知识决策提供支持。

作者吴忠文勇

机构地区江西方兴科技有限公司

出处《江西公路科技》 2006年第B11期44-47,49,共5页

关键词信息工程数据仓库数据质量数据预处理数据清洗数据刷新

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1JiaweiHan,MichelineKamber,著.范明,孟小峰,等译.机械工业出版社.2001.
2杨辅祥,刘云超.数据清洗综述[J].计算机学报,2001/4/27.
3郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2082. 被引量：268
4邱越峰,田增平,季文贇,周傲英.一种高效的检测相似重复记录的方法[J].计算机学报,2001,24(1):69-77. 被引量：72
5俞荣华,田增平,周傲英.一种检测多语言文本相似重复记录的综合方法[J].计算机科学,2002,29(1):118-121. 被引量：26
6魏定国.交互式数据清理系统的研究[J].现代计算机,2002,8(12):6-10. 被引量：1

二级参考文献53

1[1]Bitton D， DeWitt D J. Duplicate record elimination in large data files. ACM Trans Database Systems, 1983, 8(2):255-65
2[2]Hernandez M， Stolfo S. The Merge/Purge problem for large databases. In: Proc ACM SIGMOD International Conference on Management of Data, 1995. 127-138
3[3]Howard B Newcombe, Kennedy J M, Axford S J, James A P. Automatic linkage of vital records. Science, 1959, 130:954-959
4[4]DeWitt D J, Naught J F, Schneider D A. An evaluation of non-equijoin algorithms. In: Proc 17th International Conference on Very Large Databases, Barcelona, Spain, 1991. 443-452
5[5]Hylton J A. Identifying and merging related bibliographic records[MS dissertation]. MIT: MIT Laboratory for Computer Science Technical Report 678， 1996
6[6]Monge A E， Elkan C P. An efficient domain-independent algorithm for detecting approximately duplicate database records. In: Proc DMKD'97, Tucson Arizona, 1997
7[7]Kukich K. Techniques for automatically correcting words in text. ACM Computing Surveys, 1992, 24(4):377-439
8[8]Wagner R A， Fischer M J. The string-to-string correction problem. J ACM, 1974, 21(1):168-173
9[9]Lowrance R， Robert A Wagner. An extension of the string-to-string correction problem. J ACM, 1975， 22(2):177-183
10[10] Sellers P H. On the theory and computation of evolutionary distances. SIAM J Applied Mathematics, 1974, 26(4):787-793

共引文献335

1梁莉莉,布瑞丰.非遗视频直播的技术逻辑及其潜在风险——基于抖音平台的“田野”观察[J].青海民族研究,2022,33(3):136-141. 被引量：5
2王利民,李硕硕,王学鑫,冯志江,司亚超,邓全才,吴永强.基于grubbs检验的中水压力数据清洗[J].河北建筑工程学院学报,2022,40(4):144-147.
3丁小欧,王宏志,靳贺霖,高猛.时序数据错误检测与修复研究综述[J].智能计算机与应用,2021,11(12):1-6. 被引量：5
4周力,张勃.向Oracle进行数据移植的方法[J].沈阳大学学报,2003,15(2):38-39. 被引量：3
5宋峥嵘,朴春梅.数据质量与数据清理浅谈[J].今日科苑,2009(17).
6毕锟,刘军.ETL系统的设计及其研究[J].软件导刊,2010,9(5):173-175. 被引量：9
7曹建军,刁兴春,陈爽,邵衍振.数据清洗及其一般性系统框架[J].计算机科学,2012,39(S3):207-211. 被引量：31
8刘永楠,邹兆年,李建中,王海洁.数据完整性的评估方法[J].计算机研究与发展,2013,50(S1):230-238. 被引量：11
9李巍巍.大数据技术应用研究[J].自动化与仪器仪表,2016(7):195-196. 被引量：3
10邓莎莎,陈松乔.基于异构数据抽取清洗模型的元数据的研究[J].计算机工程与应用,2004,40(30):175-177. 被引量：5

1安永新.用PHP实现Web页面无闪动刷新[J].计算机应用研究,2001,18(9):149-150.
2IPACK-IMA2009组织工作一路高歌猛进截至开展前11个月各项数据刷新记录[J].今日印刷,2008(6):101-101.
3IPACK-IMA2009组织工作一路高歌猛进[J].现代包装,2008(7):70-70.
4汪辉,李浪.物化视图作为汇总表在数据仓库中的应用(英文)[J].衡阳师范学院学报,2012,33(6):59-62.
5黄鑫,宋洋.软件抗干扰技术及其在单片机上的应用[J].现代电子技术,2007,30(9):90-92. 被引量：7
6戴新民,肖玲琍,王佳.Delphi开发大型数据库管理系统的研究[J].北京建筑工程学院学报,2000,16(4):17-24. 被引量：1
7王国梁,邱学.高级复制的数据刷新故障诊断方法[J].铁路计算机应用,2005,14(11):51-54.
8赵凯.OLE Automation技术在复杂曲线动态输出中的应用[J].兵工自动化,2002,21(1):40-41. 被引量：1
9通用汽车一季度在华销量再创新高[J].汽车与配件,2008(15):14-14.
10陈贤国.西门子刀具管理软件的应用探讨[J].上海电气技术,2009,2(4):5-8. 被引量：1

江西公路科技

2006年第B11期

浏览历史

内容加载中请稍等...

在数据仓库环境中提高数据质量

参考文献6

二级参考文献53

共引文献335

相关作者

相关机构

相关主题

浏览历史