数据清理方法被引量：4

Methodological Research on Data Cleaning

下载PDF

导出

摘要数据清理是数据仓库中的一个重要研究领域,近似重复记录的识别则是数据清理中的技术难点之一。文中提出了几种预处理技术,通过使用这些技术,当记录按关键字排序时,近似重复记录互相靠近。结合识别近似重复记录的优先队列策略,给出了记录相似度的计算,并给出了分析结果。

作者佘春红

机构地区荆州师范学院信息科学学院

出处《计算机应用》 CSCD 北大核心 2002年第12期128-130,共3页 journal of Computer Applications

关键词数据清理方法预处理数据仓库数据库

参考文献5

1[1]Erhard R., Do H.H. Data Cleaning:Problem and Current Approaches[J]. IEEE Techn. Bulletin Data Engineering,2000,23(4).
2[2]Hern′andez M.A.,Stolfo S.J. The merge/purge problem for large databases[A]. Proceedings of the ACM SIGMOD,International Conference on Management of Data[C]. ACM Press,May 1995. 127-138.
3[3]Monge A.E. An adaptive and efficient algorithm for detecting approximately duplicate database records[J]. Submitted for journal publication, June 2000.
4[4]Monge A. E.,Elkan C.P. The field matching problem: Algorithms and applications[A]. Proc. 2nd Intl. Conf. Knowledge Discovery and Data Mining[C]. Portland, Oregon,1996.
5[5]Lee M.L.,Lu H., Ling T.W. et al. Cleansing Data for Mining and Warehousing[A]. 10th International Conference and Workshop on Database and Expert Systems Applications (DEXA99)[C]. Florence, Italy, August 30 - September 3,1999.

1赵玖玲,李俊山,叶霞.数据仓库应用系统技术研究[J].计算机应用研究,2002,19(11):32-33. 被引量：2
2曾华琳,李堂秋,史晓东.一种基于提取上下文信息的分词算法[J].计算机应用,2005,25(9):2025-2027. 被引量：9
3Madnick S E,Wang R r.A framework for corporate householding[C]∥Fisher C,Davidson B N,eds.Proceedings of the 7th International Conference on Information Quality,MIT,2002:36-46.
4Apers P,Atzeni P,Ceri S,et al.Proceedings of the 27th International Conference on Very Large Data Bases[C]∥Proceedings of Very Large Databases,Rome,2001:381～390.
5Meidan A.White paper[EB/OL].[2005-4-20].http://www.wizsoft.com.
6Monge A E.Matching algorithms within a duplicate detection system[J].IEEE Data Engineer Bulletin,2000,23(4):14-20.
7Bunke H,Jiang X,Abegglen K,et al.On the weighted mean of a pair of strings[J].Pattern Analysis ＆ Applications,2002,5(5):23-30.
8Batista G,Monard M C.An analysis of four missing data treatment methods for supervised learning[J].Applied Artificial Intelligence,2003,17(5-6):519-533.
9Diego M,Monica S,Tiziana C.Using ontologies for XML data cleaning[C]∥OTM Confederated Internationl Workshops and Posters,Rome,2005:562-571.
10Naumann F,Freytag J,Leser U.Completeness of integrated information sources[J].Information Systems,2004,29(7):583-615.

1徐杨,冯克忠,马亚明.空间数据重复记录的清理方法研究[J].测绘科学,2008,33(6):125-126. 被引量：3
2陈德民.优化四位数的四则运算算式组合库[J].电脑编程技巧与维护,2009(22):27-29.
3吴展,蔡萍.一种改进的动态过程测量数据预处理方法[J].传感技术学报,2010,23(4):558-561. 被引量：6
4叶焕倬,吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术,2010(9):56-66. 被引量：21
5王珉,胡茑庆.Study on Complete Analysis of LRE Test Samples Based on PCA[J].Journal of Measurement Science and Instrumentation,2011,2(3):217-221. 被引量：1
6郭文龙.数据清洗中中文地址分词技术研究[J].齐齐哈尔大学学报（自然科学版）,2012,28(5):14-18.
7郭文龙.基于SNM算法的大数据量中文地址清洗方法[J].计算机工程与应用,2014,50(5):108-111. 被引量：8
8孙铭泽.基于数据仓库的电力系统负荷预测研究[J].科技经济市场,2016(4):84-84.
9李晓林,张懿,李霖.基于地址语义理解的中文地址识别方法[J].计算机工程与科学,2019,41(3):551-558. 被引量：8
10黄子泓,林秋.基于主成分分析的江苏省城市医疗水平评价[J].高师理科学刊,2019,39(10):33-36. 被引量：4

计算机应用

2002年第12期

内容加载中请稍等...