劣质数据库上查询优化策略

Query Optimization Strategy for Dirty Database

下载PDF

导出

摘要随着数据时代的发展,劣质数据越来越普遍存在于数据库中,严重影响了数据的质量,既降低了数据的价值又降低了数据管理系统的效率,这给数据管理带来了新的挑战.经过长期的数据质量研究工作,目前,已经有很多管理劣质数据的数据模型面世,实体数据模型就是其中一种,模型以每条元组表示一个现实世界中的实体,允许劣质数据的存在,并有效给出了衡量数据质量的方法,并且可根据用户对结果质量的需求给出查询结果.鉴于该模型的特点,在选择或连接等查询操作执行过程中可能产生很多已经不满足最后质量要求的中间结果,如果在中间结果中将这些最终无用的结果滤掉的话可以增进查询效率,这是区别于关系数据模型的特性,本文就如何在加入这中间结果数据过滤后有效进行查询优化的过程展开研究并加实验以论证. With the development of the era of data, more and more dirty data exist in the database. Dirty data bring negative impact on the data and reduce the usability and efficiency of database management systems. Entity-based relational data model is one of effective data model for dirty data,in which one tuple represents an entity in real-world. With the consideration that the execution of a query op- eration baced on the model such as selection or connection may generate a large set of intermediate results can be useless to the final results. If these useless intermediate results are filtered in rime,query efficiency can be improved. It is a crucial difference between que- ry optimization for dirty database and that for traditional relational database. This paper focuses on the research in the process of query optimization which considers the intermediate results filtering and experiments to demonstrate.

作者张岩唐兴王宏志

机构地区哈尔滨工业大学计算机科学与技术系

出处《小型微型计算机系统》 CSCD 北大核心 2014年第11期2410-2415,共6页 Journal of Chinese Computer Systems

基金国家"九七三"重点基础研究发展计划项目(2012CB316200)资助国家自然(6147209)资助国家"八六三"高科技研究发展计划项目(2012AA011004)资助

关键词劣质数据代价估计查询优化数据过滤阈值 dirty data cost estimation query optimization data filter threshold

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1刘雪莉,王宏志,李建中,高宏.实体数据库中多相似连接顺序选择策略[J].计算机科学与探索,2012,6(10):865-876. 被引量：3
2张岩,杨龙,王宏志.劣质数据库上阈值相似连接结果大小估计[J].计算机学报,2012,35(10):2159-2168. 被引量：6
3王宏志,李建中,高宏.一种非清洁数据库的数据模型[J].软件学报,2012,23(3):539-549. 被引量：11
4张岩,杨忠胜,王宏志,高宏,李建中.基于压缩直方图的劣质数据库上相似连接结果大小估计[J].小型微型计算机系统,2012,33(10):2113-2120. 被引量：2

二级参考文献68

1Eckerson W.Data Quality and the Bottom Line:Achieving Business Success through a Commitment to High Quality Data,Vol.1.Seattle:The Data Warehousing Institute,2002.1-36.
2Shilakes CC,Tylman J.Enterprise information portals.RC#60232206,United States:Merrill Lynch,1998.1-64.
3Fuxman A,Miller R.First-Order query rewriting for inconsistent databases.In:Eiter T,Libkin L,eds.Proc.of the 10th Int’l Conf.on Database Theory.Edinburgh:Springer-Verlag,2005.337-351.[doi:10.1016/j.jcss.2006.10.013].
4Fuxman A,Fazli E,Miller RJ.ConQuer,efficient management of inconsistent databases.In:-zcan F,ed.Proc.of the ACMSIGMOD Int’l Conf.on Management of Data.Baltimore:ACM Press,2005.155-166.[doi:10.1145/1066157.1066176].
5Andritsos P,Fuxman A,Miller RJ.Clean answers over dirty databases:A probabilistic approach.In:Liu L,Reuter A,Whang KY,Zhang J,eds.Proc.of the 22nd Int’l Conf.on Data Engineering.Atlanta:IEEE Computer Society,2006.30.[doi:10.1109/ICDE.2006.35].
6Khalefa ME,Mokbel MF,Levandoski JJ.Skyline query processing for incomplete data.In:Proc.of the 24th Int’l Conf.on DataEngineering.Cancún:IEEE Computer Society,2008.556-565.[doi:10.1109/ICDE.2008.4497464].
7Koch C.On query algebras for probabilistic databases.SIGMOD Record,2008,37(4):78-85.[doi:10.1145/1519103.1519116].
8Gal A,Martinez MV,Simari GI,Subrahmanian VS.Aggregate query answering under uncertain schema mappings.In:Proc.of the25th Int’l Conf.on Data Engineering.Shanghai:IEEE Computer Society,2009.940-951.[doi:10.1109/ICDE.2009.55].
9Dong XL,Halevy A,Yu C.Data integration with uncertainty.In:Koch C,Gehrke J,Garofalakis MN,Srivastava D,Aberer K,Deshpande A,Florescu D,Chan CC,Ganti V,Kanne C,Klas W,Neuhold EJ,eds.Proc.of the 33rd Int’l Conf.on Very Large DataBases.Vienna:ACM Press,2007.687-698.[doi:10.1007/s00778-008-0119-9].
10Elmagarmid AK,Ipeirotis PG,Verykios VS.Duplicate record detection:A survey.IEEE Trans.on Knowledge and DataEngineering,2007,19(1):1-16.[doi:10.1109/TKDE.2007.250581].

共引文献11

1蒋勋,刘喜文.大数据环境下面向知识服务的数据清洗研究[J].图书与情报,2013(5):16-21. 被引量：48
2刘显敏,李建中.基于键规则的XML实体抽取方法[J].计算机研究与发展,2014,51(1):64-75. 被引量：11
3蒋勋,徐绪堪.面向知识服务的知识库逻辑结构模型[J].图书与情报,2013(6):23-31. 被引量：23
4郭迟,刘经南,方媛,罗梦,崔竞松.位置大数据的价值提取与协同挖掘方法[J].软件学报,2014,25(4):713-730. 被引量：54
5张岩,唐兴.一种劣质数据上统计量的获取方法[J].智能计算机与应用,2014,4(5):26-28.
6刘文奇.中国公共数据库数据质量控制模型体系及实证[J].中国科学：信息科学,2014,44(7):836-856. 被引量：18
7程平,陈珊.基于云会计的审计知识库构建及应用[J].财务与会计,2016(17):44-45. 被引量：4
8刘雅思,程力,李晓.基于长度过滤和动态容错的SNM改进算法[J].计算机应用研究,2017,34(1):147-150. 被引量：9
9Xue-Li Liu,Hong-Zhi Wang,Jian-Zhong Li,Hong Gao.EntityManager： Managing Dirty Data Based on Entity Resolution[J].Journal of Computer Science & Technology,2017,32(3):644-662. 被引量：2
10潘腾辉,林金城,郑细烨,刘雅婷.面向数据库清洗的数据质量控制设计[J].信息技术,2017,41(10):133-136. 被引量：8

1张岩,唐兴.一种劣质数据上统计量的获取方法[J].智能计算机与应用,2014,4(5):26-28.
2张岩,杨龙,王宏志.劣质数据库上阈值相似连接结果大小估计[J].计算机学报,2012,35(10):2159-2168. 被引量：6
3姜国华,姜守旭,王宏志,李建中,高宏.标签劣质的XML数据上的查询处理[J].计算机科学与探索,2011,5(8):673-685. 被引量：1
4冯凯平,张华,冯超颖,陈衡.查询优化代价估计中的直方图方法运用[J].计算机与数字工程,2012,40(6):27-29.
5李建中,王宏志,高宏.大数据可用性的研究进展[J].软件学报,2016,27(7):1605-1625. 被引量：65
6田春子,邵晓康.大数据背景下对数据可用性的思考[J].信息与电脑,2015,27(9):50-51. 被引量：1
7李洁.ORM工具-EntityFramework框架的技术研究[J].电脑知识与技术,2016,0(4):13-14. 被引量：2
8冯凯平.数据查询操作代价估计[J].计算机与现代化,2012(7):107-110.
9刘显敏,李建中.实体识别问题的相关研究[J].智能计算机与应用,2013,3(2):1-5. 被引量：7
10冯凯平,陈衡,冯超颖.直方图下数据连接操作代价估计应用分析[J].计算机系统应用,2012,21(10):194-197.

小型微型计算机系统

2014年第11期

浏览历史

内容加载中请稍等...

劣质数据库上查询优化策略

参考文献4

二级参考文献68

共引文献11

相关作者

相关机构

相关主题

浏览历史