摘要
随着数据时代的发展,劣质数据越来越普遍存在于数据库中,严重影响了数据的质量,既降低了数据的价值又降低了数据管理系统的效率,这给数据管理带来了新的挑战.经过长期的数据质量研究工作,目前,已经有很多管理劣质数据的数据模型面世,实体数据模型就是其中一种,模型以每条元组表示一个现实世界中的实体,允许劣质数据的存在,并有效给出了衡量数据质量的方法,并且可根据用户对结果质量的需求给出查询结果.鉴于该模型的特点,在选择或连接等查询操作执行过程中可能产生很多已经不满足最后质量要求的中间结果,如果在中间结果中将这些最终无用的结果滤掉的话可以增进查询效率,这是区别于关系数据模型的特性,本文就如何在加入这中间结果数据过滤后有效进行查询优化的过程展开研究并加实验以论证.
With the development of the era of data, more and more dirty data exist in the database. Dirty data bring negative impact on the data and reduce the usability and efficiency of database management systems. Entity-based relational data model is one of effective data model for dirty data,in which one tuple represents an entity in real-world. With the consideration that the execution of a query op- eration baced on the model such as selection or connection may generate a large set of intermediate results can be useless to the final results. If these useless intermediate results are filtered in rime,query efficiency can be improved. It is a crucial difference between que- ry optimization for dirty database and that for traditional relational database. This paper focuses on the research in the process of query optimization which considers the intermediate results filtering and experiments to demonstrate.
出处
《小型微型计算机系统》
CSCD
北大核心
2014年第11期2410-2415,共6页
Journal of Chinese Computer Systems
基金
国家"九七三"重点基础研究发展计划项目(2012CB316200)资助
国家自然(6147209)资助
国家"八六三"高科技研究发展计划项目(2012AA011004)资助
关键词
劣质数据
代价估计
查询优化
数据过滤
阈值
dirty data
cost estimation
query optimization
data filter
threshold