期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种面向数据仓库周期性查询的增量优化方法 被引量:2
1
作者 康炎丽 李丰 王蕾 《软件学报》 EI CSCD 北大核心 2017年第8期2126-2147,共22页
大数据蕴含着巨大的价值.分析类查询是获取数据价值的一种重要手段.为及时把握分析结果的变化,查询需要周期性地重复.为此,将不可避免地引入对旧数据的重复分析.目前,以重用历史数据的中间结果、优化冗余计算为核心思路的增量分析技术,... 大数据蕴含着巨大的价值.分析类查询是获取数据价值的一种重要手段.为及时把握分析结果的变化,查询需要周期性地重复.为此,将不可避免地引入对旧数据的重复分析.目前,以重用历史数据的中间结果、优化冗余计算为核心思路的增量分析技术,存在用户透明性不佳、对历史结果存储位置的选择不够智能化等问题,对周期性增量查询的优化效果有限.从兼顾用户透明性和优化收益的角度出发,设计了一种以语义规则为指导的增量优化方法.该方法扩展了增量描述语法,以查询操作符的操作语义和输出语义指导对历史数据存储、合并位置的选择,再根据代价模型和物理查询任务的划分位置对选择结果进行调整,生成优化后可以在分布式计算框架(如Map Reduce)周期性调度执行的物理查询任务.以Apache Hive为基础,实现了上述方法的原型Hive Inc.实验结果表明:对于扩展了增量语法描述的TPC-H测试集,Hive Inc相对于优化前可以获得平均2.93倍、最高5.78倍的加速;与经典的优化技术Inc MR、Dryad Inc相比,分别可以获得1.69倍和1.61倍的加速. 展开更多
关键词 数据仓库 周期性查询 增量优化 中间结果重用
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部