-
题名列存储数据仓库查询执行中重用缓冲区调度算法
被引量:6
- 1
-
-
作者
张琦
王梅
乐嘉锦
刘国华
-
机构
东华大学计算机科学与技术学院
计算机软件新技术国家重点实验室(南京大学)
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2011年第10期1942-1950,共9页
-
基金
"核高基"国家科技重大专项基金项目(2010ZX01042-001-003-004)
国家自然科学基金项目(61070031
+1 种基金
61070032)
上海市自然科学基金项目(11ZR1401200)
-
文摘
查询的中间结果重用是提高查询效率的重要手段.现有列存储系统主要关注多查询计划间的中间结果重用,忽略了单一查询计划执行过程中大量可重复访问的中间结果.单一查询中的中间结果具有确定性高、结果大小可估计的特征,非常适合作为重用的对象.为此,针对列存储数据仓库单一查询计划执行过程中的中间结果重用问题,提出了一个重用缓冲区空间的调度算法.首先,基于操作结点在给定物理执行计划树中的相对位置及其操作所产生的中间结果的大小对操作结点提出重用度估计模型.其次,设计了基于模型估计结果的缓冲区调度算法.在每一个查询计划的执行过程中,根据其模型估计结果执行缓冲区调度算法,使得其产生的中间结果中更重要的部分能够更久地驻留在内存中,以提升查询性能.在数据仓库基准数据集SSB上的实验结果验证了方法的有效性.
-
关键词
列存储
查询执行
中间结果重用
重用缓冲区
数据仓库
-
Keywords
column-store
query execution
reuse intermediate
reuse buffer
data warehouse
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种面向数据仓库周期性查询的增量优化方法
被引量:2
- 2
-
-
作者
康炎丽
李丰
王蕾
-
机构
计算机体系结构国家重点实验室(中国科学院计算技术研究所)
中国科学院大学
-
出处
《软件学报》
EI
CSCD
北大核心
2017年第8期2126-2147,共22页
-
基金
国家高技术研究发展计划(863)(2015AA011505)
国家自然科学基金(61303053
+2 种基金
61402445
61402303
61521092)~~
-
文摘
大数据蕴含着巨大的价值.分析类查询是获取数据价值的一种重要手段.为及时把握分析结果的变化,查询需要周期性地重复.为此,将不可避免地引入对旧数据的重复分析.目前,以重用历史数据的中间结果、优化冗余计算为核心思路的增量分析技术,存在用户透明性不佳、对历史结果存储位置的选择不够智能化等问题,对周期性增量查询的优化效果有限.从兼顾用户透明性和优化收益的角度出发,设计了一种以语义规则为指导的增量优化方法.该方法扩展了增量描述语法,以查询操作符的操作语义和输出语义指导对历史数据存储、合并位置的选择,再根据代价模型和物理查询任务的划分位置对选择结果进行调整,生成优化后可以在分布式计算框架(如Map Reduce)周期性调度执行的物理查询任务.以Apache Hive为基础,实现了上述方法的原型Hive Inc.实验结果表明:对于扩展了增量语法描述的TPC-H测试集,Hive Inc相对于优化前可以获得平均2.93倍、最高5.78倍的加速;与经典的优化技术Inc MR、Dryad Inc相比,分别可以获得1.69倍和1.61倍的加速.
-
关键词
数据仓库
周期性查询
增量优化
中间结果重用
-
Keywords
data warehouse
periodic query
incremental optimize
middle result reusing
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-