期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于Hive的计算结果特征提取与重用策略 被引量:4
1
作者 谢恒 王梅 +1 位作者 乐嘉锦 孙莉 《计算机研究与发展》 EI CSCD 北大核心 2015年第9期2014-2024,共11页
现有MapReduce工作流中作业之间需将计算结果物化到HDFS(Hadoop distributed file system),大量磁盘I/O导致其效率较低.基于现有代表性工作Hive,提取并保存MapReduce工作流产生计算结果的数据特征,提出一种计算结果匹配和重用策略.首先... 现有MapReduce工作流中作业之间需将计算结果物化到HDFS(Hadoop distributed file system),大量磁盘I/O导致其效率较低.基于现有代表性工作Hive,提取并保存MapReduce工作流产生计算结果的数据特征,提出一种计算结果匹配和重用策略.首先,根据查询条件定义连接图与连接体等结构,用于可复用计算结果的匹配.基于该结构,根据HiveQL(Hive query language)解析出的抽象语法树,提出生成查询语句连接体算法,并遍历候选连接体列表,给出最佳重用方案生成方法,包括单连接体重用和多连接体重用策略.进一步,为了增加计算结果的重用概率,提出多键选择、推迟算数运算和语义理解3种方法.最后,使用数据仓库基准测试数据集TPC-H和SSB进行实验,验证了所提出的重用计算结果以提高数据处理速度的有效性. 展开更多
关键词 MAPREDUCE Hive 计算结果重用 连接体 数据管理
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部