-
题名基于Hive的计算结果特征提取与重用策略
被引量:4
- 1
-
-
作者
谢恒
王梅
乐嘉锦
孙莉
-
机构
东华大学计算机科学与技术学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2015年第9期2014-2024,共11页
-
基金
国家自然科学基金项目(61103046)
中央高校基本科研业务费专项
东华大学"励志计划"(B201312)
-
文摘
现有MapReduce工作流中作业之间需将计算结果物化到HDFS(Hadoop distributed file system),大量磁盘I/O导致其效率较低.基于现有代表性工作Hive,提取并保存MapReduce工作流产生计算结果的数据特征,提出一种计算结果匹配和重用策略.首先,根据查询条件定义连接图与连接体等结构,用于可复用计算结果的匹配.基于该结构,根据HiveQL(Hive query language)解析出的抽象语法树,提出生成查询语句连接体算法,并遍历候选连接体列表,给出最佳重用方案生成方法,包括单连接体重用和多连接体重用策略.进一步,为了增加计算结果的重用概率,提出多键选择、推迟算数运算和语义理解3种方法.最后,使用数据仓库基准测试数据集TPC-H和SSB进行实验,验证了所提出的重用计算结果以提高数据处理速度的有效性.
-
关键词
MAPREDUCE
Hive
计算结果重用
连接体
数据管理
-
Keywords
MapReduce
Hive
calculation results reuse
Join-Object
data management
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-