-
题名关联性驱动的大数据处理任务调度方案
被引量:11
- 1
-
-
作者
王玢
吴雅婧
阳小龙
孙奇福
-
机构
北京科技大学计算机与通信工程学院
-
出处
《软件学报》
EI
CSCD
北大核心
2017年第12期3385-3398,共14页
-
基金
国家高技术研究发展计划(863)(2013AA01A209)
国家自然科学基金(61172048
61303250)~~
-
文摘
目前大数据处理过程较少关注任务所处理数据间的依赖关系,在任务执行过程中可能产生大量数据迁移,影响数据处理效率.为减少数据迁移,提升任务执行性能,从数据关联性及数据本地性两个角度出发,提出了一种数据关联性驱动的大数据处理任务优化调度方案:D^3S_2(data-dependency-driven scheduling scheme).D^3S_2由两部分组成:(1)数据关联性感知的数据优化放置机制(dependency-aware placement mechanism,简称DAPM),根据日志信息挖掘数据关联性,进而将强关联的数据聚合并放置于相同机架上,减少了跨机架的数据迁移;(2)数据迁移代价感知的任务优化调度机制(transfer-aware scheduling mechanism,简称TASM),完成数据放置后,以数据本地性为约束,对任务进行统一调度,最小化任务执行过程中的数据迁移代价.DAPM和TASM互相提供决策依据,以任务执行代价最小化为目标不断迭代调整调度方案,直至最优任务调度方案.在Hadoop平台上进行的实验结果表明:较之原生Hadoop,在不增加作业完成时间的基础上,D^3S_2减少了作业执行过程中的数据迁移量.
-
关键词
数据关联性
数据本地性
数据放置
任务调度
迁移代价感知
-
Keywords
data-denpendency
data-locality
data placement
task scheduling
transfer-cost-aware
-
分类号
TP316
[自动化与计算机技术—计算机软件与理论]
-