基于预测的Spark动态资源分配策略

Prediction-based Dynamic Resource Allocation Strategy for Spark Platform

下载PDF

导出

摘要分布式内存计算平台Spark是海量数据处理领域的最新技术进展。动态资源分配下Spark可根据应用的负载情况动态地追增、关闭任务执行器。然而,关闭任务执行器会造成缓存数据丢失,导致不必要的重计算开销,该情况在Spark交互式数据查询应用中尤为常见。为尽量减少任务执行器关闭以提升查询效率,设计实现一种基于预测的Spark动态资源分配策略。该策略基于马尔科夫理论构建Spark交互式数据查询应用的非活跃期持续时间预测模型,并依据预测结果确定任务执行器的关闭时机。试验结果表明,相比既有的Spark动态资源分配策略,采用基于预测的资源分配策略可使Spark交互式数据查询效率平均提升59.34%。 The distributed in-memory computing framework Spark is the latest technological advancement in the field of massive data processing.Under dynamic resource allocation,Spark can dynamically increase and close executors according to the workload of the application.However,removing executors would result in the loss of cached data and lead to unnecessary recomputing cost.This situation is particularly common in Spark interactive data query applications.Therefore,it is necessary to minimize the closing of the executors to improve the query efficiency.This paper designs and implements a prediction-based dynamic resource allocation strategy for Spark platform.This strategy constructs a non-active duration prediction model of Spark interactive data query application based on Markov theory,and determines the closing time of executors according to the prediction result.The experimental results show that compared with Spark’s dynamic resource allocation strategy,the efficiency of Spark’s interactive data query can be improved by59.34%.

作者梁毅程石帆常世禄刘飞 LIANG Yi;CHENG Shi-fan;CHANG Shi-lu;LIU Fei(Computer Academy,Beijing University of Technology,Beijing 100124,China)

机构地区北京工业大学计算机学院

出处《软件导刊》 2018年第12期43-47,共5页 Software Guide

关键词分布式计算平台 SPARK 大数据处理技术动态资源分配数据查询 distributed comuting platform Spark big data processing technology dynamic resource allocation data query

分类号 TP3-05 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献2

1陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,25(S1):142-146. 被引量：344
2戴炳荣,宋俊典,钱俊玲.云计算环境下海量分布式数据处理协同机制的研究[J].计算机应用与软件,2013,30(1):107-110. 被引量：30

二级参考文献10

1Sang Woo Han, Jong Won Kim, Prinz W. A multi-agent-based man- agement system for pervasive collaborative computing environment [ C ]//IEEE International Conference on Computing and Communica- tions ( PerCom 2009 ), 2009 : 1 - 6.
2Han Xu, Cao Yongcun. The application of Computer-Supported Col- laborative Technologies in web-based teachers Professional Develop- ment System[ C]//The 5th International Conference on Computer Sci- ence and Education ( 1CCSE ) ,2010,30 ( 9 ) : 842 - 845.
3Google Code University. Introduction to Parallel Programming and Map/Reduce [ EB/OL]. [ 2011 - 11 -21 ]. http ://code. google, com/ intl/zh-CN/edu/parallel/mapreduce-tutorial, html.
4Paul C Zikopoulous,Chris Eaton,Dirk deRoos,Thomas Deutsch,George Lapis.Uderstanding Big Data[].Journal of Women s Health.2012
5李伯虎,张霖,王时龙,陶飞,曹军威,姜晓丹,宋晓,柴旭东.云制造——面向服务的网络化制造新模式[J].计算机集成制造系统,2010,16(1):1-7. 被引量：858
6王鹏,孟丹,詹剑锋,涂碧波.数据密集型计算编程模型研究进展[J].计算机研究与发展,2010,47(11):1993-2002. 被引量：39
7程苗.基于云计算的Web数据挖掘[J].计算机科学,2011,38(B10):146-149. 被引量：51
8王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752. 被引量：616
9于戈,谷峪,鲍玉斌,王志刚.云计算环境下的大规模图数据处理技术[J].计算机学报,2011,34(10):1753-1767. 被引量：98
10涂兰敬.专家观点:“大数据”与“海量数据”的区别[J].网络与信息,2011,25(12):37-38. 被引量：60

共引文献372

1庞景安.大数据时代:思维变革、产业转型与数据科学兴起[J].情报学进展,2016(1):186-218.
2陈豫,曾铮,王三梅.科技信息工作中大数据技术的应用和发展[J].情报学进展,2014(1):81-122. 被引量：2
3秦望龙,刘冠邦,钱海力.美军大数据发展研究及启示[J].信息化研究,2022,48(1):1-5. 被引量：1
4陈培培,张玉周.大数据时代抽样调查课程的教学改革与实践[J].人文之友,2019,0(21):47-48.
5谢月锋,董现垒,陈卉,王燕,刘志成.利用网络痕迹信息即时预测儿童腹泻流行趋势[J].医学信息（医学与计算机应用）,2016,29(29):1-4.
6刘杰.大数据时代下的公共管理创新[J].区域治理,2018,0(2):115-115.
7何毅.资源发现知识导航——大数据时代图书馆的数字资源建设与服务[J].中国索引,2013,11(4):23-27. 被引量：34
8李志亮,罗芳.基于Mapreduce的Apriori改进算法[J].河南教育学院学报（自然科学版）,2013,22(4):34-36.
9厉剑,张绍雄,刘俊杰,李成柱.大数据引发信息时代新变革[J].大众科技,2013,15(12):7-10. 被引量：11
10李勇辉.大数据概念辨析及应对措施[J].互联网天地,2014(1):11-14. 被引量：11

1赵瑞锋,王海柱,郭文鑫,胡超.电力调度系统安全知识发现的分布式计算平台[J].信息技术,2018,42(11):37-43. 被引量：7
2柯研,马凯,郑钰辉.分布式计算平台Hadoop[J].数字技术与应用,2018,36(9):70-71. 被引量：7
3刘越.任务驱动教学法在高等职业教育中的应用[J].南方农机,2018,49(21):172-172. 被引量：1
4张莺.广州白云国际机场东外跑道关闭仿真评估研究[J].科技风,2017(23):212-213. 被引量：1
5李明星.莱康明发动机凸轮轴修理探讨[J].科技创新导报,2018,15(13):15-16. 被引量：1
6赵旭东,邵紫微,赵学山,李岩.大数据技术在基层央行工作中的应用探析[J].金融科技时代,2018,26(12):72-74.
7梁瑷云,袁丁,严清,刘小久.Spark平台下关联规则算法的优化实现[J].计算机工程与设计,2018,39(12):3692-3699. 被引量：4
8王明慧,曹杰,潘琪,邵雨琪,胡若霄.一种云存储中基于身份的代理数据完整性检测方案[J].物联网技术,2018,8(12):50-54. 被引量：4
9王千阁,何蒲,聂铁铮,申德荣,于戈.区块链系统的数据存储与查询技术综述[J].计算机科学,2018,45(12):12-18. 被引量：52
10方海荣.基于GPU并行技术的雷达信号处理探究[J].环球市场信息导报,2018,0(41):225-225.

软件导刊

2018年第12期

浏览历史

内容加载中请稍等...

基于预测的Spark动态资源分配策略

参考文献2

二级参考文献10

共引文献372

相关作者

相关机构

相关主题

浏览历史