Spark框架并行度推断算法被引量：5

Parallelism Deduction Algorithm for Spark

下载PDF

导出

摘要分布式计算集群Spark宽依赖并行度取决于用户设定参数,对于不同的作业类型或数据集,硬编码的并行度参数设定难以发挥集群的最大计算能效。针对这一问题,首先对Spark作业执行方式进行深入分析,建立作业调度模型,提出宽依赖计算代价、资源空置率和溢写概率的定义;然后分析任务并行度对作业执行时间的影响,证明并行度取值具有合理区间,提出并行度推断算法的优化目标。最后根据模型定义进行目标求解,设计批处理内存计算框架的并行度推断算法(parallelismdeduction algorithm, PDA),通过构建的数据总量、执行区预留比、操作闭包集合、资源表等多个基础数据,计算符合资源需求表且具有最大资源利用率和最小开销的任务并行度;PDA算法在作业的各个Stage中迭代执行,根据计算环境优化调度方案提高性能。实验表明,PDA算法提高了Spark框架的作业执行效率,针对不同类型作业均具有良好的普适性。 Inappropriate parallelism parameter may result in the performance degradation on in-memory computing framework. For this issue, we analyze the execution mechanism of Spark jobs, establish job scheduling model, and give the definition of the computing cost, resource idle rate and spill probability. Based on the analysis of the relationship between parallelism parameter and job execution efficiency, the optimization objective of algorithm is given. To solve the problem of optimizing, a parallelism deduction algorithm (PDA) for in-memory computing framework is proposed. Firstly, PDA calculates the best parallelism of job execution by size of input data, worker computing resource and additional overhead of spill, and thus enhances the resource utilization of cluster and speeds up the state synchronization of job execution. The algorithm optimizes the task scheduling for each Stage, accelerates the job execution and improves the calculation efficiency. Experiment results demonstrate that the proposed algorithm can improve the computational efficiency of in-memory computing framework and accelerate data-intensive and compute-intensive applications.

作者卞琛于炯修位蓉廖彬英昌甜鲁亮 BIAN Chen;YU Jiong;XIU Wei-rong;LIAO Bin;YING Chang-tian;LU Liang(College of Internet Finance and Information Engineering, Guangdong University of Finance Guangzhou 510521;College of Information Science and Engineering, Xinjiang University Urumqi 830046;College of Statistics and Information, Xinjiang University of Finance and Economics Urumqi 830012)

机构地区广东金融学院互联网金融与信息工程学院新疆大学信息科学与工程学院新疆财经大学统计与信息学院

出处《电子科技大学学报》 EI CAS CSCD 北大核心 2019年第4期567-574,共8页 Journal of University of Electronic Science and Technology of China

基金新疆维吾尔自治区自然科学基金(2017D01A20)

关键词内存计算并行度推断性能优化 SPARK 溢写概率 in-memory computing parallelism deduction performance optimization Spark spill probability

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献45

1陈可洋.地震波逆时偏移方法研究综述[J].勘探地球物理进展,2010,33(3):153-159. 被引量：53
2李博,刘红伟,刘国峰,佟小龙,刘洪,郭建,裴江云.地震叠前逆时偏移算法的CPU/GPU实施对策[J].地球物理学报,2010,53(12):2938-2943. 被引量：83
3孔祥宁,张慧宇,刘守伟,李晶晶.海量地震数据叠前逆时偏移的多GPU联合并行计算策略[J].石油物探,2013,52(3):288-293. 被引量：9
4张向阳,冯超敏,赵书贵,文玲.一种基于GPU的逆时偏移并行算法[J].计算机应用与软件,2013,30(10):304-307. 被引量：2
5赵庆.基于Hadoop平台下的Canopy-Kmeans高效算法[J].电子科技,2014,27(2):29-31. 被引量：39
6孟祥宾,隋志强,王修银,唐祥功,段疾病.地震处理多核异构并行计算通用框架研究[J].油气地球物理,2014,12(2):11-16. 被引量：2
7张凯,秦勃,刘其成.基于GPU-Hadoop的并行计算框架研究与实现[J].计算机应用研究,2014,31(8):2548-2550. 被引量：11
8陈国良,毛睿,陆克中.大数据并行计算框架[J].科学通报,2015,60(5):566-569. 被引量：6
9于金良,朱志祥,梁小江.一种基于Sqoop的数据交换系统[J].物联网技术,2016,6(3):35-37. 被引量：17
10钟保强,张文瀚,高鹏,佘俊.基于MIS的电力安全信息管理系统的设计与实现[J].电子设计工程,2016,24(10):163-165. 被引量：9

引证文献5

1杨丹,姜华,张玉军,赵骥.“大数据技术”实验教学环境构建研究[J].实验技术与管理,2019,36(11):193-196. 被引量：10
2蒋楠.基于Spark大数据处理框架的逆时偏移成像技术研究[J].石油物探,2020,59(4):564-571. 被引量：6
3萧展辉,唐良运,孙刚.供应商网络结构特征多维层次聚集算法[J].沈阳工业大学学报,2022,44(4):415-419.
4钱红兵,李艳丽.基于Spark框架的高校网络攻击检测平台设计与实现[J].数字技术与应用,2023,41(5):214-217.
5苏立伟,刘振华,杜礼锋,伊思诺,曾晓锋.基于GPU+Spark的电力大数据分析算法[J].沈阳工业大学学报,2023,45(4):371-375. 被引量：1

二级引证文献17

1芦天亮,涂君奥,杜彦辉,刘颖卿.基于大数据技术的电信网络诈骗案件分析实验设计[J].实验技术与管理,2020,37(10):50-55. 被引量：9
2崔晓龙,张敏,郭茜,王小妹,张德政.基于Hadoop的大数据工程实践多层次教学设计[J].实验室研究与探索,2021,40(1):157-161. 被引量：6
3崔晓龙,张敏,张磊,边胜琴,郭茜.新工科背景下应用型大数据人才培养课程群研究与建设[J].实验技术与管理,2021,38(2):213-218. 被引量：31
4包红林,李敏,张萌.基于超大内存节点的波动方程逆时偏移高效实现[J].石油物探,2021,60(5):732-737. 被引量：1
5高建良,高俊,段桂华.支持轻量级IPv6终端的大数据实验平台建设[J].工业和信息化教育,2021(10):52-56.
6陈金焕.基于Spark的近地表速度模型快速层析反演[J].石油物探,2022,61(1):146-155. 被引量：4
7王延光,尚新民,芮拥军.单点高密度地震技术进展、实践与展望[J].石油物探,2022,61(4):571-590. 被引量：15
8张庆,章曙光,王浩.大数据实验环境下自动化运维方法的研究[J].实验室科学,2022,25(4):86-88. 被引量：2
9李韬睿,徐超,胡龙舟,朱彤,白海.基于云计算技术的海量信息分布式存储研究[J].微型电脑应用,2022,38(10):90-93. 被引量：6
10樊代和,魏云,沈军峰,贾欣燕,刘其军,高红梅.基于大数据技术的大学物理实验课程学习数据分析——以西南交通大学为例[J].实验室研究与探索,2022,41(9):218-222. 被引量：2

1孙月明,张运加,颜钱,陈璐,黄浩,高云君.无需感染时间信息的传播网络快速推断算法[J].计算机科学与探索,2019,13(4):541-553. 被引量：5
2李梦龙,余明晖.基于改进禁忌搜索算法的舰载机保障作业调度[J].中国舰船研究,2018,13(5):132-138. 被引量：8
3张浩,朱云龙,亓祥波.基于多目标根系生长算法的高精铜锭熔炼作业调度[J].控制理论与应用,2018,35(1):121-128. 被引量：2
4李强,刘晓峰.基于模拟植物生长算法的云作业调度模型[J].系统仿真学报,2018,30(12):4649-4658. 被引量：9
5麦桂珍,彭世国,洪英汉,陈平华,彭昱忠.混合加噪声模型与条件独立性检测的因果方向推断算法[J].计算机应用研究,2019,36(6):1688-1692. 被引量：2
6李经,孙哲,李梦龙,余明晖.舰载机保障作业调度决策研究[J].舰船电子工程,2018,38(12):165-168. 被引量：7
7唐元华.电气工程自动化低压电器中继电器的应用[J].城市周刊,2019,0(11):84-84.
8邓淑敏,刘金清,肖金超,刘继海,施文灶.基于量子遗传算法的冷藏集装箱功率平衡调度方法[J].计算机系统应用,2018,27(12):101-108. 被引量：2
9尚镇.有关变电站二次回路及继电保护调试技巧分析[J].数码设计,2018,7(11):20-21.
10何力,周兰江,周枫,郭剑毅.基于双向长短期记忆神经网络的老挝语分词方法[J].计算机工程与科学,2019,41(7):1312-1317. 被引量：16

电子科技大学学报

2019年第4期

浏览历史

内容加载中请稍等...

Spark框架并行度推断算法被引量：5

同被引文献45

引证文献5

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

Spark框架并行度推断算法 被引量：5

同被引文献45

引证文献5

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

Spark框架并行度推断算法被引量：5