一种基于深度强化学习的Spark Streaming参数优化方法被引量：1

A Spark Streaming Parameter Optimization Method Based on Deep Reinforcement Learning

下载PDF

导出

摘要 Spark Streaming作为主流的开源分布式流分析框架,性能优化是目前的研究热点之一。在Spark Streaming性能优化中,业务场景下的配置参数优化是其性能提升的重要因素。在Spark Streaming系统中,可配置的参数有200多个,对参数调优人员的经验要求较高,未经优化的参数配置会影响流作业执行性能。因此,针对Spark Streaming的参数配置优化问题,提出一种基于深度强化学习的Spark Streaming参数优化方法(DQN-SSPO),将Spark Streaming参数优化配置问题转化为深度强化学习模型训练中的最大回报获得问题,并提出权重状态空间转移方法来增加模型训练获得高反馈奖励的概率。在3种典型的流分析任务上进行实验,结果表明经参数优化后Spark Streaming上的流作业性能在总调度时间上平均缩减27.93%,在总处理时间上平均缩减42%。 Spark Streaming is the mainstream open source distributed stream analysis framework,and its performance optimization is one of the current research hotspots.In Spark Streaming performance optimization,configuration parameter optimization in business scenarios is an important factor in its performance improvement.In the Spark Streaming system,there are more than 200 configurable parameters,which requires high experience for parameter tuning personnel.Non optimized parameter configuration will affect the execution performance of streaming jobs.Therefore,in view of the parameter configuration optimization problem of Spark Streaming,a Spark Streaming parameter optimization method based on deep reinforcement learning(DQN-SSPO)is proposed,which converts the parameter optimization configuration problem of Spark Streaming into the problem of obtaining the maximum return in deep reinforcement learning model training,and a weighted state space transfer method is proposed to increase the probability of high feedback rewards for model training.Experiments on three typical streaming analysis tasks show that the performance of streaming jobs on Spark Streaming after parameter optimization is reduced by 27.93%in total scheduling time and 42%in total processing time.

作者刘露申国伟郭春崔允贺蒋朝惠伍大勇 LIU Lu;SHEN Guo-wei;GUO Chun;CUI Yun-he;JIANG Chao-hui;WU Da-yong(College of Computer Science and Technology,Guizhou University,Guiyang 550025,China;Guizhou Provincial Key Laboratory of Software Engineering and Information Security,Guiyang 550025,China;Iflytek Co.,Ltd.,Hefei 230011,China)

机构地区贵州大学计算机科学与技术学院贵州省软件工程与信息安全特色重点实验室科大讯飞股份有限公司

出处《计算机与现代化》 2021年第10期49-56,62,共9页 Computer and Modernization

基金国家自然科学基金资助项目(62062022) 贵州省科学技术基金资助项目(黔科合基础[2017]1051) 国家重点研发计划项目(2018YFC0807701)。

关键词 Spark Streaming 性能优化深度强化学习参数调优 Spark Streaming performance optimization deep reinforcement learning parameter tuning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1崔晓龙,张敏,刘祥,郭茜.Spark作业性能建模及参数优化[J].实验技术与管理,2021,38(3):146-152. 被引量：3
2詹剑锋,高婉铃,王磊,李经伟,魏凯,罗纯杰,韩锐,田昕晖,姜春宇.BigDataBench:开源的大数据系统评测基准[J].计算机学报,2016,39(1):196-211. 被引量：34
3陈侨安,李峰,曹越,龙明盛.基于运行数据分析的Spark任务参数优化[J].计算机工程与科学,2016,38(1):11-19. 被引量：22
4阮树骅,潘梵梵,陈兴蜀,罗永刚,吴天雄.一种Spark作业配置参数智能优化方法[J].工程科学与技术,2020,52(1):191-197. 被引量：5

二级参考文献66

1White T. Hadoop: The definitive guide[J]. O'reilly Media Inc Gravenstein Highway North,2010,215(11):1-4.
2Lakshman A,Malik P. Cassandra..A decentralized structured storage system[J]. Acre Sigops Operating Systems Review, 2010,44(2) :35-40.
3Zaharia M,Chowdhury M,Franklin M J,et al. Spark:Cluster computing with working sets[C]//Proc of the 2nd USENIX Conference on Hot Topics in Cloud Computing, 2010:1765- 1773.
4Seo S, Jang I, Woo K, et al. HPMR: Prefetching and pre- shuffling in shared MapReduce computation envlronment[C] //Proc of the 2009 IEEE International Conference on Cluster Computing, 2009 : 1-8.
5Jiang D,Ooi B C, Shi L, et al. The performance of MapRe- duce:An in-depth study[J]. Proceedings of the VLDB En- dowment, 2010,3 (12) : 472-483.
6Dittrich J. Hadoopq-q- :Making a yellow elephant run like a cheetah (without it even noticing)[J]. Proceedings of the VLDB Endowment, 2010,3 (12) : 518-529.
7Shivnath B. Towards automatic optimization of MapReduce programs[C]//Proc of the 1st ACM Symposium on Cloud Computing, 2010 : 137-142.
8Herodotou H,Lim H, Luo G, et al. Starfish: A self-tuning system for big data analytics[C]//Proc of the 5th Cidr Conf, 2011 : 261-272.
9Shi Ju-wei,Zhou Jia, Lu Jia-heng, et al. MRTuner:A toolkit to enable holistic optimization for MapReduce )obs[C]//Proc of the VLDB Endowment, 2014,7(13) : 1319-1330.
10Aaron D, Andrew O. Optimizing shuffle performance in spark [R]. CA: Berkeley-Department of Electrical Engineering and Computer Sciences, University of California, 2033.

共引文献57

1林子孟,葛欣竹,曹若麟.面向电信应急系统的Spark性能预测与参数调优方法探究[J].电信快报,2020(12):26-30. 被引量：2
2李莉华,冯志强,冉兵,赵春玲,张春来,盘强文,邬丽莎.缺血预处理减轻兔肾缺血再灌流损伤的研究[J].中国病理生理杂志,2000,16(5):461-461. 被引量：2
3杨宇,王蓉,王志军.大数据技术总结和标准化工作研究进展[J].电信网技术,2016(4):7-12. 被引量：5
4苏楠.基于知识图谱的国内外大数据比较研究[J].中国科技论坛,2016(7):142-147. 被引量：7
5亢华爱.面向机器学习的通信网络大数据相关性分析算法研究[J].激光杂志,2016,37(8):145-148. 被引量：4
6赵军,徐晓燕.基于GraphX的分布式幂迭代聚类[J].计算机应用,2016,36(10):2710-2714. 被引量：3
7尤元建,吴洪学.Hadoop性能测试自动化研究[J].软件导刊,2016,15(12):16-18. 被引量：3
8谭双权,何明星,曾晟珂,石坤.基于CF(p^n)的CCA安全ElGamal加密体制[J].西华大学学报（自然科学版）,2017,36(1):12-16.
9彭展,李密,惠军华,杨楠,郑寇全.大数据中心集群异构网络基准性能测试方法[J].电信快报（网络与通信）,2017(3):15-19. 被引量：2
10周秀芳.开源大数据平台架构设计研究[J].延安职业技术学院学报,2017,31(3):103-105.

同被引文献18

1田兰,金石声,李波,卜英竹,李珏.基于XML和正则表达式的气象数据处理系统[J].计算机科学,2013,40(11A):432-435. 被引量：4
2唐海东,武延军.分布式同步系统Zookeeper的优化[J].计算机工程,2014,40(4):53-56. 被引量：15
3李峰,秦世广,周薇,徐鸣一,张乐坚,周青,夏元彩,曹婷婷,梁海河.综合气象观测运行监控业务及系统升级设计[J].气象科技,2014,42(4):539-544. 被引量：42
4钱峥,曹艳艳,赵科科,许皓皓.私有云在市级气象业务平台的实现与应用[J].气象科技,2014,42(4):641-646. 被引量：27
5李莉,王小刚.基于Spark的并行K-means气象数据挖掘研究[J].信息技术,2017,41(9):26-30. 被引量：7
6赵文芳,刘旭林.Spark Streaming框架下的气象自动站数据实时处理系统[J].计算机应用,2018,38(1):38-43. 被引量：16
7方中纯,赵江鹏.基于Flume和HDFS的大数据采集系统的研究与实现[J].内蒙古科技大学学报,2018,37(3):255-259. 被引量：7
8张昊,宋杰,罗名君.基于MD5算法的分布式无线传感器网络数据安全传输方法研究[J].苏州科技大学学报（自然科学版）,2019,36(1):68-74. 被引量：22
9李欣.基于Spark/HBase的交通流数据存储及索引模型探讨[J].地理与地理信息科学,2019,35(4):1-8. 被引量：6
10靳燕.基于MD5算法的文件完整性检测系统分析及设计[J].网络安全技术与应用,2019,0(11):36-38. 被引量：17

引证文献1

1马彬,李玉涛,许琪.基于Spark Streaming的气象自动站实时流处理与存储系统[J].计算机技术与发展,2023,33(3):207-214. 被引量：1

二级引证文献1

1王沙沙.实时数据处理轻量化应用程序的设计与实现[J].漯河职业技术学院学报,2023,22(4):28-32. 被引量：1

1刘传利.任务教学法在高中化学课堂中的运用[J].中学课程辅导（上旬刊）,2021(17):45-46. 被引量：1
2李蓉辉,陈玲,吴明晶,余小龙,赵秀海.亚热带人工林高分影像GLCM纹理的应用策略研究[J].北京林业大学学报,2021,43(1):1-9. 被引量：1
3王历金.建筑空调节能优化设计策略探讨[J].门窗,2021(18):15-16.
4尹琛,彭飞,景乃锋.一种基于控制流解耦的可重构阵列动态调度方法[J].上海航天（中英文）,2021,38(4):68-74.
5程晓兰,蔡晓丽.基于JSON的机顶盒后台升级的研究[J].电子技术与软件工程,2021(18):188-189. 被引量：1
6沈强,刘洁瑜,李灿,崔亚龙,李新三.基于多模型联合滤波的MIMU/GPS组合导航方法[J].中国惯性技术学报,2021,29(3):314-320. 被引量：2
7温晓燕,徐艳艳,李茂刚,张天龙,汤宏胜,李华.分段直接校正模型转移结合近红外光谱技术的甲醇汽油中甲醇定量分析方法研究[J].分析化学,2021,49(10):1758-1765. 被引量：7
8徐子龙,刘为,温文坤,闵铁锐,唐瑞波,王琳.LTE D2D频偏估计算法及其仿真分析[J].移动通信,2021,45(5):96-101.
9李飞.一种安检机应用的多路多源通信板[J].机电产品开发与创新,2021,34(5):46-49. 被引量：1
10韩应生,孙海顺,黄碧月,穆清,秦世耀.基于多类型电力元件统一形式离散模型的复杂系统状态空间生成方法[J].中国电机工程学报,2021,41(18):6137-6147. 被引量：3

计算机与现代化

2021年第10期

浏览历史

内容加载中请稍等...

一种基于深度强化学习的Spark Streaming参数优化方法被引量：1

参考文献4

二级参考文献66

共引文献57

同被引文献18

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于深度强化学习的Spark Streaming参数优化方法 被引量：1

参考文献4

二级参考文献66

共引文献57

同被引文献18

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于深度强化学习的Spark Streaming参数优化方法被引量：1