Spark性能优化技术研究综述被引量：21

Survey on Performance Optimization Technologies for Spark

下载PDF

导出

摘要近年来,随着大数据时代的到来,大数据处理平台发展迅速,产生了诸如Hadoop,Spark,Storm等优秀的大数据处理平台,其中Spark最为突出。随着Spark在国内外的广泛应用,其许多性能问题尚待解决。由于Spark底层的执行机制极为复杂,用户很难找到其性能瓶颈,更不要说进一步的优化。针对以上问题,从开发原则优化、内存优化、配置参数优化、调度优化、Shuffle过程优化5个方面对目前国内外的Spark优化技术进行总结和分析。最后,总结了目前Spark优化技术新的核心问题,并提出了未来的主要研究方向。 In recent years,with the advent of the era of big data,big data processing platform is developing very fast.A large number of big data processing platforms,including Hadoop,Spark,Strom and etc.,have appeared,among which Apache Spark is the most prominent one.With the wide applications of Spark at home and abroad,there are many performance problems to be solved.As the underlying implementation mechanism of Spark is very complex,it is difficult for ordinary users to find performance bottlenecks,let alone further optimization.In light of the above problems,the performance optimization technologies for Spark were summarized and analyzed from five aspects,including development principles optimization,memory optimization,configuration parameter optimization,scheduling optimization and shuffle process optimization.Finally,the key problems of Spark optimization technologies were summarized and future research issues were proposed.

作者廖湖声黄珊珊徐俊刚刘仁峰 LIAO Hu-sheng;HUANG Shan-shan;XU Jun-gang;LIU Ren-feng(Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China;School of Computer and Control Engineering,University of Chinese Academy of Sciences,Beijing 101408,China)

机构地区北京工业大学信息学部中国科学院大学计算机与控制学院

出处《计算机科学》 CSCD 北大核心 2018年第7期7-15,37,共10页 Computer Science

基金国家自然科学基金项目:云中并行程序性能分析方法研究(61372171)资助

关键词 SPARK 开发原则优化参数优化内存优化调度优化 Shuffle过程优化 Spark Development principle optimization Configuration parameter optimization Memory optimization Scheduling optimization Shuffle process optimization

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1卞昊穹,陈跃国,杜小勇,高彦杰.Spark上的等值连接优化[J].华东师范大学学报（自然科学版）,2014(5):263-270. 被引量：12
2陈康,王彬,冯琳.Spark计算引擎的数据对象缓存优化研究[J].中兴通讯技术,2016,22(2):23-27. 被引量：3
3萨初日拉,周国亮,时磊,王刘旺,石鑫,朱永利.Spark环境下并行立方体计算方法[J].计算机应用,2016,36(2):348-352. 被引量：5
4陈侨安,李峰,曹越,龙明盛.基于运行数据分析的Spark任务参数优化[J].计算机工程与科学,2016,38(1):11-19. 被引量：22
5杨志伟,郑烇,王嵩,杨坚,周乐乐.异构Spark集群下自适应任务调度策略[J].计算机工程,2016,42(1):31-35. 被引量：19

二级参考文献63

1崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
2ZAHARIA M,CHOWDHURY M,FRANKLIN M J,et al.Spark:cluster computing with working sets[C]//HotCloud2010.USENIX Association Berkeley,CA:[s.n.],2010:10-10.
3Spark[OL].http://spark.apache.org/.
4Shark[OL].http://shark.cs.berkeley.edu/.
5Spark SQL[OL].http://spark.apache.org/sql/.
6BLANAS S,PATEL J M,ERCEGOVAC V,et al.A comparison of join algorithms for log processing in MaPreduce[C]//SIGMOD2010.New York:ACM,2010:975-986.
7SAKR S,ANNALIU,FAYOUMI A G.The Family of MapReduce and Large-Scale Data Processing Systems[J].ACM Computing Surveys (CSUR),2013,46(1).
8KARGER D,LEHMAN E,LEIGHTON T,et al.Consistent hashing and random trees:distributed caching protocols for relieving hot spots on the world wide Web[C]//STOC97.New York:ACM,1997:654-663.
9DECANDIA G,HASTORUN D,JAMPANI M,et al.Dynamo:Amazon's highly available key-value Store[C]//SOSP2007.New York:ACM,2007:205-220.
10XIN R S,ROSEN J,ZAHARIA M,et al.Shark:SQL and rich analytics at scale[C]//SIGMOD2013.New York:ACM,2013:13-24.

共引文献53

1林子孟,葛欣竹,曹若麟.面向电信应急系统的Spark性能预测与参数调优方法探究[J].电信快报,2020(12):26-30. 被引量：1
2卓可秋,童国平,虞为.一种基于Spark的论文相似性快速检测方法[J].图书情报工作,2015,59(11):134-142. 被引量：2
3王诏远,王宏杰,邢焕来,李天瑞.基于Spark的蚁群优化算法[J].计算机应用,2015,35(10):2777-2780. 被引量：23
4王桂兰,周国亮,萨初日拉,朱永利.Spark环境下的并行模糊C均值聚类算法[J].计算机应用,2016,36(2):342-347. 被引量：11
5周国亮,萨初日拉,朱永利.Spark环境下基于多维布隆过滤器的星型连接算法[J].计算机应用,2016,36(2):353-357. 被引量：1
6胡忠奎,屈波,黄斌,黎文阳.一种基于虚拟处理区间划分的负载均衡等值连接算法[J].现代计算机,2016,0(2):3-7.
7刘成,牛锐,范贺明,许静,朱永利.基于Spark环境变压器故障并行诊断[J].电力科学与工程,2016,32(6):32-37. 被引量：11
8赵军,徐晓燕.基于GraphX的分布式幂迭代聚类[J].计算机应用,2016,36(10):2710-2714. 被引量：3
9林晓佳.海量网页模式下的特定数据快速挖掘模型的改进[J].宁德师范学院学报（自然科学版）,2016,28(4):384-389.
10黄廷辉,王玉良,汪振,崔更申.基于内存与文件共享机制的Spark I/O性能优化[J].计算机工程,2017,34(3):1-6. 被引量：8

同被引文献140

1蒋云钟,冶运涛,赵红莉,梁犁丽,曹引,顾晶晶.水利大数据研究现状与展望[J].水力发电学报,2020,39(10):1-32. 被引量：81
2Zhiyao Hu,Dongsheng Li,Deke Guo.Balance Resource Allocation for Spark Jobs Based on Prediction of the Optimal Resource[J].Tsinghua Science and Technology,2020,25(4):487-497. 被引量：6
3刘正伟,文中领,张海涛.云计算和云数据管理技术[J].计算机研究与发展,2012,49(S1):26-31. 被引量：170
4刘芳,薛蕾.利用数据挖掘技术监测外汇公有账户资金流失[J].计算机工程与应用,2006,42(12):227-228. 被引量：2
5程晓冰,石玉波,蒋云钟.国家水资源管理系统建设总体构架[J].中国水利,2008(19):19-20. 被引量：20
6陈康,郑纬民.云计算:系统实例与研究现状[J].软件学报,2009,20(5):1337-1348. 被引量：1310
7黄树成,曲亚辉.数据流分类技术研究综述[J].计算机应用研究,2009,26(10):3604-3609. 被引量：18
8张建勋,古志民,郑超.云计算研究进展综述[J].计算机应用研究,2010,27(2):429-433. 被引量：586
9易纲.全面提升外汇监管和服务水平[J].中国金融,2010(5):8-9. 被引量：14
10孙景,张成虎,陈善新.基于时间序列孤立点检测的可疑外汇资金交易识别研究[J].统计与决策,2010,26(18):26-29. 被引量：4

引证文献21

1王兴达,刘雪峰.Spark平台在单光子成像测量矩阵生成与评估中的应用[J].计算机应用与软件,2019,36(8):55-59.
2Suzhen Wang,Shanshan Geng,Zhanfeng Zhang,Anshan Ye,Keming Chen,Zhaosheng Xu,Huimin Luo,Gangshan Wu,Lina Xu,Ning Cao.A Dynamic Memory Allocation Optimization Mechanism Based on Spark[J].Computers, Materials & Continua,2019(8):739-757. 被引量：2
3盛俊.面向大数据的挖掘分类算法研究[J].信息技术与信息化,2019,0(12):123-125.
4阮树骅,潘梵梵,陈兴蜀,罗永刚,吴天雄.一种Spark作业配置参数智能优化方法[J].工程科学与技术,2020,52(1):191-197. 被引量：5
5程文亮,王志宏,周虞,过弋,赵俊锋.面向外汇市场监测的分布式计算框架设计[J].计算机应用,2020,40(1):173-180.
6刘凯铭,王洪亮,石兵波,钱育蓉.基于Hadoop的油气水井生产大数据分析与应用[J].科学技术与工程,2020,20(11):4464-4471. 被引量：8
7彭贝,刘黎志,杨敏,张晨跃.基于Hive的空气质量大数据查询优化方法[J].武汉工程大学学报,2020,42(4):467-472. 被引量：1
8葛文双,郑和芳,刘天龙,马昭,张瑞权,吴成晟.面向数据的云计算研究及应用综述[J].电子技术应用,2020,46(8):46-53. 被引量：12
9魏占辰,刘晓宇,黄秋兰,孙功星.Spark迭代密集型应用的优化方法研究[J].计算机工程与应用,2020,56(23):68-73. 被引量：3
10胡志宝,陆会明.基于Spark SQL技术的工业数据统计研究[J].科学技术创新,2021(6):58-61. 被引量：1

二级引证文献47

1陈昉,杜战朝,倪翊龙,邵高峰,李丹丹,徐高.民用建筑“四节一环保”数据建模与存储方法研究[J].建筑科学,2020,36(S02):382-389. 被引量：2
2崔晓龙,张敏,刘祥,郭茜.Spark作业性能建模及参数优化[J].实验技术与管理,2021,38(3):146-152. 被引量：3
3张翠翠,胡聪,洪德华,刘翠玲.基于数据中台的数据安全研究与应用[J].现代计算机,2021,27(7):60-63. 被引量：5
4户利利.高校科研云平台研究和构建[J].计算机时代,2021(6):125-128.
5李攀,刘庆杰,周兆军,刘颖,李寒莉.大数据技术的震后救援信息处理平台研制与应用[J].科学技术与工程,2021,21(15):6154-6164. 被引量：2
6张志成,刘岩,张晋芳,史铮铮,张瑞权.智慧营区评价体系研究[J].信息技术与网络安全,2021,40(7):103-107. 被引量：2
7周若男.基于大数据的油气生产数据智能化分析与预警[J].信息系统工程,2021,34(5):33-35.
8刘露,申国伟,郭春,崔允贺,蒋朝惠,伍大勇.一种基于深度强化学习的Spark Streaming参数优化方法[J].计算机与现代化,2021(10):49-56. 被引量：1
9罗学平,王昭,郭铭,李家喜,刘明光,黄臻,文秋鹏,刘猛,李强,毛键.铁路电力线故障监控诊断与快速切除[J].电气化铁道,2021,32(5):30-33. 被引量：1
10谯英,李代先,周少丹.油田勘探开发云平台数据存储模型研究与实践[J].西安石油大学学报（自然科学版）,2021,36(6):128-133. 被引量：9

1吴信东,嵇圣硙.MapReduce与Spark用于大数据分析之比较[J].软件学报,2018,29(6):1770-1791. 被引量：74
2陈军.分布式平台等值连接优化技术分析[J].现代计算机,2018,24(5):90-92.
3王华进,黎建辉,沈志宏,周园春.基于ORC元数据的Hive Join查询Reducer负载均衡方法[J].计算机科学,2018,45(3):158-164. 被引量：3
4曹云鹏,王海峰.面向MapReduce计算模式的中间数据通信优化[J].计算机应用,2018,38(4):1078-1083. 被引量：3

计算机科学

2018年第7期

浏览历史

内容加载中请稍等...

Spark性能优化技术研究综述被引量：21

参考文献5

二级参考文献63

共引文献53

同被引文献140

引证文献21

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

Spark性能优化技术研究综述 被引量：21

参考文献5

二级参考文献63

共引文献53

同被引文献140

引证文献21

二级引证文献47

相关作者

相关机构

相关主题

浏览历史

Spark性能优化技术研究综述被引量：21