面向电信应急系统的Spark性能预测与参数调优方法探究被引量：2

Research on spark performance prediction and parameter optimization method for telecom emergency system

下载PDF

导出

摘要在众多大数据处理平台中,Spark以其运算速度快,操作方便等特有的优势脱颖而出。然而在实际应用中,Spark还存在一定的优化空间。针对Spark的参数配置优化,基于随机森林回归算法提出一种可行性较高的Spark性能预测的方法,并将该方法应用到电信数据处理任务中。实验证实,该性能预测方法不仅易于实现,且通过该方法得到的参数配置对于Spark任务性能有较好的提升。

作者林子孟葛欣竹曹若麟

机构地区电信科学技术第一研究所有限公司迪爱斯信息技术股份有限公司

出处《电信快报》 2020年第12期26-30,共5页 Telecommunications Information

关键词大数据 SPARK 性能预测参数调优电信数据

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1陈侨安,李峰,曹越,龙明盛.基于运行数据分析的Spark任务参数优化[J].计算机工程与科学,2016,38(1):11-19. 被引量：22
2尉耀稳,余彬,李豪帅,沈鸿达.基于Spark平台的参数优化研究现状[J].电脑知识与技术,2019,15(1):11-13. 被引量：1
3王利,王晶,张伟功,邱柯妮,陆克中.Linux内核参数对Spark负载性能影响的研究[J].计算机工程与科学,2017,39(7):1219-1226. 被引量：3

二级参考文献21

1White T. Hadoop: The definitive guide[J]. O'reilly Media Inc Gravenstein Highway North,2010,215(11):1-4.
2Lakshman A,Malik P. Cassandra..A decentralized structured storage system[J]. Acre Sigops Operating Systems Review, 2010,44(2) :35-40.
3Zaharia M,Chowdhury M,Franklin M J,et al. Spark:Cluster computing with working sets[C]//Proc of the 2nd USENIX Conference on Hot Topics in Cloud Computing, 2010:1765- 1773.
4Seo S, Jang I, Woo K, et al. HPMR: Prefetching and pre- shuffling in shared MapReduce computation envlronment[C] //Proc of the 2009 IEEE International Conference on Cluster Computing, 2009 : 1-8.
5Jiang D,Ooi B C, Shi L, et al. The performance of MapRe- duce:An in-depth study[J]. Proceedings of the VLDB En- dowment, 2010,3 (12) : 472-483.
6Dittrich J. Hadoopq-q- :Making a yellow elephant run like a cheetah (without it even noticing)[J]. Proceedings of the VLDB Endowment, 2010,3 (12) : 518-529.
7Shivnath B. Towards automatic optimization of MapReduce programs[C]//Proc of the 1st ACM Symposium on Cloud Computing, 2010 : 137-142.
8Herodotou H,Lim H, Luo G, et al. Starfish: A self-tuning system for big data analytics[C]//Proc of the 5th Cidr Conf, 2011 : 261-272.
9Shi Ju-wei,Zhou Jia, Lu Jia-heng, et al. MRTuner:A toolkit to enable holistic optimization for MapReduce )obs[C]//Proc of the VLDB Endowment, 2014,7(13) : 1319-1330.
10Aaron D, Andrew O. Optimizing shuffle performance in spark [R]. CA: Berkeley-Department of Electrical Engineering and Computer Sciences, University of California, 2033.

共引文献22

1赵军,徐晓燕.基于GraphX的分布式幂迭代聚类[J].计算机应用,2016,36(10):2710-2714. 被引量：3
2王利,王晶,张伟功,邱柯妮,陆克中.Linux内核参数对Spark负载性能影响的研究[J].计算机工程与科学,2017,39(7):1219-1226. 被引量：3
3李玉波,杨余旺,唐浩,陈光炜.基于Spark的K-means安全区间更新优化算法[J].计算机技术与发展,2017,27(8):1-6. 被引量：1
4陆世鹏.基于Spark Streaming的海量日志实时处理系统的设计[J].电子产品可靠性与环境试验,2017,35(5):71-76. 被引量：7
5丁东亮,于福利,吴东月.基于新拟牛顿方程解决分类问题[J].天津理工大学学报,2017,33(5):19-23. 被引量：2
6柴宁,吴毅坚,赵文耘.基于数据特性的Spark任务性能优化[J].计算机应用与软件,2018,35(1):52-58. 被引量：2
7熊安萍,夏玉冲,杨方方.一种Spark集群下的shuffle优化机制[J].计算机工程与应用,2018,54(4):72-76. 被引量：2
8廖湖声,黄珊珊,徐俊刚,刘仁峰.Spark性能优化技术研究综述[J].计算机科学,2018,45(7):7-15. 被引量：21
9葛庆宝,陶耀东,高岑,田月,孟祥茹.基于关键阶段分析的Spark性能预测模型[J].计算机系统应用,2018,27(8):232-236. 被引量：2
10尉耀稳,余彬,李豪帅,沈鸿达.基于Spark平台的参数优化研究现状[J].电脑知识与技术,2019,15(1):11-13. 被引量：1

同被引文献27

1徐石磊,王雷,胡卉芪,钱卫宁,周傲英.基于分布式系统OceanBase的并行连接[J].华东师范大学学报（自然科学版）,2017(5):1-10. 被引量：3
2申毅杰,曾丹,熊劲.基于收益模型的Spark SQL数据重用机制[J].计算机研究与发展,2020,57(2):318-332. 被引量：3
3吴小康,范俊秋,袁龙,邵倩文,谢威,廖清阳,范涛.基于机器学习的变电站信息清洗与重构的研究[J].电子测试,2020,31(4):69-70. 被引量：2
4杨卫宁,邹维宝.基于Spark的出租车轨迹处理与可视化平台[J].计算机系统应用,2020,29(3):64-72. 被引量：3
5齐超,崔然.基于递归随机搜索算法的Hadoop平台大数据软件系统研究[J].软件,2020,41(6):177-184. 被引量：7
6林报嘉,刘晓东,杨川,尹航.XGBoost机器学习模型与GIS技术结合的公路崩塌灾害易发性研究[J].公路,2020,65(7):20-26. 被引量：19
7陆赟,闫歌.利用Spark SQL分析传统数据源的通用步骤[J].电子制作,2020,28(16):66-68. 被引量：2
8薛慧敏.基于MapReduce的分布式云计算数据挖掘方法[J].安阳师范学院学报,2020(5):24-27. 被引量：4
9谌婧娇.基于Spark的决策树算法对航班延误预测研究[J].电脑知识与技术,2021,17(4):217-219. 被引量：3
10沈忱,邰凌翔,彭煜玮.面向自动参数调优的动态负载匹配方法[J].计算机应用,2021,41(3):657-661. 被引量：4

引证文献2

1程智余,江玉,靳幸福.基于多机器学习模型的变电站调试检修自动测试方法研究[J].自动化与仪器仪表,2024(3):268-271.
2陈春茹.基于Spark SQL的数据查询与索引优化系统研究[J].信息技术与信息化,2024(7):170-173.

电信快报

2020年第12期

浏览历史

内容加载中请稍等...

面向电信应急系统的Spark性能预测与参数调优方法探究被引量：2

参考文献3

二级参考文献21

共引文献22

同被引文献27

引证文献2

相关作者

相关机构

相关主题

浏览历史

面向电信应急系统的Spark性能预测与参数调优方法探究 被引量：2

参考文献3

二级参考文献21

共引文献22

同被引文献27

引证文献2

相关作者

相关机构

相关主题

浏览历史

面向电信应急系统的Spark性能预测与参数调优方法探究被引量：2