Spark和Flink平台大数据批量处理的性能分析被引量：6

Performance Analysis of Batch Processing for Big Data on Spark and Flink

下载PDF

导出

摘要为了研究Apache Spark和Apache Flink两个框架在进行批量大数据处理时的性能差异和相似性,分析Spark和Flink的引擎差异,重点对比了两个框架在运行机器学习算法的细节。比较的算法有：支持向量机（SVM）算法、线性回归（LR）算法和分布式信息理论的特征选择（FS-DIT）算法,其中SVM和LR算法为平台固有算法,FS-DIT根据平台框架特点重新设计。三种机器学习算法的实验结果表明：Spark的性能优于Flink,且总体运行时长低于Flink。另外对Spark目前拥有的MLlib和ML性能也进行了分析研究。整个研究对新旧两种平台上的批处理应用具有一定指导作用。 To study the performance differences and similarities of the two frames Apache Spark and Apache Flink in the batch processing of big data,the differences between Spark and Flink engine are analyzed,and the details of the two frameworks running machine learning algorithms are compared. The algorithms for comparison are supported vector machine（ SVM） algorithm and linear regression（ LR） algorithm and feature selection of distributed information theory,in which SVM and LR algorithm are supported in the two frameworks,and FS-DIT is re-implemented according to the two frameworks. The experimental results of the three machine learning algorithms show that the performance of Spark is better than Flink,and the overall running time is less than Flink. In addition,the performance of ML and MLlib in the current Spark are also compared and studied. So the whole research has certain guiding function for batch processing applications on the two platforms.

作者马黎 MA Li(Computer School of Wuhan University, wuhan , 430072, China;Editorial Department of the Journey of Shangqiu Polytechnic, shangqiu ,476000, China)

机构地区武汉大学计算机学院商丘职业技术学院学报编辑部

出处《中国电子科学研究院学报》北大核心 2018年第2期191-195,213,共6页 Journal of China Academy of Electronics and Information Technology

基金河南省教育厅高校重点科研课题(16B120003)

关键词批量大数据处理性能差异 APACHE SPARK APACHE Flink 机器学习算法 batch processing of big data performance differences Apache Spark Apache Flink machine learning algorithms

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1王加亮,秦勃,刘健健,刘妮.基于MapReduce的交互可视化平台[J].电信科学,2012,28(9):22-27. 被引量：5
2肖强,朱庆华,郑华,吴克文.Hadoop环境下的分布式协同过滤算法设计与实现[J].现代图书情报技术,2013(1):83-89. 被引量：19
3罗永刚,陈兴蜀,杨露.一种Mapreduce作业内存精确预测方法[J].电子科技大学学报,2016,45(6):986-991. 被引量：1
4张新静,徐欣,凌至培,黄永志,王心醉,王守岩.基于最大相关和最小冗余准则及极限学习机的癫痫发作检测方法[J].计算机应用,2014,34(12):3614-3617. 被引量：3

二级参考文献40

1冯璐,冷伏海.共词分析方法理论进展[J].中国图书馆学报,2006,32(2):88-92. 被引量：567
2李钢,王蔚,张胜.支持向量机在脑电信号分类中的应用[J].计算机应用,2006,26(6):1431-1433. 被引量：19
3贾丽会,张修如.BP算法分析与改进[J].计算机技术与发展,2006,16(10):101-103. 被引量：48
4Buck I. GPU computing: programming a massively parallel processor. International Symposium on Code Generation and Optimization(CGO ' 07),California,2007:17-23.
5Polo J, Carrera D, Becerra Y, et al. Performance of accelerated MapReduce workloads in heterogengous clusters. Proceedings of 39th International Conference on Parallel Processing, San Diego, 2010:653N662.
6Huy T Vo, Broson J, Summa B, et al.2011 IEEE Symposium,RI, 2011:81 -89.
7Condie T, Conway N, Alvaro P, et al. MapReduce OnLine, UCB/ EECS-2009-136. Berkeley: Electrical Engineering and Computer Sciences University of California,2009.
8Lu Xiaoyi, Wang Bing, Zha Li, et al. Can MPI benefit Hadoop and MapReduce applications. Proceedings of 2011 International Conference on Parallel Processing Workshops, Taipei, China, 2011:371-379.
9Crochow K, Howe B, Stoermer M, et al. Client+Cloud:evaluating seamless architectures for visual data analytics in the ocean sciences. Proceedings of 22nd International Conference on Scientific and Statistical Database Management, Berlin, 2010: 114-131.
10Liu Z B, Qu W Y, Li H T, et al. A Hybrid Collaborative Filtering Recommendation Mechanism for P2P Networks[ J. Future Genera- tion Computer Systems ,2010,26 ( 8 ) : 1409 - 1417.

共引文献24

1汪静.协同过滤推荐算法研究综述[J].中国新通信,2014,16(13):111-113. 被引量：5
2张凯,秦勃,刘其成.基于GPU-Hadoop的并行计算框架研究与实现[J].计算机应用研究,2014,31(8):2548-2550. 被引量：11
3王新筠,王海欣.大数据背景下图书馆知识服务的思考[J].图书馆工作与研究,2014(11):75-78. 被引量：26
4贺斯琪,邓春宇,邵玉鹏,王越越.配电网运行状态实时监控数据可视化设计[J].电信科学,2015,31(6):133-137. 被引量：8
5陆光华.我国图书情报学术刊物百篇论文大数据研究评述[J].黔南民族师范学院学报,2015,35(3):115-120. 被引量：1
6孙天昊,黎安能,李明,朱庆生.基于Hadoop分布式改进聚类协同过滤推荐算法研究[J].计算机工程与应用,2015,51(15):124-128. 被引量：21
7韩敏,孙卓然.基于小波变换和AdaBoost极限学习机的癫痫脑电信号分类[J].计算机应用,2015,35(9):2701-2705. 被引量：11
8秦勃,朱勇,秦雪.基于Spark框架的乘潮水位计算与可视化平台[J].计算机工程与科学,2015,37(12):2216-2221.
9曹萍.基于Hadoop的协同过滤推荐并行化研究[J].计算机时代,2016(5):30-33. 被引量：1
10沈洋洋,黄丽亚,郭迪,笪铖璐,陈志阳,戴加飞.融合互信息和支持向量机的癫痫自动检测算法[J].计算机技术与发展,2016,26(6):133-137. 被引量：2

同被引文献81

1刘正伟,文中领,张海涛.云计算和云数据管理技术[J].计算机研究与发展,2012,49(S1):26-31. 被引量：170
2陈康,郑纬民.云计算:系统实例与研究现状[J].软件学报,2009,20(5):1337-1348. 被引量：1312
3张建勋,古志民,郑超.云计算研究进展综述[J].计算机应用研究,2010,27(2):429-433. 被引量：589
4李乔,郑啸.云计算研究现状综述[J].计算机科学,2011,38(4):32-37. 被引量：434
5周彦伦,杨奖利,王琨,毛昭元,李政军.浅议智能化改造对智能电网设备发展的启示[J].高压电器,2011,47(6):72-76. 被引量：7
6孔祥玉,赵帅,贾宏杰,姜涛.智能电网中电力设备及其技术发展分析[J].电力系统及其自动化学报,2012,24(2):21-26. 被引量：54
7王德文.基于云计算的电力数据中心基础架构及其关键技术[J].电力系统自动化,2012,36(11):67-71. 被引量：152
8钱琼芬,李春林,张小庆,李腊元.云数据中心虚拟资源管理研究综述[J].计算机应用研究,2012,29(7):2411-2415. 被引量：54
9方巍,文学志,潘吴斌,薛胜军.云计算:概念、技术及应用研究综述[J].南京信息工程大学学报（自然科学版）,2012,4(4):351-361. 被引量：124
10蒋永生,彭俊杰,张武.云计算及云计算实施标准:综述与探索[J].上海大学学报（自然科学版）,2013,19(1):5-13. 被引量：29

引证文献6

1王军.基于Apache Spark的大数据分析引擎应用研究[J].电子测试,2018,29(16):72-72. 被引量：2
2王志红.基于Flink平台的运用探讨[J].数码世界,2019,0(5):11-11. 被引量：2
3杨浩.大数据处理平台性能优化研究[J].信息与电脑,2019,0(15):151-152. 被引量：3
4戚红雨.流式处理框架发展综述[J].信息化研究,2019,45(6):1-8. 被引量：9
5葛文双,郑和芳,刘天龙,马昭,张瑞权,吴成晟.面向数据的云计算研究及应用综述[J].电子技术应用,2020,46(8):46-53. 被引量：13
6邢智辉.智能电网设备监控运行大数据平台总体设计[J].机械与电子,2023,41(4):41-45. 被引量：4

二级引证文献33

1孙如飞,张焱,陈瑞祥,孙飞飞,陈龙赞.流处理技术在水利物联网领域的应用[J].人民黄河,2021,43(S02):264-267. 被引量：1
2王兴达,刘雪峰.Spark平台在单光子成像测量矩阵生成与评估中的应用[J].计算机应用与软件,2019,36(8):55-59.
3鲍琨,张阳.结构化电子病历多维数据检索系统的设计与应用[J].中国医学装备,2019,16(9):119-123. 被引量：4
4赵亮,陈志奎.大数据算法库教学实验平台设计与实现[J].实验技术与管理,2020,37(6):197-201. 被引量：12
5杨东盛,东春昭,韩春明,徐贵红.高速铁路联调联试数据管理技术研究与应用[J].中国铁路,2020(9):69-76. 被引量：7
6秦望龙,韩戈白,崔凯,王敏,张海越.区块链的军事信息化应用研究[J].信息化研究,2020,46(6):58-62. 被引量：4
7梁晓鹏,王炜,彭霖,张伟中.基于大数据的智能停车平台研究[J].信息与电脑,2021,33(2):165-167.
8张翠翠,胡聪,洪德华,刘翠玲.基于数据中台的数据安全研究与应用[J].现代计算机,2021,27(7):60-63. 被引量：6
9户利利.高校科研云平台研究和构建[J].计算机时代,2021(6):125-128.
10张志成,刘岩,张晋芳,史铮铮,张瑞权.智慧营区评价体系研究[J].信息技术与网络安全,2021,40(7):103-107. 被引量：2

1康海燕,杨悦,于爱民.面向用户的电商平台刷单行为智能检测方法[J].计算机应用,2018,38(2):596-601. 被引量：4
2徐彬,陈劲,王波.中职学校数字媒体专业教学中的创客教育研究[J].科教文汇,2018(5):110-111. 被引量：3
3郎冬冬,刘卓然,冯旭鹏,刘利军,黄青松.基于情感倾向性的意见领袖发现方法[J].计算机应用与软件,2017,34(10):66-70. 被引量：2
4莫小星.浅谈在大数据背景下智能交通系统应用与平台构建[J].成功,2017(24):201-201. 被引量：1
5韩瑨烜,陈其玲,吴辰雪子,严娅.GC-MS检测蜂蜜中双甲脒残留量的方法研究[J].食品工业,2018,39(4):299-301. 被引量：5
6黄晓凤.老年共病患者多重用药指南解读[J].实用临床护理学电子杂志,2017,2(49):219-219. 被引量：1
7刘菡妮.网络语言的源起、传播与价值分析[J].新闻研究导刊,2017,8(21):106-106.
8陈伟,苏婉莹,周琴.基于批量处理构建查收查引报告工作流程[J].现代情报,2018,38(4):130-134. 被引量：8
9刘军军.移动图书馆服务平台框架结构研究[J].农业图书情报学刊,2018,30(4):52-55. 被引量：3
10李巧,周双娥,杨晶.模型融合在用户续购行为分析中的应用[J].小型微型计算机系统,2017,38(10):2231-2235. 被引量：2

中国电子科学研究院学报

2018年第2期

浏览历史

内容加载中请稍等...

Spark和Flink平台大数据批量处理的性能分析被引量：6

参考文献4

二级参考文献40

共引文献24

同被引文献81

引证文献6

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

Spark和Flink平台大数据批量处理的性能分析 被引量：6

参考文献4

二级参考文献40

共引文献24

同被引文献81

引证文献6

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

Spark和Flink平台大数据批量处理的性能分析被引量：6