大数据处理模型Apache Spark研究被引量：33

Research on Apache Spark for Big Data Processing

下载PDF

导出

摘要 Apache Spark是当前流行的大数据处理模型,具有快速、通用、简单等特点。Spark是针对Map Reduce在迭代式机器学习算法和交互式数据挖掘等应用方面的低效率,而提出的新的内存计算框架,既保留了Map Reduce的可扩展性、容错性、兼容性,又弥补了Map Reduce在这些应用上的不足。由于采用基于内存的集群计算,所以Spark在这些应用上比Map Reduce快100倍。介绍Spark的基本概念、组成部分、部署模式,分析Spark的核心内容与编程模型,给出相关的编程示例。 Apache Spark is a popular model for large scale data processing at present, which is fast, general and easy. Compared with the Map Reduce computing framework, Spark is efficient in iterative machine learning algorithms and interactive data mining applications while re-taining the compatibility, scalability and fault-tolerance of Map Reduce. With its in-memory computing, Spark is up to 100 x faster than Hadoop Map Reduce in memory. Presents the basic conception, component and the deploying mode of Spark, introduces the internal abstraction and the programming model, gives the programming examples.

作者黎文阳

机构地区四川大学计算机学院

出处《现代计算机（中旬刊）》 2015年第3期55-60,共6页 Modern Computer

关键词 SPARK HADOOP MAPREDUCE 大数据数据分析 Spark Hadoop Map Reduce Big Data Data Analysis

分类号 TP393.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Zaharia M, Chowdhury M, Das T, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for in-Memory Cluster Computing [C]. Proceedings of the 9th USENIX Conference on Networked Systems Design and Implementation. USENIX Association, 2012:2-2.
2Zaharia M, Chowdhury M, Franklin M J, et al. Spark: Cluster Computing with Working Sets[C]. Proceedings of the 2nd USENIX Con- ference on Hot Topics in Cloud Computing,2010:10-10.
3Spark[EB/OL]. http://spark.apache.org.
4Scala[EB/OL]. https://www.scala-lang.org.
5Yu Y, Isard M, Fetterly D, et al. DryadLINQ: A System for General-Purpose Distributed Data-Parallel Computing Using a High-Level Language[C]. OSDI. 2008, 8: 1. ld.
6Hadoop MapReduce Tutorial[EB/OL]. http://hadoop.apache.org/docs/rl.2.1/mapred_tutorial.html.
7Apache Mesos. http://mesos.apache.org.
8Spark Programming Guides[EB/OL]. http://spark.apache.org/docs/1.1.0/quick-start.html.

同被引文献192

1章志刚,吉根林.基于迭代式MapReduce的Apriori算法设计与实现[J].华中科技大学学报（自然科学版）,2012,40(S1):9-12. 被引量：8
2张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
3施亮,钱雪忠.基于Hadoop的并行FP-Growth算法的研究与实现[J].微电子学与计算机,2015,32(4):150-154. 被引量：15
4舒昝,张晓冉.面向异构类型的大数据查询优化研究[J].自动化与仪器仪表,2016(4):199-200. 被引量：4
5王杰.校史编研:当代史研究的一个新领域[J].当代中国史研究,2004,11(4):107-112. 被引量：15
6周晓峰,王志坚.分布式计算技术综述[J].计算机时代,2004(12):3-5. 被引量：11
7魏桂英,郑玄轩.层次聚类方法的CURE算法研究[J].科技和产业,2005,5(11):22-24. 被引量：12
8袁军鹏,朱东华,李毅,李连宏,黄进.文本挖掘技术研究进展[J].计算机应用研究,2006,23(2):1-4. 被引量：57
9冯莉,李文生.基于J2EE的面向对象型数据的报表系统的设计与实现[J].计算机系统应用,2006,15(2):57-59. 被引量：8
10王鹏飞,王在志.大气环流数值模式的一种并行化方案[J].大气科学,2006,30(3):519-525. 被引量：11

引证文献33

1张亮,杨春丽,马媛媛.大数据应用部署研究[J].电信网技术,2016,0(5):30-36. 被引量：1
2吕益民,吴旻中,苏伟杰.基于Spark大数据平台在视频中搜索特征车辆的研究[J].警察技术,2016(4):80-82. 被引量：1
3盛剑,樊红,龚天任,程幸福.K-Means算法及其在卷烟零售门店库存聚类分析中的应用[J].商业经济,2017(3):128-129. 被引量：4
4孙海.Spark的图计算框架:GraphX[J].现代计算机,2017,23(6):120-122. 被引量：5
5张友海,李锋刚.Kmeans算法的Spark实现及优化[J].西安文理学院学报（自然科学版）,2017,20(3):18-20. 被引量：1
6丁祥武,解书亮,李继云.基于Spark的并行ETL[J].计算机工程与设计,2017,38(9):2580-2585. 被引量：7
7陆可,桂伟,江雨燕,杜萍萍.基于Spark的并行FP-Growth算法优化与实现[J].计算机应用与软件,2017,34(9):273-278. 被引量：8
8林宗缪,郭先超,裴雨清,唐浩,姚文勇.基于Spark的网络日志分析平台研究与设计[J].自动化与仪器仪表,2017(11):157-159. 被引量：3
9张靓,肖俊东,赵开敏.基于Spark的舰船网络数据解析存储系统设计与实现[J].舰船电子工程,2017,37(11):92-95. 被引量：2
10眭冠男.多维分析技术在大数据环境下的发展[J].电脑知识与技术,2018,14(2):4-5. 被引量：3

二级引证文献90

1李彦泽.开源科技情报技术体系构建[J].情报科学,2023,41(12):65-74. 被引量：1
2王越,赵静,杜冠瑶,万巍,龙春.网络空间安全日志关联分析的大数据应用[J].网络新媒体技术,2020(3):1-7. 被引量：2
3严哲,周斌雄,张祥燊,吴君雄.Spark计算框架在敏感地理信息检测中的应用研究[J].江西测绘,2021(1):46-49.
4夏正龙,姚蓉,朱亮,钟艳雯.基于Spark的探空逆温识别算法实现[J].湖北农业科学,2021,60(S01):335-339. 被引量：1
5叶小榕,邵晴.基于Spark的大规模社交网络社区发现原型系统[J].科技导报,2018,36(23):93-101. 被引量：8
6王斌,张昱.通信运营企业大数据平台建设思考[J].邮电设计技术,2017(8):73-78. 被引量：4
7雷雪梅,谢依彤.基于概率覆盖决策粗糙集模型的中医菜谱分析[J].计算机系统应用,2018,27(4):117-123.
8杨文杰,周志刚,雷欢,杨慧莉.基于GraphX的社交网络用户推荐算法研究[J].自动化与信息工程,2018,39(1):27-31. 被引量：1
9穆雪漫,宫法明.机器学习在视频智能识别中的应用[J].电子技术与软件工程,2018(19):254-254.
10杨宁,黄婷婷.基于Spark的大数据分析工具Hive的研究[J].计算机时代,2018(11):31-35. 被引量：12

1张家斌.西门子3WL断路器PROFIBUS通信技术[J].电工技术,2009(1):79-80. 被引量：1
2汤惟.C语言与汇编语言混合编程示例程序[J].电脑学习,1995(1):32-33.
3吕绍鑫.可视化驱动的交互式数据挖掘方法研究[J].信息与电脑,2016,28(11):136-137. 被引量：1
4孙鹏,韩承德,曾涛.S-DBSCAN：一种基于DBSCAN发现高密度簇的算法[J].高技术通讯,2012,22(6):589-595. 被引量：5
5冯玉贵,刘思久,张礼勇,杨江浑.分布式测控系统中的CAN总线技术[J].电测与仪表,1999,36(2):38-41. 被引量：5
6NI嵌入式开发模块将LabVIEW扩展到32位[J].国外电子测量技术,2005,24(7):40-40.
7汪加才,韩冰青,陈大峰.基于SOM的离群数据挖掘集成框架研究[J].计算机应用研究,2007,24(10):44-47.
8耿宏涛,舒志兵.基于VC的多轴运动控制卡软件开发技术研究[J].机床与液压,2007,35(11):130-133. 被引量：9
9任东怀,胡俊.多维数据可视化技术综述[J].工程地质计算机应用,2006(4):4-9. 被引量：9
10白永臣,王俊平,于文龙.用C语言开发BIOS程序的实现方法[J].辽宁大学学报（自然科学版）,2005,32(3):275-277.

现代计算机（中旬刊）

2015年第3期

浏览历史

内容加载中请稍等...

大数据处理模型Apache Spark研究被引量：33

参考文献8

同被引文献192

引证文献33

二级引证文献90

相关作者

相关机构

相关主题

浏览历史

大数据处理模型Apache Spark研究 被引量：33

参考文献8

同被引文献192

引证文献33

二级引证文献90

相关作者

相关机构

相关主题

浏览历史

大数据处理模型Apache Spark研究被引量：33