-
题名Spark大数据计算平台
被引量:3
- 1
-
-
作者
姜学军
武枫
黄海新
-
机构
沈阳理工大学信息科学与工程学院
沈阳理工大学自动化与电气工程学院
-
出处
《电子世界》
2018年第15期82-82,84,共2页
-
文摘
随着互联网技术的发展,每时每刻都在产生大量的数据,数据量已成为爆炸性增长的趋势,单机难以存储和分析这些数据。面对难以处理海量数据的单机现状,采用Hadoop分布式计算平台可以有效解决海量数据处理问题。但是Hadoop的Map Reduce编程模型不仅操作单一,抽象层次较低难以上手,而且延时高,难以支持交互式数据处理和实时数据处理,加之其中间结果需存入HDFS对于迭代数据处理性能较差。Spark作为一个新兴的大数据梳理的引擎,除了提供了包括Map Reduce在内的几十个算子,还提供了一个集群的分布式内存抽象,避免频繁使用IO操作并大大提高迭代速度。同时在现实世界大数据应用复杂多样的背景下,Spark丰富的生态圈使得Spark可以轻易的适用于各种场景。
-
关键词
大数据
spark
弹性分布式数据集
spark生态圈
-
分类号
TP311.11
[自动化与计算机技术—计算机软件与理论]
-