-
题名基于Spark的遥感数据分析方法
被引量:1
- 1
-
-
作者
陈峰科
孙众毅
池明旻
-
机构
复旦大学计算机科学技术学院
复旦大学计算机科学技术学院
-
出处
《微型电脑应用》
2015年第8期65-67,6,共3页
-
基金
国家自然科学基金
(71331005)
-
文摘
随着遥感技术的快速发展,遥感数据呈爆炸式增长,给遥感数据计算带来巨大的挑战。采用基于内存计算的Spark分布式计算框架以克服该问题,并选择YARN作为资源调度系统和采用HDFS为分布式存储系统。Spark是一个开源的分布式计算框架,基于弹性分布式数据集(RDD)概念,采用先进的有向无环图执行机制以支持循环数据流操作,通过一次数据导入内存就可以完成多次迭代运算。因而,特别适合基于多次迭代的大数据计算分析方法,相较于每轮迭代需把数据导入内存的Map Reduce有更大的优势。将该计算框架应用于海量遥感数据分析,验证需要多次迭代的奇异值分解(SVD)算法在该数据分析中的有效性。实验表明,随着迭代次数增加,基于Spark的SVD运算效率相对于Map Reduce有明显提高,通常可提高一个数量级。
-
关键词
大数据计算
遥感数据
HADOOP
SPARK
MAPREDUCE
-
Keywords
Big Data Computing
Remote Sensing Data
Hadoop
Spark
MapReduce
-
分类号
V249
[航空宇航科学与技术—飞行器设计]
-