摘要
Spark分布式框架具有利用数据集内存缓存、启动任务的低迟延、迭代类运算、实时计算的支持和强大的函数式编程接口等特征。描述Spark集群环境的搭建过程,将Spark应用到预测森林植被中,对基于RDD和基于Data Frame接口的Spark随机森林算法的性能差异进行比较。实验结果表明,基于Dataset结构的随机森林法预测效果好、执行时间短,可以广泛使用。
出处
《软件导刊》
2017年第5期149-151,共3页
Software Guide
基金
海南省教育科学规划课题(QJY13516047)