针对电信大数据处理系统中存在的问题,文章提出一种基于Spark on Yarn模型的SY-TPP。在SY-TPP平台上,应用Hadoop2.0 Yarn标准,并利用Spark分布式存储技术,将SY-TPP系统的数据在内存中进行集中处理。以分级聚类算法为案例,对SY-TPP平台...针对电信大数据处理系统中存在的问题,文章提出一种基于Spark on Yarn模型的SY-TPP。在SY-TPP平台上,应用Hadoop2.0 Yarn标准,并利用Spark分布式存储技术,将SY-TPP系统的数据在内存中进行集中处理。以分级聚类算法为案例,对SY-TPP平台的开发过程进行了详细的分析。实验结果表明,TPP平台上的GB级用户可以在半个工作日内完成数据处理,而32个实体节点的SYTPP系统的速度比相同配置下的Map Reduce平台提高了10.25倍。展开更多
文摘针对电信大数据处理系统中存在的问题,文章提出一种基于Spark on Yarn模型的SY-TPP。在SY-TPP平台上,应用Hadoop2.0 Yarn标准,并利用Spark分布式存储技术,将SY-TPP系统的数据在内存中进行集中处理。以分级聚类算法为案例,对SY-TPP平台的开发过程进行了详细的分析。实验结果表明,TPP平台上的GB级用户可以在半个工作日内完成数据处理,而32个实体节点的SYTPP系统的速度比相同配置下的Map Reduce平台提高了10.25倍。