针对电信大数据处理系统中存在的问题,文章提出一种基于Spark on Yarn模型的SY-TPP。在SY-TPP平台上,应用Hadoop2.0 Yarn标准,并利用Spark分布式存储技术,将SY-TPP系统的数据在内存中进行集中处理。以分级聚类算法为案例,对SY-TPP平台...针对电信大数据处理系统中存在的问题,文章提出一种基于Spark on Yarn模型的SY-TPP。在SY-TPP平台上,应用Hadoop2.0 Yarn标准,并利用Spark分布式存储技术,将SY-TPP系统的数据在内存中进行集中处理。以分级聚类算法为案例,对SY-TPP平台的开发过程进行了详细的分析。实验结果表明,TPP平台上的GB级用户可以在半个工作日内完成数据处理,而32个实体节点的SYTPP系统的速度比相同配置下的Map Reduce平台提高了10.25倍。展开更多
【目的】满足前端用户频繁交互需求,克服传统重客户端与Spark应用服务保持长连接会话的弊端。【方法】在边缘节点服务器上部署高性能负载均衡和动态代理组件(HAProxy),提供一种通过轻量级客户端提交Spark作业的实现方法,对Spark作业进...【目的】满足前端用户频繁交互需求,克服传统重客户端与Spark应用服务保持长连接会话的弊端。【方法】在边缘节点服务器上部署高性能负载均衡和动态代理组件(HAProxy),提供一种通过轻量级客户端提交Spark作业的实现方法,对Spark作业进行动态调度与全生命周期管理。【结果】通过Spark on YARN模式将多个具有相同功能、相互之间能独立运行的Rest服务部署到YARN集群上,利用HAProxy的自动重载机制进行动态更新和加载后端服务配置,使前端用户在对后端变动无感知的情况下,通过HAProxy统一对外接口,将Spark作业提交到分散运行在Yarn集群上无差别的Rest服务中执行。【结论】该方法无须保持边缘节点服务器与集群节点服务器之间的长连接会话,通过HAProxy能有效避免外部用户直接访问集群内部节点,实现集群内外安全隔离的目的,同时可在Spark on YARN运行模式下实现Spark作业的交互式提交与异步调度,完成对Spark作业全生命周期的自主控制。展开更多
为了提高电信大数据处理的性能,提出了一种Spark on Yarn模式的电信大数据处理平台SY-TPP(Spark on Yarn Telecommunication Big Data Processing Platform)。SY-TPP平台的实现采用Hadoop2.0的Yarn规范,运用了Spark分布式内存计算框架,...为了提高电信大数据处理的性能,提出了一种Spark on Yarn模式的电信大数据处理平台SY-TPP(Spark on Yarn Telecommunication Big Data Processing Platform)。SY-TPP平台的实现采用Hadoop2.0的Yarn规范,运用了Spark分布式内存计算框架,使SY-TPP平台数据集的处理尽量在内存中进行。以分级聚类算法为案例分析了SY-TPP平台的编程步骤;测试结果表明:电信运营商的上GB级的用户数据能够半个工作日内完成,32物理节点的SY-TPP平台比同等配置的MapReduce平台的加速比从9.5提升10.25。展开更多
文摘针对电信大数据处理系统中存在的问题,文章提出一种基于Spark on Yarn模型的SY-TPP。在SY-TPP平台上,应用Hadoop2.0 Yarn标准,并利用Spark分布式存储技术,将SY-TPP系统的数据在内存中进行集中处理。以分级聚类算法为案例,对SY-TPP平台的开发过程进行了详细的分析。实验结果表明,TPP平台上的GB级用户可以在半个工作日内完成数据处理,而32个实体节点的SYTPP系统的速度比相同配置下的Map Reduce平台提高了10.25倍。
文摘【目的】满足前端用户频繁交互需求,克服传统重客户端与Spark应用服务保持长连接会话的弊端。【方法】在边缘节点服务器上部署高性能负载均衡和动态代理组件(HAProxy),提供一种通过轻量级客户端提交Spark作业的实现方法,对Spark作业进行动态调度与全生命周期管理。【结果】通过Spark on YARN模式将多个具有相同功能、相互之间能独立运行的Rest服务部署到YARN集群上,利用HAProxy的自动重载机制进行动态更新和加载后端服务配置,使前端用户在对后端变动无感知的情况下,通过HAProxy统一对外接口,将Spark作业提交到分散运行在Yarn集群上无差别的Rest服务中执行。【结论】该方法无须保持边缘节点服务器与集群节点服务器之间的长连接会话,通过HAProxy能有效避免外部用户直接访问集群内部节点,实现集群内外安全隔离的目的,同时可在Spark on YARN运行模式下实现Spark作业的交互式提交与异步调度,完成对Spark作业全生命周期的自主控制。
文摘为了提高电信大数据处理的性能,提出了一种Spark on Yarn模式的电信大数据处理平台SY-TPP(Spark on Yarn Telecommunication Big Data Processing Platform)。SY-TPP平台的实现采用Hadoop2.0的Yarn规范,运用了Spark分布式内存计算框架,使SY-TPP平台数据集的处理尽量在内存中进行。以分级聚类算法为案例分析了SY-TPP平台的编程步骤;测试结果表明:电信运营商的上GB级的用户数据能够半个工作日内完成,32物理节点的SY-TPP平台比同等配置的MapReduce平台的加速比从9.5提升10.25。