为了提高电信大数据处理的性能,提出了一种Spark on Yarn模式的电信大数据处理平台SY-TPP(Spark on Yarn Telecommunication Big Data Processing Platform)。SY-TPP平台的实现采用Hadoop2.0的Yarn规范,运用了Spark分布式内存计算框架,...为了提高电信大数据处理的性能,提出了一种Spark on Yarn模式的电信大数据处理平台SY-TPP(Spark on Yarn Telecommunication Big Data Processing Platform)。SY-TPP平台的实现采用Hadoop2.0的Yarn规范,运用了Spark分布式内存计算框架,使SY-TPP平台数据集的处理尽量在内存中进行。以分级聚类算法为案例分析了SY-TPP平台的编程步骤;测试结果表明:电信运营商的上GB级的用户数据能够半个工作日内完成,32物理节点的SY-TPP平台比同等配置的MapReduce平台的加速比从9.5提升10.25。展开更多
提出了面向云环境Yarn(yet another resource negotiator)规范的蛋白质折叠模拟计算并行化算法Yarn_PERM。分析了蛋白质折叠的格点模型PERM算法的运行流程及其面向MapReduce的子任务划分方式。Yarn_PERM算法实现采用Hadoop2.0的Yarn框...提出了面向云环境Yarn(yet another resource negotiator)规范的蛋白质折叠模拟计算并行化算法Yarn_PERM。分析了蛋白质折叠的格点模型PERM算法的运行流程及其面向MapReduce的子任务划分方式。Yarn_PERM算法实现采用Hadoop2.0的Yarn框架作为工作平台,其资源的分配与调度、应用子任务的申请和子任务的具体执行都由Yarn来透明地完成;描述了Yarn_PERM算法的Map程序与Reduce程序及主控程序的功能实现。实验结果表明:在相同的时间内Yarn_PERM比PERM串行计算、MapReduce的PERM计算在能量最低寻优的吞吐量上明显增加,加速比和可扩展性上也有明显的优势。展开更多
文摘为了提高电信大数据处理的性能,提出了一种Spark on Yarn模式的电信大数据处理平台SY-TPP(Spark on Yarn Telecommunication Big Data Processing Platform)。SY-TPP平台的实现采用Hadoop2.0的Yarn规范,运用了Spark分布式内存计算框架,使SY-TPP平台数据集的处理尽量在内存中进行。以分级聚类算法为案例分析了SY-TPP平台的编程步骤;测试结果表明:电信运营商的上GB级的用户数据能够半个工作日内完成,32物理节点的SY-TPP平台比同等配置的MapReduce平台的加速比从9.5提升10.25。
文摘提出了面向云环境Yarn(yet another resource negotiator)规范的蛋白质折叠模拟计算并行化算法Yarn_PERM。分析了蛋白质折叠的格点模型PERM算法的运行流程及其面向MapReduce的子任务划分方式。Yarn_PERM算法实现采用Hadoop2.0的Yarn框架作为工作平台,其资源的分配与调度、应用子任务的申请和子任务的具体执行都由Yarn来透明地完成;描述了Yarn_PERM算法的Map程序与Reduce程序及主控程序的功能实现。实验结果表明:在相同的时间内Yarn_PERM比PERM串行计算、MapReduce的PERM计算在能量最低寻优的吞吐量上明显增加,加速比和可扩展性上也有明显的优势。