期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
Spark on Yarn模式的电信大数据处理平台
1
作者 纪贵 《计算机应用文摘》 2023年第13期52-54,59,共4页
针对电信大数据处理系统中存在的问题,文章提出一种基于Spark on Yarn模型的SY-TPP。在SY-TPP平台上,应用Hadoop2.0 Yarn标准,并利用Spark分布式存储技术,将SY-TPP系统的数据在内存中进行集中处理。以分级聚类算法为案例,对SY-TPP平台... 针对电信大数据处理系统中存在的问题,文章提出一种基于Spark on Yarn模型的SY-TPP。在SY-TPP平台上,应用Hadoop2.0 Yarn标准,并利用Spark分布式存储技术,将SY-TPP系统的数据在内存中进行集中处理。以分级聚类算法为案例,对SY-TPP平台的开发过程进行了详细的分析。实验结果表明,TPP平台上的GB级用户可以在半个工作日内完成数据处理,而32个实体节点的SYTPP系统的速度比相同配置下的Map Reduce平台提高了10.25倍。 展开更多
关键词 电信 大数据处理 sparkonyarn模式
下载PDF
一种YARN和Spark框架的网格聚类方法
2
作者 王志刚 陈名辉 赵振凯 《现代计算机(中旬刊)》 2016年第12期33-37,共5页
分布式计算为大数据的处理提供一种新的平台,能有效提升算法的执行速度。在DBSCAN算法基础上提出一种数据分网格算法,该算法将每个分区上的数据集划分成以Eps半径为边长的单元格数据块,将查找Eps邻域的范围缩小到数据对象的八个相邻单... 分布式计算为大数据的处理提供一种新的平台,能有效提升算法的执行速度。在DBSCAN算法基础上提出一种数据分网格算法,该算法将每个分区上的数据集划分成以Eps半径为边长的单元格数据块,将查找Eps邻域的范围缩小到数据对象的八个相邻单元格之内,从而提高查找Eps邻域的速度及聚类速度,具有较好的加速比和扩展率。同时还优化分区聚类合并方法。 展开更多
关键词 分布式计算 DBSCAN spark yarn TACHYON
下载PDF
基于Spark+YARN的空气污染预报云平台设计 被引量:3
3
作者 丁凡 马敏劲 +1 位作者 丁峰 曹二山 《计算机工程与应用》 CSCD 北大核心 2017年第19期98-101,共4页
近年来我国空气污染导致的雾霾天气频繁发生,空气污染已经成为一个亟待解决的重要问题,其数值预报推广应用是一个难题,主要表现在数值预报系统的运行过程中计算量大,数据量大,在传统高性能计算集群中进行空气污染预报存在资源有限、复... 近年来我国空气污染导致的雾霾天气频繁发生,空气污染已经成为一个亟待解决的重要问题,其数值预报推广应用是一个难题,主要表现在数值预报系统的运行过程中计算量大,数据量大,在传统高性能计算集群中进行空气污染预报存在资源有限、复杂的并行化操作、批处理作业等待耗时等问题,尤其对于资源缺乏的研究团队,还存在基础设施昂贵而无法负担的问题。因此,如何利用有限的资源,为大气科学家提供一种基于云计算模式的高性能计算环境,提供可扩展、快速、廉价和动态可分配的计算和存储资源,是亟待解决的关键问题。研究一种基于Spark+YARN的空气污染数值预报的云平台,针对空气污染数值预报特点,为大气科学家提供一种空气污染数值预报大数据解决方案。 展开更多
关键词 spark+yarn平台 云计算 空气污染预报
下载PDF
一种Spark轻量级客户端实现方法研究
4
作者 张凤 卢居辉 +1 位作者 朱海勇 吴文 《河南科技》 2023年第15期19-24,共6页
【目的】满足前端用户频繁交互需求,克服传统重客户端与Spark应用服务保持长连接会话的弊端。【方法】在边缘节点服务器上部署高性能负载均衡和动态代理组件(HAProxy),提供一种通过轻量级客户端提交Spark作业的实现方法,对Spark作业进... 【目的】满足前端用户频繁交互需求,克服传统重客户端与Spark应用服务保持长连接会话的弊端。【方法】在边缘节点服务器上部署高性能负载均衡和动态代理组件(HAProxy),提供一种通过轻量级客户端提交Spark作业的实现方法,对Spark作业进行动态调度与全生命周期管理。【结果】通过Spark on YARN模式将多个具有相同功能、相互之间能独立运行的Rest服务部署到YARN集群上,利用HAProxy的自动重载机制进行动态更新和加载后端服务配置,使前端用户在对后端变动无感知的情况下,通过HAProxy统一对外接口,将Spark作业提交到分散运行在Yarn集群上无差别的Rest服务中执行。【结论】该方法无须保持边缘节点服务器与集群节点服务器之间的长连接会话,通过HAProxy能有效避免外部用户直接访问集群内部节点,实现集群内外安全隔离的目的,同时可在Spark on YARN运行模式下实现Spark作业的交互式提交与异步调度,完成对Spark作业全生命周期的自主控制。 展开更多
关键词 HAProxy spark yarn 动态配置
下载PDF
Spark on Yarn模式的电信大数据处理平台 被引量:6
5
作者 杨玉 张远夏 《福建电脑》 2019年第3期34-38,共5页
为了提高电信大数据处理的性能,提出了一种Spark on Yarn模式的电信大数据处理平台SY-TPP(Spark on Yarn Telecommunication Big Data Processing Platform)。SY-TPP平台的实现采用Hadoop2.0的Yarn规范,运用了Spark分布式内存计算框架,... 为了提高电信大数据处理的性能,提出了一种Spark on Yarn模式的电信大数据处理平台SY-TPP(Spark on Yarn Telecommunication Big Data Processing Platform)。SY-TPP平台的实现采用Hadoop2.0的Yarn规范,运用了Spark分布式内存计算框架,使SY-TPP平台数据集的处理尽量在内存中进行。以分级聚类算法为案例分析了SY-TPP平台的编程步骤;测试结果表明:电信运营商的上GB级的用户数据能够半个工作日内完成,32物理节点的SY-TPP平台比同等配置的MapReduce平台的加速比从9.5提升10.25。 展开更多
关键词 云计算 电信大数据 映射-规约 yarn规范 spark内存计算
下载PDF
Hadoop和Spark在实验室中部署与性能评估 被引量:14
6
作者 薛志云 何军 +1 位作者 张丹阳 曹维焯 《实验室研究与探索》 CAS 北大核心 2015年第11期77-81,共5页
随着互联网技术的发展,数据量成爆炸性增长趋势,单机难以存储、组织和分析这些海量数据。面对单机难以处理海量数据的现状,建立分布式计算平台对于今后科研工作和实验教学具有重要的意义。就如何在实验室环境下搭建分布式计算平台做了... 随着互联网技术的发展,数据量成爆炸性增长趋势,单机难以存储、组织和分析这些海量数据。面对单机难以处理海量数据的现状,建立分布式计算平台对于今后科研工作和实验教学具有重要的意义。就如何在实验室环境下搭建分布式计算平台做了详细说明并对hadoop和spark的性能进行比较,包括Hadoop和Spark集群的安装和部署,Spark集成开发环境的建立,同一组数据集在两个平台上进行Kmeans聚类的时间对比。对于建设分布式计算平台具有一定的指导意义。 展开更多
关键词 大数据 分布式计算 HADOOP yarn spark
下载PDF
基于Spark的大数据处理平台的搭建与研究 被引量:4
7
作者 许礼捷 《电脑知识与技术》 2016年第5X期14-16,共3页
该文阐述了Spark处理技术在大数据框架上的性能提升优势,分析了BDAS生态系统框架中Spark的任务处理流程图。详细说明了Spark集群的搭建过程和运行状态,并通过Spark Shell的交互界面进行交互式编程,实现对文本内容中单词出现次数的统计。
关键词 大数据 spark 集群 yarn 交互式编程
下载PDF
一种基于Spark时效化协同过滤推荐算法 被引量:4
8
作者 徐新瑞 孟彩霞 +1 位作者 周雯 刘盈 《计算机技术与发展》 2015年第6期48-55,共8页
针对传统的批量学习的基于模型的协同过滤算法对新用户(物品)更新缓慢,模型重训练成本高且扩展性不足,对噪音数据的处理有待提高,尤其是随着数据量的增长和时效性要求越来越高,挖掘其中的知识变得越来越困难等问题,对置信权重在线协同... 针对传统的批量学习的基于模型的协同过滤算法对新用户(物品)更新缓慢,模型重训练成本高且扩展性不足,对噪音数据的处理有待提高,尤其是随着数据量的增长和时效性要求越来越高,挖掘其中的知识变得越来越困难等问题,对置信权重在线协同过滤算法进行改进。引入自适应软边缘,提出二阶在线优化方法处理在线协同过滤中问题的新算法(Soft Confidence Weighted Online Collaborative Filtering,SCWOCF),并在Spark流处理推荐框架下利用四组真实数据与相关算法作对比测试。实验结果表明,新算法能够及时处理用户(物品)的动态变化,并提升推荐的实时性和准确性,降低计算成本,对噪声数据健壮性更强。 展开更多
关键词 在线学习 自适应软边缘 软置信权重 二阶协同过滤 推荐系统 HADOOP spark on yarn
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部