期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
一种Hadoop YARN的资源调度机制 被引量:3
1
作者 李程 柴小丽 +1 位作者 谢彬 唐鹏 《计算机与现代化》 2017年第11期29-34,共6页
YARN是Hadoop中广泛应用的资源管理系统,支持MapReduce,Spark,Storm等多种计算框架,已成为大数据生态中的核心组件。然而,在Hadoop YARN现有的资源调度器中,采用基于资源预留的资源保障机制,会产生资源碎片,导致资源浪费。为提高集群的... YARN是Hadoop中广泛应用的资源管理系统,支持MapReduce,Spark,Storm等多种计算框架,已成为大数据生态中的核心组件。然而,在Hadoop YARN现有的资源调度器中,采用基于资源预留的资源保障机制,会产生资源碎片,导致资源浪费。为提高集群的资源利用率和吞吐量,本文提出一种基于预约回填的资源分配机制。在该机制中,基于作业的优先级来决定是否对资源进行预约,并引入回填策略,在不影响预约作业执行的情况下,对资源进行回填使用。实验表明,使用基于预约回填的资源调度机制能够有效提高Hadoop YARN集群的资源利用率和吞吐量。 展开更多
关键词 hadoop yarn 大数据 资源调度 预约回填
下载PDF
基于优先级权重的Hadoop YARN调度算法 被引量:3
2
作者 王荣丽 侯秀萍 《吉林大学学报(信息科学版)》 CAS 2017年第4期443-448,共6页
为解决Hadoop现有调度器调度任务时不能根据任务的紧迫程度分配资源的问题,研究YARN中的资源调度机制,改进原调度器(Capacity Scheduler),提出一种基于优先级权重的Hadoop YARN(Yet Another Resource Negotiator)调度算法(Weight Schedu... 为解决Hadoop现有调度器调度任务时不能根据任务的紧迫程度分配资源的问题,研究YARN中的资源调度机制,改进原调度器(Capacity Scheduler),提出一种基于优先级权重的Hadoop YARN(Yet Another Resource Negotiator)调度算法(Weight Scheduler Based on Priority)。为叶子队列设置队列优先级,结合队列资源利用率和队列优先级选择队列;将应用程序的初始权重设置为应用程序优先级的大小,通过等待时间判断是否更新权重,根据权重对队列中的应用程序进行排序,调度时优先为权重高的应用程序分配资源。实验结果表明,与原有调度算法相比,改进算法平均任务执行时间约减少141 s,平均等待时间减少34.5%,保证了用户执行任务的相对公平,提高了用户总体满意度。 展开更多
关键词 hadoop yarn框架 资源调度器 优先级权重
下载PDF
基于Hadoop YARN的TensorFlow GPU集群的调度扩展
3
作者 陆忠华 孙琨 +2 位作者 王彦棡 王珏 刘芳 《科研信息化技术与应用》 2017年第6期33-42,共10页
本文研究并实现了大数据平台Hadoop YARN与深度学习框架Tensor Flow的结合。通过对DRF算法的扩展,使得Hadoop YARN在原先支持CPU和内存的基础上,可以对GPU资源进行管理和调度。通过YARN的应用接口,把Tensor Flow封装成了YARN的应用程序... 本文研究并实现了大数据平台Hadoop YARN与深度学习框架Tensor Flow的结合。通过对DRF算法的扩展,使得Hadoop YARN在原先支持CPU和内存的基础上,可以对GPU资源进行管理和调度。通过YARN的应用接口,把Tensor Flow封装成了YARN的应用程序之一,把原来的分布式程序在多节点手动分发启动改为了在单节点自动分发启动,单机版不变。本文设计了多组实验对YARN+Tensor Flow进行了多方位的测试,实验结果表明YARN和Tensor Flow相结合相比原生Tensor Flow程序具有相似的加速比,可以满足单系统多用户对GPU资源的使用,有效提高GPU资源的使用效率和编程人员的工作效率,增加系统的复用率。 展开更多
关键词 hadoopyarn Tensorflow 调度 深度学习 GPU
原文传递
Hadoop和Spark在实验室中部署与性能评估 被引量:14
4
作者 薛志云 何军 +1 位作者 张丹阳 曹维焯 《实验室研究与探索》 CAS 北大核心 2015年第11期77-81,共5页
随着互联网技术的发展,数据量成爆炸性增长趋势,单机难以存储、组织和分析这些海量数据。面对单机难以处理海量数据的现状,建立分布式计算平台对于今后科研工作和实验教学具有重要的意义。就如何在实验室环境下搭建分布式计算平台做了... 随着互联网技术的发展,数据量成爆炸性增长趋势,单机难以存储、组织和分析这些海量数据。面对单机难以处理海量数据的现状,建立分布式计算平台对于今后科研工作和实验教学具有重要的意义。就如何在实验室环境下搭建分布式计算平台做了详细说明并对hadoop和spark的性能进行比较,包括Hadoop和Spark集群的安装和部署,Spark集成开发环境的建立,同一组数据集在两个平台上进行Kmeans聚类的时间对比。对于建设分布式计算平台具有一定的指导意义。 展开更多
关键词 大数据 分布式计算 hadoop yarn SPARK
下载PDF
改进的Hadoop作业调度算法 被引量:5
5
作者 冯兴杰 贺阳 《计算机工程与应用》 CSCD 北大核心 2017年第12期85-91,共7页
分布式集群普遍存在负载均衡问题,而Hadoop没有考虑到节点间性能的差异.虽然有负载均衡机制,但是效果不太理想,因此运行过程中经常会出现负载不均衡的情况。针对如上问题,深入分析了Hadoop源代码,理清了Hadoop的运行原理,在Hadoop资源... 分布式集群普遍存在负载均衡问题,而Hadoop没有考虑到节点间性能的差异.虽然有负载均衡机制,但是效果不太理想,因此运行过程中经常会出现负载不均衡的情况。针对如上问题,深入分析了Hadoop源代码,理清了Hadoop的运行原理,在Hadoop资源管理机制Yarn中改进了Hadoop任务的排序,建立了新的任务排序规则,提出了对各节点性能评价的指标,分为动态性能指标和静态性能指标。在此基础上对Yarn的Fair Scheduler算法进行了改进,形成了考虑节点性能的调度算法。重新对Hadoop源码进行了编译,在所搭建的Hadoop平台上进行了对比实验,证明了加入节点性能指标有效解决了Hadoop负载均衡问题,对Hadoop的运行效率有了很大提高。 展开更多
关键词 大数据 hadoop yarn 负载均衡 FairScheduler 算法
下载PDF
基于节点性能的Hadoop作业调度算法改进 被引量:5
6
作者 冯兴杰 贺阳 《计算机应用与软件》 2017年第5期223-228,共6页
由于构成数据中心的计算设备一般都存在性能上的差异,但是Hadoop调度算法没有考虑不同节点的性能差异,导致节点间出现"忙闲不均"的现象,影响作业的执行效率。针对如上问题,在系统分析Hadoop资源管理机制(Yarn)源代码的基础上... 由于构成数据中心的计算设备一般都存在性能上的差异,但是Hadoop调度算法没有考虑不同节点的性能差异,导致节点间出现"忙闲不均"的现象,影响作业的执行效率。针对如上问题,在系统分析Hadoop资源管理机制(Yarn)源代码的基础上,提出了节点性能评价指标,综合考虑节点的硬件配置参数和运行过程中的动态性能指标。在此基础上对Fair Scheduler调度算法进行改进,实现了基于节点性能的任务分配,整体上提高了所有节点的利用率。在Hadoop集群上的实验表明,所提出的节点性能评价指标和对Fair Scheduler调度算法的改进,有效解决了节点的负载均衡问题,整体上提高了作业执行效率。 展开更多
关键词 大数据 hadoop yarn 负载均衡 FAIR Scheduler算法
下载PDF
基于Hadoop平台的云计算节能研究 被引量:4
7
作者 吴岳 《计算机系统应用》 2015年第11期235-241,共7页
云计算的广泛应用导致数据中心的产生.数据中心的能效的高低不仅涉及到电费,还关系到否符合环境法规.作者通过修改Hadoop YARN编程模型,使用RAPI的能耗限制功能来降低应用程序中计算失衡时的能耗.目的是测试在不会明显地降低性能的条件... 云计算的广泛应用导致数据中心的产生.数据中心的能效的高低不仅涉及到电费,还关系到否符合环境法规.作者通过修改Hadoop YARN编程模型,使用RAPI的能耗限制功能来降低应用程序中计算失衡时的能耗.目的是测试在不会明显地降低性能的条件下,通过RAPL,接口控制CPU的能耗是否有效.通过实验表明,在同样的负载下,Phadoop架构在分块矩阵乘法上相对于原来的Hadoop架构的能耗降低了34%. 展开更多
关键词 云计算 数据中心 能耗 hadoop yarn
下载PDF
浅析Hadoop 1.0与2.0设计原理 被引量:8
8
作者 尧炜 马又良 《邮电设计技术》 2014年第7期37-42,共6页
简要介绍了Hadoop发展历史及其版本演进进程;详细阐述了Hadoop 1.0中的HDFS设计理念、架构、读取/写入数据流程和MapReduce架构、任务执行流程,以及Hadoop 1.0功能不足问题;详细阐述了针对Hadoop 1.0功能不足问题,Hadoop 2.0所做的增强... 简要介绍了Hadoop发展历史及其版本演进进程;详细阐述了Hadoop 1.0中的HDFS设计理念、架构、读取/写入数据流程和MapReduce架构、任务执行流程,以及Hadoop 1.0功能不足问题;详细阐述了针对Hadoop 1.0功能不足问题,Hadoop 2.0所做的增强功能应对方案,包括NameNode HA方案、HDFS Federation方案和YARN设计原理等。 展开更多
关键词 hadoop NameNode HA HDFS FEDERATION yarn
下载PDF
YARN资源分配引入时间因素的研究
9
作者 汪健 《电脑知识与技术(过刊)》 2016年第6X期272-274,共3页
Hadoop2使用YARN平台进行资源管理,支持更多的计算框架和可插拔的资源调度器。现有的资源调度机制中并不支持时间因素,而新的应用方向需要YARN对预分配、实时性、截止期限等与时间密切相关的资源调度提供支持。本文对YARN进行扩展,以支... Hadoop2使用YARN平台进行资源管理,支持更多的计算框架和可插拔的资源调度器。现有的资源调度机制中并不支持时间因素,而新的应用方向需要YARN对预分配、实时性、截止期限等与时间密切相关的资源调度提供支持。本文对YARN进行扩展,以支持各种与时间相关的调度策略。 展开更多
关键词 hadoop yarn 资源请求与分配 时间因素
下载PDF
基于Mahout框架的Hadoop平台作业日志分析平台设计与实现 被引量:6
10
作者 曹政 《软件》 2015年第11期43-47,51,共6页
随着Hadoop的流行与Hadoop Yarn的出现,集群的规模越来越大。在Hadoop生态圈中对集群运行状态的开源实现已经很成熟,但是尚未有对一个对Hadoop作业的运行趋势进行统计分析的平台。本文介绍了一个面向Hadoop Yarn的作业资源统计分析平台... 随着Hadoop的流行与Hadoop Yarn的出现,集群的规模越来越大。在Hadoop生态圈中对集群运行状态的开源实现已经很成熟,但是尚未有对一个对Hadoop作业的运行趋势进行统计分析的平台。本文介绍了一个面向Hadoop Yarn的作业资源统计分析平台,面向集群管理员与普通用户,以时间、用户双维度对作业进行统计分析,得出一个Hadoop作业运行的标准。 展开更多
关键词 数据分析 hadoop yarn 作业分析 机器学习 Mahout
下载PDF
Hadoop平台基准性能测试研究 被引量:5
11
作者 张新玲 颜秉珩 《软件导刊》 2015年第1期30-32,共3页
Hadoop平台是apche下的一个开源大数据平台,具有分布性、虚拟化、高可靠性、高可伸缩性、通用性等特点。Hadoop平台发展至今,集成组件已从1.0发展到2.0。从Hadoop体系结构入手,分析了Hadoop平台1.0和2.0平台的基准测试性能并进行了对比... Hadoop平台是apche下的一个开源大数据平台,具有分布性、虚拟化、高可靠性、高可伸缩性、通用性等特点。Hadoop平台发展至今,集成组件已从1.0发展到2.0。从Hadoop体系结构入手,分析了Hadoop平台1.0和2.0平台的基准测试性能并进行了对比。研究了testdfsIO、yarn、hive的基准测试,通过对升级后平台的基准测试,分析了2.0的优势,为集成Hadoop平台提供参考。 展开更多
关键词 大数据 hadoop testdfsIO yarn hive 性能对比
下载PDF
基于Hadoop的大数据增量计算探讨 被引量:1
12
作者 王剑宇 刘凤良 姜薇 《电脑知识与技术》 2015年第6X期8-10,共3页
增量计算是针对许多在线大数据集每隔一段时间都会因为新数据添加进来产生缓慢增长,需要对整个数据集重新计算,导致效率低和计算资源浪费的问题提出的。文章通过分析增量计算的一般模式,参考已有增量计算系统的思想,探讨了如何基于开源... 增量计算是针对许多在线大数据集每隔一段时间都会因为新数据添加进来产生缓慢增长,需要对整个数据集重新计算,导致效率低和计算资源浪费的问题提出的。文章通过分析增量计算的一般模式,参考已有增量计算系统的思想,探讨了如何基于开源大数据处理框架Hadoop,依托其最新的YARN模式架构具有通用性的增量计算系统。 展开更多
关键词 增量计算 结果缓存复用 hadoop yarn
下载PDF
基于Hadoop的Web应用日志挖掘 被引量:1
13
作者 吴洁明 王维 《北方工业大学学报》 2017年第5期94-99,111,共7页
互联网上的大型站点每天都会产生大量的Web应用日志,这些日志中通常蕴藏着丰富且宝贵的信息,单节点的数据挖掘系统已无法满足挖掘海量Web日志的要求.针对该问题,研究利用云计算技术在存储和分析数据的优势,采用分布式数据挖掘方法,验证... 互联网上的大型站点每天都会产生大量的Web应用日志,这些日志中通常蕴藏着丰富且宝贵的信息,单节点的数据挖掘系统已无法满足挖掘海量Web日志的要求.针对该问题,研究利用云计算技术在存储和分析数据的优势,采用分布式数据挖掘方法,验证了以分布式模式挖掘日志较单机的集中模式的效率优势,提高了海量日志挖掘过程中存在的时空效率. 展开更多
关键词 分布式计算 hadoop yarn 日志挖掘
下载PDF
基于分布式云计算环境下的多租户管理技术方案研究 被引量:1
14
作者 喻朝新 张静娴 《电信工程技术与标准化》 2016年第6期7-11,共5页
本文首先介绍了大数据环境下对多租户Hadoop平台的需求,阐述了电信运营商省公司的业务现状及建设多租户Hadoop平台的驱动力,然后提出在分布式云计算环境下的多租户系统资源控制算法和Hadoop储存技术,并对多租户集群负荷限制、内存计算... 本文首先介绍了大数据环境下对多租户Hadoop平台的需求,阐述了电信运营商省公司的业务现状及建设多租户Hadoop平台的驱动力,然后提出在分布式云计算环境下的多租户系统资源控制算法和Hadoop储存技术,并对多租户集群负荷限制、内存计算、网络技术和虚拟化技术进行了验证,最后展现了多租户Hadoop平台的实施成果。 展开更多
关键词 多租户 hadoop 资源调度 HBASE yarn
下载PDF
一种基于Spark时效化协同过滤推荐算法 被引量:4
15
作者 徐新瑞 孟彩霞 +1 位作者 周雯 刘盈 《计算机技术与发展》 2015年第6期48-55,共8页
针对传统的批量学习的基于模型的协同过滤算法对新用户(物品)更新缓慢,模型重训练成本高且扩展性不足,对噪音数据的处理有待提高,尤其是随着数据量的增长和时效性要求越来越高,挖掘其中的知识变得越来越困难等问题,对置信权重在线协同... 针对传统的批量学习的基于模型的协同过滤算法对新用户(物品)更新缓慢,模型重训练成本高且扩展性不足,对噪音数据的处理有待提高,尤其是随着数据量的增长和时效性要求越来越高,挖掘其中的知识变得越来越困难等问题,对置信权重在线协同过滤算法进行改进。引入自适应软边缘,提出二阶在线优化方法处理在线协同过滤中问题的新算法(Soft Confidence Weighted Online Collaborative Filtering,SCWOCF),并在Spark流处理推荐框架下利用四组真实数据与相关算法作对比测试。实验结果表明,新算法能够及时处理用户(物品)的动态变化,并提升推荐的实时性和准确性,降低计算成本,对噪声数据健壮性更强。 展开更多
关键词 在线学习 自适应软边缘 软置信权重 二阶协同过滤 推荐系统 hadoop SPARK on yarn
下载PDF
基于PaaS技术的大数据云化平台实践 被引量:5
16
作者 徐海勇 黄岩 《电信科学》 2018年第1期148-157,共10页
大数据平台作为数据存储、处理和服务的基础平台,需支撑内部和外部多种大数据应用的开发及运行。提出一种把PaaS(platform as a service,平台即服务)技术应用到大数据平台的方案,详细描述了大数据PaaS云化平台的架构体系以及分层调度、... 大数据平台作为数据存储、处理和服务的基础平台,需支撑内部和外部多种大数据应用的开发及运行。提出一种把PaaS(platform as a service,平台即服务)技术应用到大数据平台的方案,详细描述了大数据PaaS云化平台的架构体系以及分层调度、多租户管理、Hadoop任务全局调度等关键技术方案。实践证明,该平台可以显著提高大数据应用的开发效率,实现应用快速部署上线;同时,其良好的弹性伸缩能力可以有效地提高大数据应用系统资源的使用效率。 展开更多
关键词 大数据 PAAS hadoop yarn调度器 云服务
下载PDF
人工智能技术驱动的纺纱质量预测研究进展 被引量:3
17
作者 赵薇玲 章军辉 +2 位作者 陈明亮 李庆 陈大鹏 《丝绸》 CAS CSCD 北大核心 2023年第4期61-70,共10页
本文探讨了人工智能技术在纺纱质量预测领域的应用、创新与不足,介绍了Hadoop技术为纺纱质量预测建模提供可靠高效的数据处理与运算平台,重点阐述了智能建模方法在纺纱质量预测领域的研究进展。通过分析得出基于数据与知识融合驱动的人... 本文探讨了人工智能技术在纺纱质量预测领域的应用、创新与不足,介绍了Hadoop技术为纺纱质量预测建模提供可靠高效的数据处理与运算平台,重点阐述了智能建模方法在纺纱质量预测领域的研究进展。通过分析得出基于数据与知识融合驱动的人工智能技术,构建出多工序关联的混合智能模型,用以准确描述纱线质量与纤维特性、工艺参数、环境参数等之间的非线性映射关系,可为试纺、过程参数设计、态势预测等环节提供指导,具有重要的理论研究意义。 展开更多
关键词 纺纱质量预测 人工智能 hadoop技术 混合智能模型 目标优化 发展趋势
下载PDF
基于大数据决策分析的风电机组故障诊断研究 被引量:1
18
作者 王玉宏 《现代工业经济和信息化》 2020年第4期16-17,28,共3页
阐述了基于Hadoop2.0的风电机组故障诊断大数据决策分析平台构建,并以风电机组多发故障变频器低温故障为例进行测试验证。结果表明,系统预测值能够很好跟踪实测值,可以有效预测识别风电机组运行故障。
关键词 大数据 风电机组 故障诊断 hadoop C4.5算法 yarn
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部