期刊文献+
共找到170篇文章
< 1 2 9 >
每页显示 20 50 100
基于ZStack的hadoop集群搭建与分析 被引量:1
1
作者 刘顺 《科技资讯》 2019年第19期29-30,共2页
如果采用传统的方法来搭建Hadoop集群,那么就将会出现这些问题:传统构建Hadoop集群需要大量物理设备,要容纳如此多的物理设备又需要足够的实验场地。这些物理机的性能得不到充分利用,造成资源浪费,并且一旦物理机集群组建后,如果还需要... 如果采用传统的方法来搭建Hadoop集群,那么就将会出现这些问题:传统构建Hadoop集群需要大量物理设备,要容纳如此多的物理设备又需要足够的实验场地。这些物理机的性能得不到充分利用,造成资源浪费,并且一旦物理机集群组建后,如果还需要增加节点,就意味着还需要增加新的物理机,那就需要更大的实验场地,并且还需要一些像集线器、网线、交换机等一系列物理设备,花费也就更多,布置起来也是费时费力。 展开更多
关键词 ZStack hadoop 大数据
下载PDF
基于Linux的Hadoop集群搭建的探索与实现 被引量:7
2
作者 吴建 《物联网技术》 2023年第7期134-137,141,共5页
大数据时代,数据的存储与挖掘至关重要,Hadoop作为分布式计算平台,能够处理海量数据,并对数据进行分析。基于Hadoop集群的特征,文中主要介绍了Hadoop三大核心组件—分布式存储系统HDFS、分布式计算框架MapReduce和资源管理平台YARN,阐述... 大数据时代,数据的存储与挖掘至关重要,Hadoop作为分布式计算平台,能够处理海量数据,并对数据进行分析。基于Hadoop集群的特征,文中主要介绍了Hadoop三大核心组件—分布式存储系统HDFS、分布式计算框架MapReduce和资源管理平台YARN,阐述了Hadoop集群搭建的详细过程,并以单词词频统计为例进行了Hadoop集群的实际运用,验证了Hadoop集群的正确性与可行性,给深度学习Hadoop打下坚实的基础。 展开更多
关键词 大数据 hadoop HDFS MAPREDUCE 分布式 SSH免密
下载PDF
基于大数据技术的工业大数据高可用集群搭建设计与实现
3
作者 张艳敏 马晓涛 +2 位作者 杨冰倩 吴卫宏 赵滨 《无线互联科技》 2024年第22期48-51,55,共5页
随着互联网技术在工业生产中广泛应用,工业互联网的发展突飞猛进。在工业生产中,企业为了对工业大数据进行更好的采集、分析和预处理,利用大数据技术搭建大数据集群来完成各个生产环节。基于Hadoop的高可用分布式框架已经成为很多企业... 随着互联网技术在工业生产中广泛应用,工业互联网的发展突飞猛进。在工业生产中,企业为了对工业大数据进行更好的采集、分析和预处理,利用大数据技术搭建大数据集群来完成各个生产环节。基于Hadoop的高可用分布式框架已经成为很多企业在集群搭建中的首选。文章在基于高可用Hadoop组件基础上,搭建了Hive、HBase、Spark、Flink、Kafka等大数据生态系统中一些重要组件,用于对数据的存储、采集、抽取、清洗、预处理和分析等操作,帮助企业在生产过程中完善生产环节,提高生产效率。 展开更多
关键词 工业大数据 hadoop集群搭建 数据处理
下载PDF
虚拟环境下搭建Hadoop集群方法研究 被引量:3
4
作者 高丽 《现代信息科技》 2021年第11期21-23,共3页
Hadoop是当前最为流行的云计算平台实现方式之一,作为一个开源的、分布式文件系统,用于海量数据的存储与计算分析。文章在Vmware虚拟环境下,通过合理的配置创建Linux系统上的Hadoop集群。文章详细介绍了搭建Hadoop集群的准备工作、配置... Hadoop是当前最为流行的云计算平台实现方式之一,作为一个开源的、分布式文件系统,用于海量数据的存储与计算分析。文章在Vmware虚拟环境下,通过合理的配置创建Linux系统上的Hadoop集群。文章详细介绍了搭建Hadoop集群的准备工作、配置过程及测试,显示该集群正常运行。该集群实现方法、过程简单易行,对课程教学提供了可借鉴的方法,为后续的学习奠定了基础。 展开更多
关键词 虚拟环境 hadoop 分布式系统
下载PDF
大数据Hadoop集群下Sqoop数据传输技术研究
5
作者 周少珂 郭璇 +1 位作者 张振平 付媛冰 《河南科技》 2024年第6期25-28,共4页
【目的】Hadoop系统是大数据分布式集群系统,其开源的生态圈中有众多功能组件,通过在大数据Hadoop集群系统上部署Sqoop组件,将本地关系型Mysql数据库中的数据和Hive数据仓库中存储的数据进行快速导入导出,进一步研究数据传输性能。【方... 【目的】Hadoop系统是大数据分布式集群系统,其开源的生态圈中有众多功能组件,通过在大数据Hadoop集群系统上部署Sqoop组件,将本地关系型Mysql数据库中的数据和Hive数据仓库中存储的数据进行快速导入导出,进一步研究数据传输性能。【方法】首先在企业服务器上部署配置Hadoop分布式集群系统,其次在该集群上部署Sqoop组件并测试与Mysql数据库和Hive数据仓库的连通性,最后使用Sqoop技术测试本地Mysql数据库和Hive数据仓库之间的导入和导出。【结果】通过Sqoop技术能够更加便捷快速地从本地Mysql数据库上传到Hadoop集群系统,与传统方式下先将本地Mysql数据库中数据导出TXT文档格式后再使用Hive数据仓库的Load数据批量加载功能相比,在时间和效率方面大为提升。【结论】验证了Sqoop组件在Hadoop集群中部署运行的正确性,为大数据技术学习者提供一定程度的参考借鉴。 展开更多
关键词 大数据 hadoop 分布式 Sqoop
下载PDF
基于Hadoop分布式集群搭建方法研究 被引量:5
6
作者 罗利 《科学技术创新》 2021年第7期99-100,共2页
Hadoop是大数据分布式基础架构之一,主要解决海量数据的存储和计算。文中详细介绍了Hadoop集群搭建的环境准备、配置过程、测试使用,运行单词统计程序,该平台可以满足轻量化的学习需求。
关键词 hadoop 大数据 分布式
下载PDF
基于hadoop的大数据分布式集群平台搭建的研究 被引量:4
7
作者 郑文青 《计算机产品与流通》 2017年第12期143-143,共1页
伴随着信息技术的高速发展,我们迎来数据大爆发的时代。在当今大数据时代中,各种来源的海量数据成为我们重要的资产。如何对大数据的进行合理有效地处理和分析成为研究的重要热点。海量、高扩展的大数据对分布式集群平台的搭建提出了新... 伴随着信息技术的高速发展,我们迎来数据大爆发的时代。在当今大数据时代中,各种来源的海量数据成为我们重要的资产。如何对大数据的进行合理有效地处理和分析成为研究的重要热点。海量、高扩展的大数据对分布式集群平台的搭建提出了新的要求。Hadoop具备方便、可扩展性等优势,成为大数据分布式集群平台搭建的主力军。本文首先概述了hadoop核心技术,接着介绍了基于hadoop的大数据分布式集群平台搭建过程,然后阐述了搭建过程出现的问题并提出了解决方案,最后对全文进行了总结和展望。 展开更多
关键词 大数据 hadoop 分布式平台
下载PDF
Hadoop集群部署实验的设计与实现 被引量:20
8
作者 孟永伟 黄建强 +1 位作者 曹腾飞 王晓英 《实验技术与管理》 CAS 北大核心 2015年第1期145-149,共5页
阐述了Hadoop软件框架中的两大核心技术——HDFS分布式文件系统架构和MapReduce分布式处理机制,设计了Hadoop集群部署实验的具体方案,主要包括实验目的、实验区域的划分、节点的规划等,并且以一组实验设备为例,详细说明了配置方法,给出... 阐述了Hadoop软件框架中的两大核心技术——HDFS分布式文件系统架构和MapReduce分布式处理机制,设计了Hadoop集群部署实验的具体方案,主要包括实验目的、实验区域的划分、节点的规划等,并且以一组实验设备为例,详细说明了配置方法,给出了实现过程。通过该实验能够让学生从理论和实践上掌握Hadoop有关的技术知识。 展开更多
关键词 hadoop 部署 HDFS MAPREDUCE NameNode DataNode JobTrack TaskTrack
下载PDF
基于节点能力的Hadoop集群任务自适应调度方法 被引量:31
9
作者 郑晓薇 项明 +1 位作者 张大为 刘青昆 《计算机研究与发展》 EI CSCD 北大核心 2014年第3期618-626,共9页
针对当前Hadoop集群固有的任务级调度分配方法在运行中存在的负载分布不均的现象,着重对集群节点的执行能力进行了分析与研究.提出了一种基于节点能力的任务自适应调度分配方法.该方法根据节点历史和当前的负载状态,以节点性能、任务特... 针对当前Hadoop集群固有的任务级调度分配方法在运行中存在的负载分布不均的现象,着重对集群节点的执行能力进行了分析与研究.提出了一种基于节点能力的任务自适应调度分配方法.该方法根据节点历史和当前的负载状态,以节点性能、任务特征、节点失效率等作为节点任务量调度分配的依据,并使各节点能自适应地对运行的任务量进行调整.实验结果表明集群的总任务完成时间明显地缩减,各节点的负载更加均衡,节点资源的利用更为合理. 展开更多
关键词 hadoop 任务级调度方法 执行能力 节点能力 自适应
下载PDF
计算机集群的搭建、测试与应用 被引量:10
10
作者 张磊 姜弘道 潘海琳 《水利水电科技进展》 CSCD 北大核心 2006年第2期65-69,共5页
介绍了计算机集群搭建的软硬件环境,如节点的构建、系统的构建、操作系统的选择、SSI的构建等,分析了集群搭建中的总线、网络技术并以一个高性能计算机集群为例说明了搭建过程。通过两个基准测试程序包对集群进行了性能测试,以一个集群... 介绍了计算机集群搭建的软硬件环境,如节点的构建、系统的构建、操作系统的选择、SSI的构建等,分析了集群搭建中的总线、网络技术并以一个高性能计算机集群为例说明了搭建过程。通过两个基准测试程序包对集群进行了性能测试,以一个集群应用实例说明该集群解决实际问题的作用。结果表明该集群的浮点运算峰值达到理论值的60%以上,集群的单向带宽实测值与理论值比较接近,数据包很小时,系统往返延迟很小,其MPI环境性能很好,解决实际问题的加速效果非常明显。 展开更多
关键词 计算机 搭建 性能测试 高性能计算 网络技术
下载PDF
Hadoop异构集群中数据负载均衡的研究 被引量:6
11
作者 张松 杜庆伟 +1 位作者 孙静 孙振 《计算机应用与软件》 CSCD 2016年第5期31-34,共4页
Hadoop平台下,数据的负载均衡对平台性能的发挥有着深远的影响。首先分析默认数据负载均衡的局限性,针对现有默认HDFS(Hadoop Distributed File System)数据负载均衡算法只考虑存储空间利用率,而未考虑节点间异构性的问题,提出一种量化... Hadoop平台下,数据的负载均衡对平台性能的发挥有着深远的影响。首先分析默认数据负载均衡的局限性,针对现有默认HDFS(Hadoop Distributed File System)数据负载均衡算法只考虑存储空间利用率,而未考虑节点间异构性的问题,提出一种量化异构集群数据负载均衡的数学模型。该模型根据节点的存储空间及节点性能计算得到各个节点的理论空间利用率,并根据当前集群存储空间利用率动态调整节点最大负载。实验结果表明,提出的数据负载均衡策略能够让异构集群达到更合理的均衡状态,提高集群的效率,并有效减少作业的执行时间。 展开更多
关键词 hadoop HDFS 数据负载均衡 异构
下载PDF
Hadoop分布式集群的自动化容器部署研究 被引量:16
12
作者 李杰 刘广钟 《计算机应用研究》 CSCD 北大核心 2016年第11期3404-3407,3445,共5页
针对Hadoop集群部署过程繁琐复杂、耗时费力、运维难度大,且不利于快速扩展的问题,提出一种结合Docker容器技术部署集群的解决方法。该方法把Ambari及其运行环境和配置构建成Docker镜像,并把多节点容器的运行和Hadoop集群的部署过程写成... 针对Hadoop集群部署过程繁琐复杂、耗时费力、运维难度大,且不利于快速扩展的问题,提出一种结合Docker容器技术部署集群的解决方法。该方法把Ambari及其运行环境和配置构建成Docker镜像,并把多节点容器的运行和Hadoop集群的部署过程写成Shell脚本,只需一条命令,即可实现集群的自动化部署。实验结果表明,该方法简单可靠并极大地提高了集群部署的效率。因此,对海量数据的处理和分析具有重要的推动作用。 展开更多
关键词 hadoop 镜像 自动化部署 Docker容器 大数据
下载PDF
基于和声算法异构Hadoop集群资源分配优化 被引量:5
13
作者 李锋刚 魏炎炎 杨龙 《计算机工程与应用》 CSCD 2014年第9期98-102,共5页
异构Map-Reduce环境中资源分配策略直接影响其响应时间,如何利用有效的策略将计算任务分配到计算资源是亟待解决的问题。利用和声搜索算法对异构Hadoop集群中的计算资源分配问题进行优化。对问题进行建模时考虑了异构计算机集群中各节... 异构Map-Reduce环境中资源分配策略直接影响其响应时间,如何利用有效的策略将计算任务分配到计算资源是亟待解决的问题。利用和声搜索算法对异构Hadoop集群中的计算资源分配问题进行优化。对问题进行建模时考虑了异构计算机集群中各节点的处理能力、带宽和线路质量和源数据位置等因素对计算资源分配的影响,利用和声搜索算法优化资源分配策略,以期在满足用户需求的前提下提高系统的响应时间。并用Gridsim对算法进行仿真实验,实验结果表明利用和声搜索算法可以达到减少系统响应时间的目的。 展开更多
关键词 云计算 hadoop 异构 和声搜索算法 资源分配
下载PDF
Hadoop集群作业调度算法优化技术研究 被引量:5
14
作者 单冬红 郭静博 赵伟艇 《现代电子技术》 北大核心 2016年第6期25-29,共5页
针对当前云计算技术的广泛使用,提出对Hadoop集群作业调度算法进行研究的构想。在对Hadoop新版本中提出的Hadoop Map Reduce V2(Yarn)框架进行深入研究的基础上,设计一个详细完整的对比实验,针对各种作业调度算法的优势与不足进行全面... 针对当前云计算技术的广泛使用,提出对Hadoop集群作业调度算法进行研究的构想。在对Hadoop新版本中提出的Hadoop Map Reduce V2(Yarn)框架进行深入研究的基础上,设计一个详细完整的对比实验,针对各种作业调度算法的优势与不足进行全面的测试。通过使用不同的作业调度算法运行相同的作业,进行细致横向的对比,并得到各种作业调度算法之间以及计算框架之间在计算能力、运行时间、资源占用等方面的优劣。实验结果表明,公平调度算法和计算能力调度算法相较于传统的FIFO算法具有更灵活、更高效的特点。 展开更多
关键词 云计算 hadoop HDFS 作业调度
下载PDF
基于Hadoop MapReduce的大规模数据索引构建与集群性能分析 被引量:11
15
作者 谌超 强保华 石龙 《桂林电子科技大学学报》 2012年第4期307-312,共6页
为了满足搜索引擎构建索引的时空开销需求,构建高效的分布式索引,利用Hadoop搭建分布式集群环境,基于MapReduce编程实现大数据倒排索引。采用不同的网络带宽、数据量和集群节点数来评估Hadoop集群的性能。实验结果表明:网络带宽越大,集... 为了满足搜索引擎构建索引的时空开销需求,构建高效的分布式索引,利用Hadoop搭建分布式集群环境,基于MapReduce编程实现大数据倒排索引。采用不同的网络带宽、数据量和集群节点数来评估Hadoop集群的性能。实验结果表明:网络带宽越大,集群处理效率越高;集群节点数越多,处理大数据的能力越强。可见,网络通信带宽对Hadoop集群性能有一定影响,高速集群链路有利于发挥集群的性能。 展开更多
关键词 MAPREDUCE 倒排索引 hadoop
下载PDF
Hadoop集群性能参数自动调优信息库系统构建 被引量:2
16
作者 郑晓薇 项明 +1 位作者 张大为 刘青昆 《小型微型计算机系统》 CSCD 北大核心 2014年第3期538-542,共5页
为了使Hadoop集群系统能够应对多变的任务及系统本身节点差异对集群性能带来的影响,采用TaskConfigure服务器构建Hadoop集群参数信息库系统实现对集群参数的自动调优配置.通过对集群节点及任务的分类,提出集群按类分配配置参数及采用节... 为了使Hadoop集群系统能够应对多变的任务及系统本身节点差异对集群性能带来的影响,采用TaskConfigure服务器构建Hadoop集群参数信息库系统实现对集群参数的自动调优配置.通过对集群节点及任务的分类,提出集群按类分配配置参数及采用节点资源利用效率生成集群系统参数的优化配置值.实验结果表明,参数信息库系统的自动调优保证了集群工作性能的充分发挥,有效地缩短了集群执行任务的工作时间,使集群具有良好的稳定性和扩展性. 展开更多
关键词 TaskConfigure服务器 hadoop 参数信息库系统 自动调优
下载PDF
基于Hadoop的分布式集群大数据动态存储系统设计 被引量:39
17
作者 陈磊 吴晓晖 《中国电子科学研究院学报》 北大核心 2019年第6期593-598,共6页
由于大数据计算需求逐渐增大,数据存储需求也逐渐增长,传统集成式大数据存储系统未能合理均衡存储服务器负载情况,导致系统存储效率低,易出现系统崩溃状况。针对该问题,设计基于Hadoop的分布式集群大数据动态存储系统。首先,通过中央控... 由于大数据计算需求逐渐增大,数据存储需求也逐渐增长,传统集成式大数据存储系统未能合理均衡存储服务器负载情况,导致系统存储效率低,易出现系统崩溃状况。针对该问题,设计基于Hadoop的分布式集群大数据动态存储系统。首先,通过中央控制集群获取用户需求;然后,通过高速以太网连接模块下达采集指令至大数据采集集群,大数据采集集群受中央控制集群的调度,快速采集动态数据并定期把缓存数据导入大数据永久存储集群中,实现数据定期存储更新;最后,采用改进动态负载均衡算法均衡系统存储服务器的负载情况,获取综合指标参数值,将最大参数值的服务器存储动态数据。经验证,所提设计系统的存储响应速度快、存储耗时短,负载均衡性能优。 展开更多
关键词 hadoop 分布式 大数据 动态存储 负载均衡
下载PDF
异构Hadoop集群下自适应平衡数据存储的大数据放置策略 被引量:3
18
作者 张少辉 张中军 于来行 《现代电子技术》 北大核心 2016年第10期49-53,57,共6页
Hadoop是一种处理和存储大数据的平台,针对异构Hadoop集群下采用均等数据分配方法易降低系统计算性能的问题,提出一种自适应平衡数据存储的大数据放置策略。根据异构集群中各节点的计算能力比例,将数据分配到节点中。在任务处理过程中,... Hadoop是一种处理和存储大数据的平台,针对异构Hadoop集群下采用均等数据分配方法易降低系统计算性能的问题,提出一种自适应平衡数据存储的大数据放置策略。根据异构集群中各节点的计算能力比例,将数据分配到节点中。在任务处理过程中,根据反馈的任务完成时间信息,动态更新节点的能力比例,自适应调整数据分配,从而使异构Hadoop集群中各节点处理数据的时间大致相同,降低节点之间的数据移动量,提高了节点利用率。实验结果表明,该策略能够有效缩减任务完成时间,提高了系统的整体性能。 展开更多
关键词 异构hadoop 大数据放置 数据存储平台 平衡数据存储
下载PDF
一种Hadoop集群下的行为异常检测方法 被引量:4
19
作者 蔡武越 王珂 +1 位作者 郝玉洁 段晓冉 《计算机工程与科学》 CSCD 北大核心 2017年第12期2185-2191,共7页
随着分布式计算技术的发展,Hadoop成为大规模数据处理领域的典型代表,由于安全机制相对薄弱,缺少用户行为活动的监控,容易受到隐藏的安全威胁,如数据泄露等。结合主成分分析计算的特点,基于MapReduce对其做并行化处理,克服了传统主成分... 随着分布式计算技术的发展,Hadoop成为大规模数据处理领域的典型代表,由于安全机制相对薄弱,缺少用户行为活动的监控,容易受到隐藏的安全威胁,如数据泄露等。结合主成分分析计算的特点,基于MapReduce对其做并行化处理,克服了传统主成分分析计算的缺点,提高了模型训练效率。提出了一种基于并行化主成分分析的异常行为检测方法,即比较当前用户的行为模式是否与历史行为模式相匹配作为判定用户行为异常与否的度量标准。实验表明该方法能够较好地发现用户的异常行为。 展开更多
关键词 hadoop 主成分分析 异常检测 MAPREDUCE 行为模式
下载PDF
基于异构Hadoop集群的负载均衡策略研究 被引量:2
20
作者 秦军 冯亮亮 孙蒙 《计算机技术与发展》 2017年第6期110-113,共4页
异构Hadoop环境中,每个节点的处理能力各不相同,且集群中的节点会不断增加和删除,随着作业量的增大,负载倾斜会越来越明显。显然,负载均衡也成为影响Hadoop集群性能的重要因素之一。针对异构Hadoop环境中MapReduce任务调度,提出了一种... 异构Hadoop环境中,每个节点的处理能力各不相同,且集群中的节点会不断增加和删除,随着作业量的增大,负载倾斜会越来越明显。显然,负载均衡也成为影响Hadoop集群性能的重要因素之一。针对异构Hadoop环境中MapReduce任务调度,提出了一种新的负载均衡算法。该算法充分利用节点性能和当前的计算资源,根据集群负载平衡度量值进行任务分配,将任务分配给适合的节点,使集群负载逐渐趋于平衡,以提高集群节点利用率。由于Hadoop集群中各节点通过网络连接,以节省网络传输代价,因此在负载均衡调度时,根据数据分布特点,优先考虑数据的本地性,以缩短任务执行时间。仿真实验结果表明,所提出的负载均衡算法能明显改善系统性能,有效缩短MapReduce作业执行时间。 展开更多
关键词 hadoop MAPREDUCE 节点性能 任务调度 负载均衡
下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部