期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
利用Zookeeper对HDFS中Namenode单点失败的改进方法 被引量:4
1
作者 鲁阳 郑岩 《软件》 2012年第12期192-196,共5页
在大数据时代分布式处理的已经成为潮流,而Hadoop是一种应用十分广泛的分布式处理框架。但在Hadoop的使用中,Namenode的单点失败问题一直困扰着框架的使用者。本文提出了一种利用Zookeeper对Namenode进行冗余备份协同工作的处理方法,避... 在大数据时代分布式处理的已经成为潮流,而Hadoop是一种应用十分广泛的分布式处理框架。但在Hadoop的使用中,Namenode的单点失败问题一直困扰着框架的使用者。本文提出了一种利用Zookeeper对Namenode进行冗余备份协同工作的处理方法,避免了Namenode单点失败造成的服务不可用与文件丢失问题。 展开更多
关键词 分布式系统 HADOOP HDFS namenode失败 Zookeeper
下载PDF
Hadoop集群部署实验的设计与实现 被引量:20
2
作者 孟永伟 黄建强 +1 位作者 曹腾飞 王晓英 《实验技术与管理》 CAS 北大核心 2015年第1期145-149,共5页
阐述了Hadoop软件框架中的两大核心技术——HDFS分布式文件系统架构和MapReduce分布式处理机制,设计了Hadoop集群部署实验的具体方案,主要包括实验目的、实验区域的划分、节点的规划等,并且以一组实验设备为例,详细说明了配置方法,给出... 阐述了Hadoop软件框架中的两大核心技术——HDFS分布式文件系统架构和MapReduce分布式处理机制,设计了Hadoop集群部署实验的具体方案,主要包括实验目的、实验区域的划分、节点的规划等,并且以一组实验设备为例,详细说明了配置方法,给出了实现过程。通过该实验能够让学生从理论和实践上掌握Hadoop有关的技术知识。 展开更多
关键词 HADOOP 集群部署 HDFS MAPREDUCE namenode DataNode JobTrack TaskTrack
下载PDF
浅析Hadoop 1.0与2.0设计原理 被引量:8
3
作者 尧炜 马又良 《邮电设计技术》 2014年第7期37-42,共6页
简要介绍了Hadoop发展历史及其版本演进进程;详细阐述了Hadoop 1.0中的HDFS设计理念、架构、读取/写入数据流程和MapReduce架构、任务执行流程,以及Hadoop 1.0功能不足问题;详细阐述了针对Hadoop 1.0功能不足问题,Hadoop 2.0所做的增强... 简要介绍了Hadoop发展历史及其版本演进进程;详细阐述了Hadoop 1.0中的HDFS设计理念、架构、读取/写入数据流程和MapReduce架构、任务执行流程,以及Hadoop 1.0功能不足问题;详细阐述了针对Hadoop 1.0功能不足问题,Hadoop 2.0所做的增强功能应对方案,包括NameNode HA方案、HDFS Federation方案和YARN设计原理等。 展开更多
关键词 HADOOP namenode HA HDFS FEDERATION YARN
下载PDF
Hadoop HDFS和MapReduce架构浅析 被引量:73
4
作者 郝树魁 《邮电设计技术》 2012年第7期37-42,共6页
在简述Hadoop namenode、datanode运行模式的基础上,重点介绍了Hadoop MapReduce的工作机制,并以作业提交、作业初始化、任务分配、任务执行和任务进度更新等流程介绍了Job Client、JobTracker、TaskTracker和HDFS在MapReduce过程中的... 在简述Hadoop namenode、datanode运行模式的基础上,重点介绍了Hadoop MapReduce的工作机制,并以作业提交、作业初始化、任务分配、任务执行和任务进度更新等流程介绍了Job Client、JobTracker、TaskTracker和HDFS在MapReduce过程中的分工与协作,最后,对云计算作出展望。 展开更多
关键词 HADOOP HDFS namenode datanode MAPREDUCE JobTracker TaskTracker
下载PDF
关于Hadoop中HDFS的研究 被引量:4
5
作者 刘涌 裴春梅 +1 位作者 韩伟 高震宇 《电脑知识与技术》 2018年第1期7-8,共2页
Hadoop的文件系统HDFS(Hadoop Disttributed Filesystem)是一种分布式文件系统,它利用多个商用硬件构成存储集群,利用namenode进行数据的存储控制,具有支持超大文件、存储灵活、可靠性高等特点,在面对大量数据存储的时候,能够高效地工... Hadoop的文件系统HDFS(Hadoop Disttributed Filesystem)是一种分布式文件系统,它利用多个商用硬件构成存储集群,利用namenode进行数据的存储控制,具有支持超大文件、存储灵活、可靠性高等特点,在面对大量数据存储的时候,能够高效地工作,但在处理大量小数据时、需要进行低延迟数据访问时和需要多用户访问写入时仍存在一定的不足。总之,HDFS技术在市场潜力巨大的同时,还存在很多可以改善讨论的地方,具有较高的研究价值。 展开更多
关键词 HADOOP HDFS BLOCK namenode
下载PDF
Hadoop在电信运营商经营分析系统中应用的研究 被引量:3
6
作者 潘毅 成静静 《数据通信》 2014年第6期25-28,46,共5页
随着互联网发展带来的数据爆炸,很多企业都使用分布式文件系统来搭建高性能和高扩展性的应用,存储自身海量的数据并加以分析。Hadoop就是目前比较主流的开源分布式文件系统之一,它支持海量数据存储、可扩展性强、容错性强、可以运行在... 随着互联网发展带来的数据爆炸,很多企业都使用分布式文件系统来搭建高性能和高扩展性的应用,存储自身海量的数据并加以分析。Hadoop就是目前比较主流的开源分布式文件系统之一,它支持海量数据存储、可扩展性强、容错性强、可以运行在廉价的商用机器上,是大多数企业的首选。本文通过在电信运营商经营分析系统中引入Hadoop分布式技术,改变了经分系统中小型机加关系型数据库的传统架构,解决了经分系统中海量非结构化数据分析的问题,对电信运营商实现高效率地从海量日志里挖掘出有价值的信息具有重要的意义。 展开更多
关键词 经营分析系统 HBASE Hive HDFS 主体数据仓库 数据集市 集群 namenode Datanode
下载PDF
一种多层次Hadoop平台设计
7
作者 李兆兴 马自堂 《微电子学与计算机》 CSCD 北大核心 2016年第2期27-30,共4页
大数据和大数据中心规模的进一步扩大为Hadoop平台的可扩展性提出了新的要求.在系统地分析了制约Hadoop平台性能和可扩展性因素的基础上,提出了一种多层次Hadoop平台.通过将Hadoop平台划分为若干区域,形成全局-区域-节点的多层次结构.由... 大数据和大数据中心规模的进一步扩大为Hadoop平台的可扩展性提出了新的要求.在系统地分析了制约Hadoop平台性能和可扩展性因素的基础上,提出了一种多层次Hadoop平台.通过将Hadoop平台划分为若干区域,形成全局-区域-节点的多层次结构.由Master节点负责系统级的元数据管理和任务分发,区域管理节点负责区域级的元数据管理和任务分发,从而提高Hadoop平台可扩展性和容错性.实验表明,该平台可有效提高Hadoop的可扩展性,具有一定的可行性. 展开更多
关键词 HADOOP namenode SeMNode 多层次
下载PDF
基于Ambari的Hadoop集群部署实验的设计与实现 被引量:1
8
作者 唐磊 《信息记录材料》 2017年第11期98-101,共4页
首先阐述了Hadoop分布式系统架构的基本概念及核心技术—HDFS分布式文件系统和MapReduce分布式计算框架,以及Apache Ambari分布式集群部署管理工具。设计了使用Apache Ambari快速部署Hadoop集群实验的具体方案,主要包括实验对象,实验目... 首先阐述了Hadoop分布式系统架构的基本概念及核心技术—HDFS分布式文件系统和MapReduce分布式计算框架,以及Apache Ambari分布式集群部署管理工具。设计了使用Apache Ambari快速部署Hadoop集群实验的具体方案,主要包括实验对象,实验目的,实验设备及软件,节点划分等。以具体实验为例,详细说明实验的配置方法,列出实验中出现的问题及解决方法,并给出整个过程。通过该实验能够使学生掌握Hadoop基本知识和相关技术,为后续课程的学习奠定基础。 展开更多
关键词 hmbari HADOOP DataNode namenode MAPREDUCE
下载PDF
饮水安全工程信息的元数据分级索引算法
9
作者 胡薇 蔡朝晖 +1 位作者 梁甜 涂国庆 《计算机工程与科学》 CSCD 北大核心 2014年第11期2223-2228,共6页
分析了当前饮水安全工程数据的发展趋势和主要类型,根据饮水安全工程数据的特点,提出了一种应用型的饮水安全核心元数据模型,设计了饮水安全工程核心元数据的结构和内容,将饮水安全工程核心元数据分为标识信息、数据质量信息、内容信息... 分析了当前饮水安全工程数据的发展趋势和主要类型,根据饮水安全工程数据的特点,提出了一种应用型的饮水安全核心元数据模型,设计了饮水安全工程核心元数据的结构和内容,将饮水安全工程核心元数据分为标识信息、数据质量信息、内容信息、空间参照系信息和分发信息五个部分,并且分别描述了五个部分的结构。同时,设计了符合饮水安全工程元数据的元数据分级算法,比较了元数据分级算法和目录子树分区算法以及哈希算法的实验结果。 展开更多
关键词 饮水安全工程 分布式namenode模型 元数据分级算法
下载PDF
基于Hadoop的钢铁生产大数据存储平台研究 被引量:3
10
作者 王卓 辛星 +1 位作者 尹晓 常锦才 《软件》 2016年第9期47-51,共5页
大数据平台在钢铁企业的部署对产业转型和升级有重要作用。钢铁产业大数据具有明显的实时性、动态性和不确定性等特点。为应对Hadoop分布式文件系统在处理实时工业数据流显现出的一些不足,提出了基于分布式Name Node节点的HDFS。对基于... 大数据平台在钢铁企业的部署对产业转型和升级有重要作用。钢铁产业大数据具有明显的实时性、动态性和不确定性等特点。为应对Hadoop分布式文件系统在处理实时工业数据流显现出的一些不足,提出了基于分布式Name Node节点的HDFS。对基于分布式Name Node节点的HDFS进行了总体设计,包括Top Name Node和分布式Name Node的主要功能和工作机制。分析了分布式Name Node节点的HDFS的性能优点。提出了在虚拟化资源管理平台上搭建基于Hadoop的动态可伸缩的分布式文件存储平台。将基于知识工程的方法和基于数据驱动的方法相结合,建立了一种新的混合故障诊断模型。最后对分布式钢铁生产大数据存储平台的优势进行分析。 展开更多
关键词 钢铁大数据 HDFS 分布式namenode 技术架构 故障诊断
下载PDF
基于HDFS的小文件存储技术研究
11
作者 高朝艳 鹿虹 +1 位作者 黄娟 张一 《电信技术研究》 2020年第3期10-15,共6页
大数据平台中的HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)文件系统通用性强、稳定性好,生态圈成熟。通过对HDFS文件系统的研究,在分析了海量数据文件的大小、分布、应用等特点的基础上,针对大容量的信息处理,形成了基... 大数据平台中的HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)文件系统通用性强、稳定性好,生态圈成熟。通过对HDFS文件系统的研究,在分析了海量数据文件的大小、分布、应用等特点的基础上,针对大容量的信息处理,形成了基于HDFS文件系统合并存储管理小文件的模型。在系统已经使用了HDFS的基础上,为保证技术成熟度、节约成本,在HDFS管理大文件的同时,通过合理设计文件存储大小、优化小文件信息管理等方式,在6节点的HDFS文件系统上实现了小文件写速率峰值2GB/S,读写混合时毫秒级读取文件的能力。实现了基于HDFS的海量大文件、小文件的分类存储。 展开更多
关键词 HDFS:Hadoop Distributed File System Hadoop分布式文件系统 namenode:名字节点 用来管理文件的名字空间和调节客户端访问文件的主服务器。
下载PDF
Dr. Hadoop: an infinite scalable metadata management for Hadoop How the baby elephant becomes immortal
12
作者 dipayan dev ripon patgiri 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2016年第1期15-31,共17页
In this Exa byte scale era, data increases at an exponential rate. This is in turn generating a massive amount of metadata in the file system. Hadoop is the most widely used framework to deal with big data. Due to thi... In this Exa byte scale era, data increases at an exponential rate. This is in turn generating a massive amount of metadata in the file system. Hadoop is the most widely used framework to deal with big data. Due to this growth of huge amount of metadata, however, the efficiency of Hadoop is questioned numerous times by many researchers. Therefore, it is essential to create an efficient and scalable metadata management for Hadoop.Hash-based mapping and subtree partitioning are suitable in distributed metadata management schemes. Subtree partitioning does not uniformly distribute workload among the metadata servers, and metadata needs to be migrated to keep the load roughly balanced. Hash-based mapping suffers from a constraint on the locality of metadata, though it uniformly distributes the load among Name Nodes, which are the metadata servers of Hadoop. In this paper, we present a circular metadata management mechanism named dynamic circular metadata splitting(DCMS). DCMS preserves metadata locality using consistent hashing and locality-preserving hashing, keeps replicated metadata for excellent reliability, and dynamically distributes metadata among the Name Nodes to keep load balancing. Name Node is a centralized heart of the Hadoop. Keeping the directory tree of all files, failure of which causes the single point of failure(SPOF). DCMS removes Hadoop's SPOF and provides an efficient and scalable metadata management. The new framework is named ‘Dr. Hadoop' after the name of the authors. 展开更多
关键词 Hadoop namenode Metadata Locality-preserving hashing Consistent HASHING
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部