期刊文献+
共找到4,080篇文章
< 1 2 204 >
每页显示 20 50 100
基于Hadoop分布式文件系统的模型分析 被引量:1
1
作者 郭强 《电脑知识与技术(过刊)》 2016年第6X期229-230,233,共3页
Hadoop分布式文件系统利用Google文件系统的原理开发和设计的,并在相关的一些领域得到了应用,在学界引起了极大的关注。本文将从Hadoop分布式文件系统架构的入手,通过对模型各模块进行分析,并将其与传统的分布式文件系统进行比较,总结出... Hadoop分布式文件系统利用Google文件系统的原理开发和设计的,并在相关的一些领域得到了应用,在学界引起了极大的关注。本文将从Hadoop分布式文件系统架构的入手,通过对模型各模块进行分析,并将其与传统的分布式文件系统进行比较,总结出Hadoop分布式文件系统具有的海量、可靠性高、可扩展性、容错性能好、低成本等面向云计算领域的重要优势。Hadoop能为用户提供一个可以轻松使用的分布式计算平台,使用户可以轻松地在该平台上开发应用程序并能够处理海量数据,本文通过对布式文件系统的模型分析将有助于云计算背景下的分布式文件系统设计与开发。 展开更多
关键词 基于hadoop分布式文件系统 系统模型 云计算
下载PDF
基于Hadoop分布式文件系统的单点问题的研究 被引量:2
2
作者 宋继红 李梦楠 郝得智 《软件工程师》 2014年第12期9-10,6,共3页
从Hadoop分布式文件系统的架构出发,对Name Node节点存在的单点问题进行了分析与研究。在这个前提下,针对单点内存瓶颈问题,提出了一个小文件归并算法。此算法以Hadoop为基础,利用Hadoop分布式文件系统的特点,将归并后生成的大文件序列... 从Hadoop分布式文件系统的架构出发,对Name Node节点存在的单点问题进行了分析与研究。在这个前提下,针对单点内存瓶颈问题,提出了一个小文件归并算法。此算法以Hadoop为基础,利用Hadoop分布式文件系统的特点,将归并后生成的大文件序列化到Hadoop分布式文件系统,很好地解决了小文件过多时Name Node单点内存瓶颈问题,并提高了系统的性能和可靠性。 展开更多
关键词 hadoop 文件归并 分布式文件系统
下载PDF
基于Hadoop分布式文件系统快照技术的研究与改进
3
作者 杨彬 《电脑知识与技术》 2015年第2期74-78,共5页
任何文件系统都具有拍摄快照的能力,快照使系统管理员在系统故障的情况下进行数据恢复。HDFS(Hadoop Distributed File System)是一个流行的大型集群商用服务器的分布式文件系统,该文为HDFS提出了一个低开销的快照解决方案。该解决方... 任何文件系统都具有拍摄快照的能力,快照使系统管理员在系统故障的情况下进行数据恢复。HDFS(Hadoop Distributed File System)是一个流行的大型集群商用服务器的分布式文件系统,该文为HDFS提出了一个低开销的快照解决方案。该解决方案,避免使用复杂的分布式快照算法,采用新的快照数据结构解决了在HDFS系统中的数据拷贝和分布问题,设计了一个基于选择性的追加拷贝快照解决方案。 展开更多
关键词 HDFS 快照 选择性的追加拷贝 低开销
下载PDF
基于Hadoop分布式文件系统的商业银行大数据分析 被引量:4
4
作者 张登耀 《山东农业大学学报(自然科学版)》 CSCD 北大核心 2018年第5期884-888,共5页
针对当前Hadoop分布式文件系统数据分析时存在的数据读取时间长,数据本地化率低等问题,本文提出了一种基于Hadoop分布式文件系统的商业银行大数据分析方法。首先对Hadoop分布式文件系统的工作原理和流程进行分析,找到引起不足的原因,然... 针对当前Hadoop分布式文件系统数据分析时存在的数据读取时间长,数据本地化率低等问题,本文提出了一种基于Hadoop分布式文件系统的商业银行大数据分析方法。首先对Hadoop分布式文件系统的工作原理和流程进行分析,找到引起不足的原因,然后根据商业银行大数据的特点,对Hadoop分布式文件系统的数据副本数量和数据分布位置进行相应的改进,最后通过仿真模拟实验对数据读取速度、本地化率、磁盘负载等进行分析。结果表明,本方法可以有效减少数据读取时间、提升数据本地化率并均衡磁盘负载,整体性能要明显优于对比方法,具有更好的实际应用价值。 展开更多
关键词 hadoop文件 商业银行 大数据
下载PDF
基于Hadoop分布式文件系统的电网用户行为分析平台研究
5
作者 姜丹 李宁博 孔明 《河北电力技术》 2016年第A01期50-53,共4页
针对电网运营数据体量大、挖掘数据价值高问题,通过开发并实施用户行为分析平台,采用对基础数据的抽取、清洗、关联、转换等方法,进行用户行为的数据挖掘,从运行、用户、时间和网络等维度分析系统相关模块和流程等使用情况,反映企业运... 针对电网运营数据体量大、挖掘数据价值高问题,通过开发并实施用户行为分析平台,采用对基础数据的抽取、清洗、关联、转换等方法,进行用户行为的数据挖掘,从运行、用户、时间和网络等维度分析系统相关模块和流程等使用情况,反映企业运转存在的问题,进一步优化电网生产运行与经营管理,助力电网生产运行稳健发展。 展开更多
关键词 大数据 hadoop 用户行为分析
下载PDF
基于Hadoop分布式文件系统的分析与研究 被引量:6
6
作者 王跃 《计算机光盘软件与应用》 2011年第9期161-162,共2页
通过对HDFS(Hadoop的一个分布式文件系统)以及Map/Reduce数据驱编程模型和HBase分布式的、列存储数据库和Hive分布式数据仓库的分析。可以得到Had00p的优势在于能以批处理模式处理PB级以上的数据集,适合做离线的数据分析,不适合实... 通过对HDFS(Hadoop的一个分布式文件系统)以及Map/Reduce数据驱编程模型和HBase分布式的、列存储数据库和Hive分布式数据仓库的分析。可以得到Had00p的优势在于能以批处理模式处理PB级以上的数据集,适合做离线的数据分析,不适合实时响应需求,如股票系统。客户端是打包成JAR文件形式,运行于Hadoop命令行界面,可以定制执行策略,当数据到来的时候运行Map/Reduce程序,可以手动执行也可以定时执行。可以用Map/Reduce作为BI等海量数据分析平台的分布式数据处理引擎,HDFS作为底层存储文件系统。 展开更多
关键词 hadoop MAP/REDUCE HDFS 云计算
下载PDF
基于Hadoop分布式文件系统的模型分析 被引量:1
7
作者 花育聪 《信息通信》 2015年第12期132-133,共2页
Hadoop分布式文件系统由美国Google公司开发与实现,自从其发布以来受到了极大的关注,该文件系统被应用在各个领域行业。Hadoop分布式文件系统具有方便、健壮、可扩展性、容错性能好、操作简单、成本低廉等许多优势。
关键词 hadoop 系统模型 文件系统
下载PDF
基于Hadoop分布式文件系统的商业银行大数据分析
8
作者 张登耀 《大数据时代》 2019年第1期34-39,共6页
针对当前Hadoop分布式文件系统数据分析时存在的数据读取时间长,数据本地化率低等问题,本文提出了一种基于Hadoop分布式文件系统的商业银行大数据分析方法。首先对Hadoop分布式文件系统的工作原理和流程进行分析,找到引起不足的原因,然... 针对当前Hadoop分布式文件系统数据分析时存在的数据读取时间长,数据本地化率低等问题,本文提出了一种基于Hadoop分布式文件系统的商业银行大数据分析方法。首先对Hadoop分布式文件系统的工作原理和流程进行分析,找到引起不足的原因,然后根据商业银行大数据的特点,对Hadoop分布式文件系统的数据副本数量和数据分布位置进行相应的改进,最后通过仿真模拟实验对数据读取速度、本地化率、磁盘负载等进行分析。结果表明,本方法可以有效减少数据读取时间、提升数据本地化率并均衡磁盘负载,整体性能要明显优于对比方法,具有更好的实际应用价值。 展开更多
关键词 hadoop文件 商业银行 大数据
下载PDF
分布式文件系统数据读取方法研究与探讨
9
作者 陈佳 张冰 朱志宇 《福建电脑》 2024年第12期63-65,共3页
分布式文件系统中,客户端频繁访问数据节点会导致网络开销增大。为减少客户端对地址节点的访问次数,提升数据读取效率,本文提出一种基于D-S证据理论的数据读取方法。利用D-S证据理论进行不确定信息预测,来获得下一次需访问的数据节点地... 分布式文件系统中,客户端频繁访问数据节点会导致网络开销增大。为减少客户端对地址节点的访问次数,提升数据读取效率,本文提出一种基于D-S证据理论的数据读取方法。利用D-S证据理论进行不确定信息预测,来获得下一次需访问的数据节点地址。实验结果为:初期预测准确率较低,但随着读取次数增加,预测准确率显著提升,读取时间大幅减少,最终接近本地数据读取速度。 展开更多
关键词 D-S证据理论 分布式文件系统 数据读取
下载PDF
内存高效的持久性分布式文件系统客户端缓存DFS-Cache 被引量:1
10
作者 倪瑞轩 蔡淼 叶保留 《计算机应用》 CSCD 北大核心 2024年第4期1172-1179,共8页
为了在数据密集型工作流下有效降低缓存碎片整理开销并提高缓存命中率,提出一种持久性分布式文件系统客户端缓存DFS-Cache(Distributed File System Cache)。DFS-Cache基于非易失性内存(NVM)设计实现,能够保证数据的持久性和崩溃一致性... 为了在数据密集型工作流下有效降低缓存碎片整理开销并提高缓存命中率,提出一种持久性分布式文件系统客户端缓存DFS-Cache(Distributed File System Cache)。DFS-Cache基于非易失性内存(NVM)设计实现,能够保证数据的持久性和崩溃一致性,并大幅减少冷启动时间。DFS-Cache包括基于虚拟内存重映射的缓存碎片整理机制和基于生存时间(TTL)的缓存空间管理策略。前者基于NVM可被内存控制器直接寻址的特性,动态修改虚拟地址和物理地址之间的映射关系,实现零拷贝的内存碎片整理;后者是一种冷热分离的分组管理策略,借助重映射的缓存碎片整理机制,提升缓存空间的管理效率。实验采用真实的Intel傲腾持久性内存设备,对比商用的分布式文件系统MooseFS和GlusterFS,采用Fio和Filebench等标准测试程序,DFS-Cache最高能提升5.73倍和1.89倍的系统吞吐量。 展开更多
关键词 非易失性内存 分布式文件系统 客户端缓存 缓存碎片整理 冷热数据分组 缓存设计
下载PDF
一种基于HDFS的分布式文件系统MPIFS 被引量:4
11
作者 陈卓航 陈雅琴 郭志勇 《黑龙江工程学院学报》 CAS 2024年第1期9-14,共6页
传统的MPI(Message Passing Interface)计算特点是数据向计算迁移,对于数据量庞大的计算任务具有先天的不足。文中提出一种支持MPI的分布式文件系统MPIFS的架构及实现。该文件系统基于HDFS(Hadoop Distributed File System),使得MPI在MP... 传统的MPI(Message Passing Interface)计算特点是数据向计算迁移,对于数据量庞大的计算任务具有先天的不足。文中提出一种支持MPI的分布式文件系统MPIFS的架构及实现。该文件系统基于HDFS(Hadoop Distributed File System),使得MPI在MPIFS上能同时支持计算密集型和数据密集型计算,设置两个类型的批处理词频统计实验,所需数据都分布式存储在MPIFS分布式文件系统中,通过调用系统提供的统一数据接口实现数据访问。1个计算节点在本地计算大小为m的文件,n个计算节点分布式并行计算大小为n×m的文件,两者计算时间相同,MPIFS中文件总量不变,计算节点数量减少,计算时间t变长,可得出MPIFS文件系统架构可行,能够支持MPI实现计算向数据迁移的并行计算。 展开更多
关键词 MPI 分布式文件系统 分布式并行计算 计算迁移
下载PDF
面向Hadoop分布式文件系统的小文件存取优化方法 被引量:12
12
作者 李铁 燕彩蓉 +1 位作者 黄永锋 宋亚龙 《计算机应用》 CSCD 北大核心 2014年第11期3091-3095,3099,共6页
为提高Hadoop分布式文件系统(HDFS)的小文件处理效率,提出了一种面向HDFS的智能小文件存取优化方法——SmartFS。SmartFS通过分析小文件访问日志,获取用户访问行为,建立文件关联概率模型,并根据基于文件关联关系的合并算法将小文件组装... 为提高Hadoop分布式文件系统(HDFS)的小文件处理效率,提出了一种面向HDFS的智能小文件存取优化方法——SmartFS。SmartFS通过分析小文件访问日志,获取用户访问行为,建立文件关联概率模型,并根据基于文件关联关系的合并算法将小文件组装成大文件之后存至HDFS;当从HDFS获取文件时,根据基于文件关联关系的预取算法来提高文件访问效率,并提出基于预取的缓存替换算法来管理缓存空间,从而提高文件的命中率。实验结果表明,SmartFS有效减少了HDFS中NameNode的元数据空间,减少了用户与HDFS的交互次数,提高了小文件的存储效率和访问速度。 展开更多
关键词 hadoop分布式文件系统 文件 文件关联 预取 缓存
下载PDF
Hadoop分布式文件系统的模型分析 被引量:22
13
作者 王峰 雷葆华 《电信科学》 北大核心 2010年第12期95-99,共5页
Hadoop分布式文件系统是遵循Google文件系统原理进行开发和实现的,受到了业界极大关注,并已被广泛应用。鉴于当前缺乏从系统设计理论的角度对其开展的相关研究,本文从Hadoop分布式文件系统架构的建模入手,通过对模型各组成部分进行分析... Hadoop分布式文件系统是遵循Google文件系统原理进行开发和实现的,受到了业界极大关注,并已被广泛应用。鉴于当前缺乏从系统设计理论的角度对其开展的相关研究,本文从Hadoop分布式文件系统架构的建模入手,通过对模型各组成部分进行分析,并将其与传统的分布式文件系统进行比较,总结出Hadoop分布式文件系统具有的海量、高可扩展性、高可靠性、高性能等面向云计算领域应用的重要特征。本文有助于研究者系统、深入地研究Hadoop分布式文件系统的设计与实现,并为云计算背景下的分布式文件系统设计提供重要的参考。 展开更多
关键词 hadoop分布式文件系统 系统模型 云计算
下载PDF
分布式文件系统Hadoop HDFS与传统文件系统Linux FS的比较与分析 被引量:19
14
作者 许春玲 张广泉 《苏州大学学报(工科版)》 CAS 2010年第4期5-9,19,共6页
对现有HDFS的设计架构进行分析,并借与LinuxFS架构的对比凸显HDFS的分布式特性。通过分析得出:现有的HDFS架构使用Java的Map界面,不利于任务的分解和并行处理,因此HDFS仅在数据的存储上实现分布式,数据处理依然是集中式的,这就形成了对N... 对现有HDFS的设计架构进行分析,并借与LinuxFS架构的对比凸显HDFS的分布式特性。通过分析得出:现有的HDFS架构使用Java的Map界面,不利于任务的分解和并行处理,因此HDFS仅在数据的存储上实现分布式,数据处理依然是集中式的,这就形成了对NameNode的依赖,随着集群的扩大,NameNode的性能成为系统瓶颈,并提出了解决方向。 展开更多
关键词 hadoop HDFS HDFS BOTTLENECK 分布式文件系统
下载PDF
大数据环境下hadoop分布式文件系统分散式动态副本存储优化策略研究 被引量:7
15
作者 杨莲 郭良君 +1 位作者 马磊 王圣芳 《中国医院统计》 2019年第1期75-78,共4页
在不影响hadoop分布式文件系统分散式存储结构的前提下,结合动态副本存储和伽罗华有限域理论对范德蒙码的计算方法和计算模式进行整体优化,降低了编译码的时间代价和计算的内存压力,节约了hadoop分布式文件系统约35%的存储开销,提高了ha... 在不影响hadoop分布式文件系统分散式存储结构的前提下,结合动态副本存储和伽罗华有限域理论对范德蒙码的计算方法和计算模式进行整体优化,降低了编译码的时间代价和计算的内存压力,节约了hadoop分布式文件系统约35%的存储开销,提高了hadoop分布式文件系统节点负载均衡能力和译码恢复效率。这种算法更适合于医疗专业文书的处理,解决临床科研需求和数据供给2个方面的问题。既能节省了存储容量,可以容纳与日俱增且越发复杂化的医疗数据,又能降低硬件服务器成本,为医院节省资金开销,更能快速查询获取数据池中的有效数据,让这些躺着的数据变成活的,充分发挥他们的临床使用价值和科研价值。这一套完整的、系统的优化方案,为未来hadoop分布式文件系统的发展提供了一条有效途径。 展开更多
关键词 hadoop分布式文件系统 云存储 动态副本 策略 大数据
下载PDF
Hadoop分布式文件系统原理 被引量:3
16
作者 曹卉 《软件导刊》 2016年第3期15-17,共3页
Hadoop分布式文件系统在大规模存储和访问中具有广阔的应用空间。从基本概念、基本结构、元数据管理、数据存储、文件管理、数据容错6个方面对HDFS的实现原理进行了探究,可为HDFS应用研究奠定基础。
关键词 HDFS hadoop分布式文件系统 信息存储
下载PDF
基于新型存储器件的分布式文件系统性能优化 被引量:6
17
作者 董聪 张晓 +1 位作者 程文迪 石佳 《计算机应用》 CSCD 北大核心 2020年第12期3594-3603,共10页
新型存储器件的I/O性能通常比传统固态驱动器(SSD)高一个数量级,然而使用新型存储器件的分布式文件系统相对于使用SSD的分布式文件系统性能并没有显著的提高,这说明目前的分布式文件系统并不能充分发挥新型存储器件的性能。针对这个问题... 新型存储器件的I/O性能通常比传统固态驱动器(SSD)高一个数量级,然而使用新型存储器件的分布式文件系统相对于使用SSD的分布式文件系统性能并没有显著的提高,这说明目前的分布式文件系统并不能充分发挥新型存储器件的性能。针对这个问题,对Hadoop分布式文件系统(HDFS)的数据写入流程及传输过程进行了量化分析。通过量化分析HDFS数据写入过程各阶段的时间开销,发现在写入数据的各个阶段中,节点间数据传输的时间占比较大。因此提出了对应的优化方案,通过异步写入的方式并行化数据传输与处理过程,使得不同数据包的处理阶段叠加起来,减少了数据包整体的处理时间,从而提升了HDFS的写入性能。实验结果表明,所提方案将HDFS的写入吞吐量提升了15%~24%,总体的写入执行时间降低了28%~36%。 展开更多
关键词 分布式文件系统 hadoop分布式文件系统 非易失性存储器 性能优化 异步写入
下载PDF
基于分布式文件系统HDFS的节能算法 被引量:58
18
作者 廖彬 于炯 +1 位作者 张陶 杨兴耀 《计算机学报》 EI CSCD 北大核心 2013年第5期1047-1064,共18页
与传统数据中心节能算法不同,MapReduce计算任务的数据依赖性使得设计HDFS(Hadoop Distributed File System)节能算法时必须保证集群中所有数据块的可用性,即任意数据块或其副本中的至少一块处于活动状态.根据HDFS集群结构与数据块存储... 与传统数据中心节能算法不同,MapReduce计算任务的数据依赖性使得设计HDFS(Hadoop Distributed File System)节能算法时必须保证集群中所有数据块的可用性,即任意数据块或其副本中的至少一块处于活动状态.根据HDFS集群结构与数据块存储等特点建立了DataNode节点矩阵、节点状态矩阵、文件分块矩阵、数据块存储矩阵与数据块状态矩阵,为后续研究建立了基础模型.结合数据块状态矩阵与数据块可用性之间的关系设计了DataNode节点休眠验证算法.概率分析了由于机架感知的存储策略带来数据块分布的随机性,使得在不改变数据块存储结构与存储策略的情况下并不能通过休眠DataNode节点达到节能的目的.进而设计了数据块存储结构配置节能算法与基于对称数据块存储策略下的节能算法,分别从改变数据块的存储结构与存储策略两方面对HDFS进行节能改进.实验结果表明:两种节能算法都能解决HDFS集群的能耗低利用率问题,并且集群负载越低节能效率越高. 展开更多
关键词 云计算 分布式文件系统 节能计算 副本策略 绿色计算
下载PDF
基于P2P的分布式文件系统下载效率优化 被引量:2
19
作者 廖彬 于炯 +1 位作者 张陶 杨兴耀 《计算机应用》 CSCD 北大核心 2011年第9期2317-2320,2328,共5页
对分布式文件系统(HDFS)集群内部数据块存储机制与下载流程进行分析研究,结合P2P多点与多线程下载思想,从数据块、文件、集群三个方面提出了数据下载效率优化算法。考虑到集群内部可能因多线程下载出现的负载均衡问题,提出下载点选择算... 对分布式文件系统(HDFS)集群内部数据块存储机制与下载流程进行分析研究,结合P2P多点与多线程下载思想,从数据块、文件、集群三个方面提出了数据下载效率优化算法。考虑到集群内部可能因多线程下载出现的负载均衡问题,提出下载点选择算法以优化下载点的选择。实验结果表明,三种优化算法都能提高下载效率,下载点选择算法能够很好地实现集群内部DataNode负载均衡。 展开更多
关键词 云计算 分布式文件系统 对等网 并行下载 负载均衡
下载PDF
面向大数据分析的分布式文件系统关键技术 被引量:75
20
作者 周江 王伟平 +3 位作者 孟丹 马灿 古晓艳 蒋杰 《计算机研究与发展》 EI CSCD 北大核心 2014年第2期382-394,共13页
大数据时代的来临使数据分析和处理能力成为数据中心和互联网公司日益倚重的技术手段.信息规模的扩大和数据结构的多样化,使海量数据存储成为大数据分析研究的热点.传统的分布式文件系统在扩展性、可靠性和数据访问性能等方面难以满... 大数据时代的来临使数据分析和处理能力成为数据中心和互联网公司日益倚重的技术手段.信息规模的扩大和数据结构的多样化,使海量数据存储成为大数据分析研究的热点.传统的分布式文件系统在扩展性、可靠性和数据访问性能等方面难以满足新形势下的需求.设计并实现了一个面向大数据分析、专为大规模集群应用的分布式文件系统Clover.该系统采用基于目录划分和一致性Hash映射的名字空间管理方法,解决了元数据扩展性问题;通过改进的两阶段提交协议,保证了多元数据服务器下分布式元数据操作的一致性;提出了基于共享存储池的高可用机制,通过热备和全局状态恢复机制提高了元数据的可靠性.评测结果表明,Clover的元数据处理能力随服务器的数量线性增长,增加单个服务器的元数据操作性能平均提升了5.13%~159.32%.由于名字空间管理和分布式事务的开销,多元数据服务器会导致复杂操作的性能下降,但是这种下降的幅度很小(小于10%).与HDFS相比,Clover的文件读写带宽与之接近,并能够保证在元数据服务器失效后文件系统快速恢复,适合于构建高可扩展和高可用的存储系统. 展开更多
关键词 大数据 海量数据存储 分布式文件系统 元数据可扩展性 高可用性
下载PDF
上一页 1 2 204 下一页 到第
使用帮助 返回顶部