期刊文献+
共找到4,052篇文章
< 1 2 203 >
每页显示 20 50 100
面向Hadoop分布式文件系统的小文件存取优化方法 被引量:12
1
作者 李铁 燕彩蓉 +1 位作者 黄永锋 宋亚龙 《计算机应用》 CSCD 北大核心 2014年第11期3091-3095,3099,共6页
为提高Hadoop分布式文件系统(HDFS)的小文件处理效率,提出了一种面向HDFS的智能小文件存取优化方法——SmartFS。SmartFS通过分析小文件访问日志,获取用户访问行为,建立文件关联概率模型,并根据基于文件关联关系的合并算法将小文件组装... 为提高Hadoop分布式文件系统(HDFS)的小文件处理效率,提出了一种面向HDFS的智能小文件存取优化方法——SmartFS。SmartFS通过分析小文件访问日志,获取用户访问行为,建立文件关联概率模型,并根据基于文件关联关系的合并算法将小文件组装成大文件之后存至HDFS;当从HDFS获取文件时,根据基于文件关联关系的预取算法来提高文件访问效率,并提出基于预取的缓存替换算法来管理缓存空间,从而提高文件的命中率。实验结果表明,SmartFS有效减少了HDFS中NameNode的元数据空间,减少了用户与HDFS的交互次数,提高了小文件的存储效率和访问速度。 展开更多
关键词 hadoop分布式文件系统 文件 文件关联 预取 缓存
下载PDF
Hadoop分布式文件系统的模型分析 被引量:22
2
作者 王峰 雷葆华 《电信科学》 北大核心 2010年第12期95-99,共5页
Hadoop分布式文件系统是遵循Google文件系统原理进行开发和实现的,受到了业界极大关注,并已被广泛应用。鉴于当前缺乏从系统设计理论的角度对其开展的相关研究,本文从Hadoop分布式文件系统架构的建模入手,通过对模型各组成部分进行分析... Hadoop分布式文件系统是遵循Google文件系统原理进行开发和实现的,受到了业界极大关注,并已被广泛应用。鉴于当前缺乏从系统设计理论的角度对其开展的相关研究,本文从Hadoop分布式文件系统架构的建模入手,通过对模型各组成部分进行分析,并将其与传统的分布式文件系统进行比较,总结出Hadoop分布式文件系统具有的海量、高可扩展性、高可靠性、高性能等面向云计算领域应用的重要特征。本文有助于研究者系统、深入地研究Hadoop分布式文件系统的设计与实现,并为云计算背景下的分布式文件系统设计提供重要的参考。 展开更多
关键词 hadoop分布式文件系统 系统模型 云计算
下载PDF
大数据环境下hadoop分布式文件系统分散式动态副本存储优化策略研究 被引量:6
3
作者 杨莲 郭良君 +1 位作者 马磊 王圣芳 《中国医院统计》 2019年第1期75-78,共4页
在不影响hadoop分布式文件系统分散式存储结构的前提下,结合动态副本存储和伽罗华有限域理论对范德蒙码的计算方法和计算模式进行整体优化,降低了编译码的时间代价和计算的内存压力,节约了hadoop分布式文件系统约35%的存储开销,提高了ha... 在不影响hadoop分布式文件系统分散式存储结构的前提下,结合动态副本存储和伽罗华有限域理论对范德蒙码的计算方法和计算模式进行整体优化,降低了编译码的时间代价和计算的内存压力,节约了hadoop分布式文件系统约35%的存储开销,提高了hadoop分布式文件系统节点负载均衡能力和译码恢复效率。这种算法更适合于医疗专业文书的处理,解决临床科研需求和数据供给2个方面的问题。既能节省了存储容量,可以容纳与日俱增且越发复杂化的医疗数据,又能降低硬件服务器成本,为医院节省资金开销,更能快速查询获取数据池中的有效数据,让这些躺着的数据变成活的,充分发挥他们的临床使用价值和科研价值。这一套完整的、系统的优化方案,为未来hadoop分布式文件系统的发展提供了一条有效途径。 展开更多
关键词 hadoop分布式文件系统 云存储 动态副本 策略 大数据
下载PDF
Hadoop分布式文件系统原理 被引量:3
4
作者 曹卉 《软件导刊》 2016年第3期15-17,共3页
Hadoop分布式文件系统在大规模存储和访问中具有广阔的应用空间。从基本概念、基本结构、元数据管理、数据存储、文件管理、数据容错6个方面对HDFS的实现原理进行了探究,可为HDFS应用研究奠定基础。
关键词 HDFS hadoop分布式文件系统 信息存储
下载PDF
基于Hadoop分布式文件系统的模型分析 被引量:1
5
作者 郭强 《电脑知识与技术(过刊)》 2016年第6X期229-230,233,共3页
Hadoop分布式文件系统利用Google文件系统的原理开发和设计的,并在相关的一些领域得到了应用,在学界引起了极大的关注。本文将从Hadoop分布式文件系统架构的入手,通过对模型各模块进行分析,并将其与传统的分布式文件系统进行比较,总结出... Hadoop分布式文件系统利用Google文件系统的原理开发和设计的,并在相关的一些领域得到了应用,在学界引起了极大的关注。本文将从Hadoop分布式文件系统架构的入手,通过对模型各模块进行分析,并将其与传统的分布式文件系统进行比较,总结出Hadoop分布式文件系统具有的海量、可靠性高、可扩展性、容错性能好、低成本等面向云计算领域的重要优势。Hadoop能为用户提供一个可以轻松使用的分布式计算平台,使用户可以轻松地在该平台上开发应用程序并能够处理海量数据,本文通过对布式文件系统的模型分析将有助于云计算背景下的分布式文件系统设计与开发。 展开更多
关键词 基于hadoop分布式文件系统 系统模型 云计算
下载PDF
基于Hadoop分布式文件系统的单点问题的研究 被引量:2
6
作者 宋继红 李梦楠 郝得智 《软件工程师》 2014年第12期9-10,6,共3页
从Hadoop分布式文件系统的架构出发,对Name Node节点存在的单点问题进行了分析与研究。在这个前提下,针对单点内存瓶颈问题,提出了一个小文件归并算法。此算法以Hadoop为基础,利用Hadoop分布式文件系统的特点,将归并后生成的大文件序列... 从Hadoop分布式文件系统的架构出发,对Name Node节点存在的单点问题进行了分析与研究。在这个前提下,针对单点内存瓶颈问题,提出了一个小文件归并算法。此算法以Hadoop为基础,利用Hadoop分布式文件系统的特点,将归并后生成的大文件序列化到Hadoop分布式文件系统,很好地解决了小文件过多时Name Node单点内存瓶颈问题,并提高了系统的性能和可靠性。 展开更多
关键词 hadoop 文件归并 分布式文件系统
下载PDF
基于Hadoop分布式文件系统快照技术的研究与改进
7
作者 杨彬 《电脑知识与技术》 2015年第2期74-78,共5页
任何文件系统都具有拍摄快照的能力,快照使系统管理员在系统故障的情况下进行数据恢复。HDFS(Hadoop Distributed File System)是一个流行的大型集群商用服务器的分布式文件系统,该文为HDFS提出了一个低开销的快照解决方案。该解决方... 任何文件系统都具有拍摄快照的能力,快照使系统管理员在系统故障的情况下进行数据恢复。HDFS(Hadoop Distributed File System)是一个流行的大型集群商用服务器的分布式文件系统,该文为HDFS提出了一个低开销的快照解决方案。该解决方案,避免使用复杂的分布式快照算法,采用新的快照数据结构解决了在HDFS系统中的数据拷贝和分布问题,设计了一个基于选择性的追加拷贝快照解决方案。 展开更多
关键词 HDFS 快照 选择性的追加拷贝 低开销
下载PDF
云环境下Hadoop分布式文件系统K-means算法并行处理改进 被引量:1
8
作者 杨小虎 程锦 朱苍璐 《宜宾学院学报》 2021年第12期48-52,共5页
设计一个基于Hadoop分布式文件系统的数据挖掘平台,并基于最大最小距离的思想对K-means算法进行改进.在Hadoop分布式文件系统平台上,通过MapReduce实现并行化;以Iris数据集为例,分析了该算法的数据处理效果.结果表明:与传统算法相比,并... 设计一个基于Hadoop分布式文件系统的数据挖掘平台,并基于最大最小距离的思想对K-means算法进行改进.在Hadoop分布式文件系统平台上,通过MapReduce实现并行化;以Iris数据集为例,分析了该算法的数据处理效果.结果表明:与传统算法相比,并行算法划分的样本正确度更高;单机环境下并行算法运行时间较长;面对大数据集,传统算法因内存不足无法完成数据处理任务,而并行算法则能完成计算任务;随着集群规模和数据集规模的扩大,并行算法的加速率提高,显示出良好的并行效果.实验结果验证了并行算法在大数据处理中的可靠性,为进一步提高数据挖掘效率提供了一个解决办法. 展开更多
关键词 大数据挖掘 并行处理 集群算法 hadoop平台
下载PDF
基于Hadoop分布式文件系统的商业银行大数据分析 被引量:4
9
作者 张登耀 《山东农业大学学报(自然科学版)》 CSCD 北大核心 2018年第5期884-888,共5页
针对当前Hadoop分布式文件系统数据分析时存在的数据读取时间长,数据本地化率低等问题,本文提出了一种基于Hadoop分布式文件系统的商业银行大数据分析方法。首先对Hadoop分布式文件系统的工作原理和流程进行分析,找到引起不足的原因,然... 针对当前Hadoop分布式文件系统数据分析时存在的数据读取时间长,数据本地化率低等问题,本文提出了一种基于Hadoop分布式文件系统的商业银行大数据分析方法。首先对Hadoop分布式文件系统的工作原理和流程进行分析,找到引起不足的原因,然后根据商业银行大数据的特点,对Hadoop分布式文件系统的数据副本数量和数据分布位置进行相应的改进,最后通过仿真模拟实验对数据读取速度、本地化率、磁盘负载等进行分析。结果表明,本方法可以有效减少数据读取时间、提升数据本地化率并均衡磁盘负载,整体性能要明显优于对比方法,具有更好的实际应用价值。 展开更多
关键词 hadoop文件 商业银行 大数据
下载PDF
基于Hadoop分布式文件系统的电网用户行为分析平台研究
10
作者 姜丹 李宁博 孔明 《河北电力技术》 2016年第A01期50-53,共4页
针对电网运营数据体量大、挖掘数据价值高问题,通过开发并实施用户行为分析平台,采用对基础数据的抽取、清洗、关联、转换等方法,进行用户行为的数据挖掘,从运行、用户、时间和网络等维度分析系统相关模块和流程等使用情况,反映企业运... 针对电网运营数据体量大、挖掘数据价值高问题,通过开发并实施用户行为分析平台,采用对基础数据的抽取、清洗、关联、转换等方法,进行用户行为的数据挖掘,从运行、用户、时间和网络等维度分析系统相关模块和流程等使用情况,反映企业运转存在的问题,进一步优化电网生产运行与经营管理,助力电网生产运行稳健发展。 展开更多
关键词 大数据 hadoop 用户行为分析
下载PDF
基于Hadoop分布式文件系统的分析与研究 被引量:6
11
作者 王跃 《计算机光盘软件与应用》 2011年第9期161-162,共2页
通过对HDFS(Hadoop的一个分布式文件系统)以及Map/Reduce数据驱编程模型和HBase分布式的、列存储数据库和Hive分布式数据仓库的分析。可以得到Had00p的优势在于能以批处理模式处理PB级以上的数据集,适合做离线的数据分析,不适合实... 通过对HDFS(Hadoop的一个分布式文件系统)以及Map/Reduce数据驱编程模型和HBase分布式的、列存储数据库和Hive分布式数据仓库的分析。可以得到Had00p的优势在于能以批处理模式处理PB级以上的数据集,适合做离线的数据分析,不适合实时响应需求,如股票系统。客户端是打包成JAR文件形式,运行于Hadoop命令行界面,可以定制执行策略,当数据到来的时候运行Map/Reduce程序,可以手动执行也可以定时执行。可以用Map/Reduce作为BI等海量数据分析平台的分布式数据处理引擎,HDFS作为底层存储文件系统。 展开更多
关键词 hadoop MAP/REDUCE HDFS 云计算
下载PDF
基于Hadoop分布式文件系统的模型分析 被引量:1
12
作者 花育聪 《信息通信》 2015年第12期132-133,共2页
Hadoop分布式文件系统由美国Google公司开发与实现,自从其发布以来受到了极大的关注,该文件系统被应用在各个领域行业。Hadoop分布式文件系统具有方便、健壮、可扩展性、容错性能好、操作简单、成本低廉等许多优势。
关键词 hadoop 系统模型 文件系统
下载PDF
基于Hadoop分布式文件系统的商业银行大数据分析
13
作者 张登耀 《大数据时代》 2019年第1期34-39,共6页
针对当前Hadoop分布式文件系统数据分析时存在的数据读取时间长,数据本地化率低等问题,本文提出了一种基于Hadoop分布式文件系统的商业银行大数据分析方法。首先对Hadoop分布式文件系统的工作原理和流程进行分析,找到引起不足的原因,然... 针对当前Hadoop分布式文件系统数据分析时存在的数据读取时间长,数据本地化率低等问题,本文提出了一种基于Hadoop分布式文件系统的商业银行大数据分析方法。首先对Hadoop分布式文件系统的工作原理和流程进行分析,找到引起不足的原因,然后根据商业银行大数据的特点,对Hadoop分布式文件系统的数据副本数量和数据分布位置进行相应的改进,最后通过仿真模拟实验对数据读取速度、本地化率、磁盘负载等进行分析。结果表明,本方法可以有效减少数据读取时间、提升数据本地化率并均衡磁盘负载,整体性能要明显优于对比方法,具有更好的实际应用价值。 展开更多
关键词 hadoop文件 商业银行 大数据
下载PDF
内存高效的持久性分布式文件系统客户端缓存DFS-Cache
14
作者 倪瑞轩 蔡淼 叶保留 《计算机应用》 CSCD 北大核心 2024年第4期1172-1179,共8页
为了在数据密集型工作流下有效降低缓存碎片整理开销并提高缓存命中率,提出一种持久性分布式文件系统客户端缓存DFS-Cache(Distributed File System Cache)。DFS-Cache基于非易失性内存(NVM)设计实现,能够保证数据的持久性和崩溃一致性... 为了在数据密集型工作流下有效降低缓存碎片整理开销并提高缓存命中率,提出一种持久性分布式文件系统客户端缓存DFS-Cache(Distributed File System Cache)。DFS-Cache基于非易失性内存(NVM)设计实现,能够保证数据的持久性和崩溃一致性,并大幅减少冷启动时间。DFS-Cache包括基于虚拟内存重映射的缓存碎片整理机制和基于生存时间(TTL)的缓存空间管理策略。前者基于NVM可被内存控制器直接寻址的特性,动态修改虚拟地址和物理地址之间的映射关系,实现零拷贝的内存碎片整理;后者是一种冷热分离的分组管理策略,借助重映射的缓存碎片整理机制,提升缓存空间的管理效率。实验采用真实的Intel傲腾持久性内存设备,对比商用的分布式文件系统MooseFS和GlusterFS,采用Fio和Filebench等标准测试程序,DFS-Cache最高能提升5.73倍和1.89倍的系统吞吐量。 展开更多
关键词 非易失性内存 分布式文件系统 客户端缓存 缓存碎片整理 冷热数据分组 缓存设计
下载PDF
一种基于HDFS的分布式文件系统MPIFS
15
作者 陈卓航 陈雅琴 郭志勇 《黑龙江工程学院学报》 CAS 2024年第1期9-14,共6页
传统的MPI(Message Passing Interface)计算特点是数据向计算迁移,对于数据量庞大的计算任务具有先天的不足。文中提出一种支持MPI的分布式文件系统MPIFS的架构及实现。该文件系统基于HDFS(Hadoop Distributed File System),使得MPI在MP... 传统的MPI(Message Passing Interface)计算特点是数据向计算迁移,对于数据量庞大的计算任务具有先天的不足。文中提出一种支持MPI的分布式文件系统MPIFS的架构及实现。该文件系统基于HDFS(Hadoop Distributed File System),使得MPI在MPIFS上能同时支持计算密集型和数据密集型计算,设置两个类型的批处理词频统计实验,所需数据都分布式存储在MPIFS分布式文件系统中,通过调用系统提供的统一数据接口实现数据访问。1个计算节点在本地计算大小为m的文件,n个计算节点分布式并行计算大小为n×m的文件,两者计算时间相同,MPIFS中文件总量不变,计算节点数量减少,计算时间t变长,可得出MPIFS文件系统架构可行,能够支持MPI实现计算向数据迁移的并行计算。 展开更多
关键词 MPI 分布式文件系统 分布式并行计算 计算迁移
下载PDF
基于新型存储器件的分布式文件系统性能优化 被引量:5
16
作者 董聪 张晓 +1 位作者 程文迪 石佳 《计算机应用》 CSCD 北大核心 2020年第12期3594-3603,共10页
新型存储器件的I/O性能通常比传统固态驱动器(SSD)高一个数量级,然而使用新型存储器件的分布式文件系统相对于使用SSD的分布式文件系统性能并没有显著的提高,这说明目前的分布式文件系统并不能充分发挥新型存储器件的性能。针对这个问题... 新型存储器件的I/O性能通常比传统固态驱动器(SSD)高一个数量级,然而使用新型存储器件的分布式文件系统相对于使用SSD的分布式文件系统性能并没有显著的提高,这说明目前的分布式文件系统并不能充分发挥新型存储器件的性能。针对这个问题,对Hadoop分布式文件系统(HDFS)的数据写入流程及传输过程进行了量化分析。通过量化分析HDFS数据写入过程各阶段的时间开销,发现在写入数据的各个阶段中,节点间数据传输的时间占比较大。因此提出了对应的优化方案,通过异步写入的方式并行化数据传输与处理过程,使得不同数据包的处理阶段叠加起来,减少了数据包整体的处理时间,从而提升了HDFS的写入性能。实验结果表明,所提方案将HDFS的写入吞吐量提升了15%~24%,总体的写入执行时间降低了28%~36%。 展开更多
关键词 分布式文件系统 hadoop分布式文件系统 非易失性存储器 性能优化 异步写入
下载PDF
分布式文件系统在脉冲星数据处理中的应用
17
作者 刘懿德 于徐红 刘志杰 《信息技术与信息化》 2023年第3期70-73,共4页
随着500 m口径球面射电望远镜(fi ve hundred meters aperture spherical telescope,FAST)巡天扫描的数据量不断增加,现有分布式计算集群所采用的文件存储系统逐渐成为限制计算速度的瓶颈之一。通过对计算集群架构的分析,将脉冲星数据... 随着500 m口径球面射电望远镜(fi ve hundred meters aperture spherical telescope,FAST)巡天扫描的数据量不断增加,现有分布式计算集群所采用的文件存储系统逐渐成为限制计算速度的瓶颈之一。通过对计算集群架构的分析,将脉冲星数据处理与分布式文件系统技术相结合,针对目前计算集群中存在的问题,提出使用Alluxio+HDFS的分布式文件系统代替原先使用的Lustre文件系统,并根据脉冲星数据处理计算的特点和文件系统机制重新设计了任务分配算法和计算任务。实验表明使用该存储系统能够在相同的网络环境下提高网络带宽和节点内存利用率,减少网络传输时延及冗余磁盘读写开销,提高集群脉冲星数据处理的整体计算效率。 展开更多
关键词 脉冲星数据处理 分布式文件系统 Alluxio HDFS
下载PDF
分布式文件系统Hadoop HDFS与传统文件系统Linux FS的比较与分析 被引量:18
18
作者 许春玲 张广泉 《苏州大学学报(工科版)》 CAS 2010年第4期5-9,19,共6页
对现有HDFS的设计架构进行分析,并借与LinuxFS架构的对比凸显HDFS的分布式特性。通过分析得出:现有的HDFS架构使用Java的Map界面,不利于任务的分解和并行处理,因此HDFS仅在数据的存储上实现分布式,数据处理依然是集中式的,这就形成了对N... 对现有HDFS的设计架构进行分析,并借与LinuxFS架构的对比凸显HDFS的分布式特性。通过分析得出:现有的HDFS架构使用Java的Map界面,不利于任务的分解和并行处理,因此HDFS仅在数据的存储上实现分布式,数据处理依然是集中式的,这就形成了对NameNode的依赖,随着集群的扩大,NameNode的性能成为系统瓶颈,并提出了解决方向。 展开更多
关键词 hadoop HDFS HDFS BOTTLENECK 分布式文件系统
下载PDF
分布式文件系统HDFS处理小文件的优化方案 被引量:8
19
作者 杨彬 《软件》 2014年第6期65-69,共5页
Hadoop分布式文件系统(HDFS)是为可靠地存储和管理海量文件而设计。在HDFS中,所有的文件由单一的服务器NameNode来管理。因此,随着小文件数量的增加,会使HDFS系统性能下降。为了提高存储和访问HDFS上小文件的效率,本文提出了一个解决方... Hadoop分布式文件系统(HDFS)是为可靠地存储和管理海量文件而设计。在HDFS中,所有的文件由单一的服务器NameNode来管理。因此,随着小文件数量的增加,会使HDFS系统性能下降。为了提高存储和访问HDFS上小文件的效率,本文提出了一个解决方案,即:扩展的Hadoop分布式文件系统(EHDFS)。这种方法把一组相关文件组合成一个大文件来减少文件的数量,然后建立一种索引机制,从这个组合文件中识别并访问客户所要的单个文件。实验结果表明EHDFS提高了存储和访问大量小文件的效率。 展开更多
关键词 hadoop分布式文件系统(HDFS) 文件 扩展的HDFS(EHDFS)
下载PDF
分布式嵌入式文件系统的设计
20
作者 张鹏 任晓瑞 +2 位作者 杨琼 王冬 胡宁 《航空计算技术》 2023年第6期100-104,共5页
针对当前航空电子分布式嵌入式计算机目前采用NFSV3协议网络文件系统,存在单点故障、服务器性能瓶颈,以及嵌入式环境各种资源受限等约束等问题,提出了基于集群架构的分布式嵌入式文件系统方案。总体架构定义了客户端-元数据服务器-数据... 针对当前航空电子分布式嵌入式计算机目前采用NFSV3协议网络文件系统,存在单点故障、服务器性能瓶颈,以及嵌入式环境各种资源受限等约束等问题,提出了基于集群架构的分布式嵌入式文件系统方案。总体架构定义了客户端-元数据服务器-数据服务器分布式文件管理集群架构,透明访问设计采用了精简三级统一路径名和文件服务接口子集;分布式通信设计采用了基于DDS的RPC服务框架,分块及布局管理设计采用表驱动的动态分配方式实现了文件的分块和多副本管理,元数据服务器容错设计采用HA高可用主从数据库方式实现主从元数据服务器状态的实时同步。最后通过搭建分布式嵌入式计算机测试环境,验证了原型系统的功能和性能。 展开更多
关键词 嵌入式 分布式文件系统 RPC 布局管理 容错管理
下载PDF
上一页 1 2 203 下一页 到第
使用帮助 返回顶部