期刊文献+
共找到183篇文章
< 1 2 10 >
每页显示 20 50 100
iHDFS: A Distributed File System Supporting Incremental Computing
1
作者 Zhenhua Wang Qingsong Ding +2 位作者 Fuxiang Gao Derong Shen Ge Yu 《国际计算机前沿大会会议论文集》 2015年第1期44-45,共2页
Big data are always processed repeatedly with small changes, which is a major form of big data processing. The feature of incremental change of big data shows that incremental computing mode can improve the performanc... Big data are always processed repeatedly with small changes, which is a major form of big data processing. The feature of incremental change of big data shows that incremental computing mode can improve the performance greatly. HDFS is a distributed file system on Hadoop which is the most popular platform for big data analytics. And HDFS adopts fixed-size chunking policy, which is inefficient facing incremental computing. Therefore, in this paper, we proposed iHDFS (incremental HDFS), a distributed file system, which can provide basic guarantee for big data parallel processing. The iHDFS is implemented as an extension to HDFS. In iHDFS, Rabin fingerprint algorithm is applied to achieve content defined chunking. This policy make data chunking has much higher stability, and the intermediate processing results can be reused efficiently, so the performance of incremental data processing can be improved significantly. The effectiveness and efficiency of iHDFS have been demonstrated by the experimental results. 展开更多
关键词 INCREMENTAL COMPUTING distributed file system BIG data hdfs
下载PDF
Efficient File Accessing Techniques on Hadoop Distributed File Systems
2
作者 Wei Qu Siyao Cheng Hongzhi Wang 《国际计算机前沿大会会议论文集》 2016年第1期88-90,共3页
Hadoop framework emerged at the right moment when traditional tools were powerless in terms of handling big data. Hadoop Distributed File System (HDFS) which serves as a highly fault-tolerance distributed file system ... Hadoop framework emerged at the right moment when traditional tools were powerless in terms of handling big data. Hadoop Distributed File System (HDFS) which serves as a highly fault-tolerance distributed file system in Hadoop, can improve the throughput of data access effectively. It is very suitable for the application of handling large amounts of datasets. However, Hadoop has the disadvantage that the memory usage rate in NameNode is so high when processing large amounts of small files that it has become the limit of the whole system. In this paper, we propose an approach to optimize the performance of HDFS with small files. The basic idea is to merge small files into a large one whose size is suitable for a block. Furthermore, indexes are built to meet the requirements for fast access to all files in HDFS. Preliminary experiment results show that our approach achieves better performance. 展开更多
关键词 hdfs hadoop INDEX SMALL fileS
下载PDF
分布式文件系统Hadoop HDFS与传统文件系统Linux FS的比较与分析 被引量:19
3
作者 许春玲 张广泉 《苏州大学学报(工科版)》 CAS 2010年第4期5-9,19,共6页
对现有HDFS的设计架构进行分析,并借与LinuxFS架构的对比凸显HDFS的分布式特性。通过分析得出:现有的HDFS架构使用Java的Map界面,不利于任务的分解和并行处理,因此HDFS仅在数据的存储上实现分布式,数据处理依然是集中式的,这就形成了对N... 对现有HDFS的设计架构进行分析,并借与LinuxFS架构的对比凸显HDFS的分布式特性。通过分析得出:现有的HDFS架构使用Java的Map界面,不利于任务的分解和并行处理,因此HDFS仅在数据的存储上实现分布式,数据处理依然是集中式的,这就形成了对NameNode的依赖,随着集群的扩大,NameNode的性能成为系统瓶颈,并提出了解决方向。 展开更多
关键词 hadoop hdfs hdfs BOTTLENECK 分布式文件系统
下载PDF
HDFS分级存储系统元数据管理方法的研究 被引量:7
4
作者 刘晓宇 夏立斌 +1 位作者 姜晓巍 孙功星 《计算机工程与应用》 CSCD 北大核心 2023年第17期257-265,共9页
随着高能物理实验规模的不断扩大和实验复杂度的提高,研究人员正面临海量数据存储的挑战,考虑到成本、能耗、存储周期及运维管理等问题,具有存储容量大、成本低特点的磁带库成为高能物理领域海量存储系统中必不可少的选择。但HDFS现有... 随着高能物理实验规模的不断扩大和实验复杂度的提高,研究人员正面临海量数据存储的挑战,考虑到成本、能耗、存储周期及运维管理等问题,具有存储容量大、成本低特点的磁带库成为高能物理领域海量存储系统中必不可少的选择。但HDFS现有异构存储研究不支持磁带库存储,无法满足高能物理Hadoop平台海量实验数据持久化和备份过程对于存储系统高性价比的需求。针对上述问题,为了构建支持磁盘-磁带存储的HDFS分级存储系统,使磁带层文件在HDFS中无缝融合,为用户提供统一的文件系统命名空间,调研了分布式文件系统元数据管理方法,在此基础上设计实现了HDFS分级存储系统中统一的元数据管理方法。该方法通过重新设计内存文件元数据结构,构建分级存储系统统一的内存目录树并实现其访问管理和可靠性保障,完成分级存储系统中不同层级文件元数据的集中统一管理。测试结果表明,该方法实现了分级存储系统异构资源上文件元数据的统一管理,提供了高效的元数据操作。基于该方法构建的分级存储系统可靠性高,在对不同规模大小的文件读写时,其读写吞吐量较优于高能物理领域传统分级存储系统EOSCTA。 展开更多
关键词 hdfs分布式文件系统 分级存储系统 内存元数据管理 统一命名空间 持久化
下载PDF
基于HDFS科技媒资管理系统研究
5
作者 邹伟 陈宫晴 +1 位作者 李善君 张贝贝 《电脑与信息技术》 2023年第3期98-100,共3页
随着科技和信息化的飞速发展,科技行业积累大量的视频、音频和图片等资料,这些科技媒资资源原始素材对科技行业具有很高的价值,如何保证这些资源安全,使这些资源潜力得到最大限度释放,为科技工作和科技宣传等提供更为高效的资源服务,文... 随着科技和信息化的飞速发展,科技行业积累大量的视频、音频和图片等资料,这些科技媒资资源原始素材对科技行业具有很高的价值,如何保证这些资源安全,使这些资源潜力得到最大限度释放,为科技工作和科技宣传等提供更为高效的资源服务,文章基于底层采用HDFS分布式文件存储系统,以科技媒资管理库为应用基础,为科技服务上层应用提供了支撑。 展开更多
关键词 hdfs 媒资管理库 分布式文件存储系统
下载PDF
基于HDFS架构的医院信息系统设计
6
作者 魏倩茹 《信息与电脑》 2023年第4期133-135,共3页
为了提高医院信息的传输速度,改善信息处理能力,解决数据繁杂利用率低的问题,拟设计一种基于分布式文件系统(Hadoop Distributed File System,HDFS)架构的医院信息系统。先介绍系统的整体架构,并结合医院情况设计各子系统,再通过遗传算... 为了提高医院信息的传输速度,改善信息处理能力,解决数据繁杂利用率低的问题,拟设计一种基于分布式文件系统(Hadoop Distributed File System,HDFS)架构的医院信息系统。先介绍系统的整体架构,并结合医院情况设计各子系统,再通过遗传算法对数据信息进行处理,以实验形式验证系统效果。测试结果表明,本系统具有良好的信息处理能力,既提高了医疗水平和服务质量,又实现了医院信息系统的规范化和有效化,对医院发展具有较大的促进作用。 展开更多
关键词 分布式文件系统(hdfs) 医院信息系统 遗传算法 信息传输
下载PDF
基于Hadoop平台的分布式文件云存储系统设计
7
作者 袁宏涛 《软件》 2024年第6期172-174,共3页
数据量的激增促进了分布式文件系统的迅速发展,Hadoop作为一个开源框架,以其高效的数据存储与处理能力在分布式系统中占据重要地位。通过Hadoop Distributed File System(HDFS)实现大规模数据集的分布式存储,YARN为资源管理提供了弹性调... 数据量的激增促进了分布式文件系统的迅速发展,Hadoop作为一个开源框架,以其高效的数据存储与处理能力在分布式系统中占据重要地位。通过Hadoop Distributed File System(HDFS)实现大规模数据集的分布式存储,YARN为资源管理提供了弹性调度,使得Hadoop成为处理大数据问题的理想平台。本文探讨了基于Hadoop平台的分布式文件云存储系统设计,旨在提供一种高效可靠的分布式文件云存储解决方案,以支持大数据时代下的数据存储与处理需求。 展开更多
关键词 hadoop平台 分布式文件云存储系统 系统设计
下载PDF
A Strategy for Small Files Processing in HDFS
8
作者 Zhenshan Bao Shikun Xu +2 位作者 Wenbo Zhang Juncheng Chen Jianli Liu 《国际计算机前沿大会会议论文集》 2016年第1期30-32,共3页
Hadoop distributed file system (HDFS) as a popular cloud storage platform, benefiting from its scalable, reliable and low-cost storage capability.However it is mainly designed for batch processing of large files, it’... Hadoop distributed file system (HDFS) as a popular cloud storage platform, benefiting from its scalable, reliable and low-cost storage capability.However it is mainly designed for batch processing of large files, it’s mean that small files cannot be efficiently handled by HDFS. In this paper, we propose a mechanism to store small files in HDFS. In our approach, file size need to be judged before uploading to HDFS. If the file size is less than the size of the block, all correlated small files will be merged into one single file and we will build index for each small file. Furthermore, prefetching and caching mechanism are used to improve the reading efficiency of small files. Meanwhile, for the new small files, we can execute appending operation on the basis of merged file. Contrasting to original HDFS, experimental results show that the storage efficiency of small files is improved. 展开更多
关键词 hadoop hdfs SMALL file file MERGING PREFETCHING and CACHING Appending operation
下载PDF
HDFS下载效率的优化 被引量:23
9
作者 曹宁 吴中海 +1 位作者 刘宏志 张齐勋 《计算机应用》 CSCD 北大核心 2010年第8期2060-2065,2240,共7页
针对HDFS的内部数据下载效率较低和可能出现的负载不均衡的问题进行了研究,从分布式文件整体下载效率和数据块的下载效率两方面提出了优化方法。实验结果表明:两个方法都能提高效率,但在集群有大量DataNode的前提下,两者结合起来的方法... 针对HDFS的内部数据下载效率较低和可能出现的负载不均衡的问题进行了研究,从分布式文件整体下载效率和数据块的下载效率两方面提出了优化方法。实验结果表明:两个方法都能提高效率,但在集群有大量DataNode的前提下,两者结合起来的方法能更好地提高下载效率和均衡DataNode的负载。 展开更多
关键词 云计算 hadoop档案系统(hdfs) 多线程 并行下载
下载PDF
SQL-DFS:一种基于HDFS的海量小文件存储系统 被引量:7
10
作者 马志强 杨双涛 +1 位作者 闫瑞 张泽广 《北京工业大学学报》 CAS CSCD 北大核心 2016年第1期134-141,共8页
针对Hadoop分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时Name Node内存占用率高的问题,通过分析HDFS基础架构,提出了基于元数据存储集群的SQL-DFS文件系统.通过在Name Node中加入小文件处理模块实现了小文件... 针对Hadoop分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时Name Node内存占用率高的问题,通过分析HDFS基础架构,提出了基于元数据存储集群的SQL-DFS文件系统.通过在Name Node中加入小文件处理模块实现了小文件元数据由Name Node内存到元数据存储集群的迁移,借助关系数据库集群实现了小文件元数据的快速读写,并对小文件读取过程进行优化,减少了文件客户端对Name Node的请求次数;通过将部分Data Node文件块的校验工作交由元数据存储集群完成,进一步降低了Name Node节点的负载压力.最终通过搭建HDFS和SQL-DFS实验平台,对HDFS和SQL-DFS 2种架构进行了小文件读写的对比测试,实验结果表明:SQLDFS在文件平均耗时(file average cost,FAC)和内存占用率方面均明显优于原HDFS架构,具有更好的小文件存储能力,可用于海量小文件的存储. 展开更多
关键词 hadoop分布式文件系统(hdfs) 元数据存储集群 小文件 元数据 内存占用率
下载PDF
基于纠删码和动态副本策略的HDFS改进系统 被引量:10
11
作者 李晓恺 代翔 +1 位作者 李文杰 崔喆 《计算机应用》 CSCD 北大核心 2012年第8期2150-2153,2158,共5页
为了让Hadoop分布式文件系统(HDFS)达到更高的存储效率以及更加优化的负载均衡能力,针对HDFS的多副本存储技术提出了改进方案——Noah。Noah引入了编码和译码模块,对HDFS中的block进行编码分解,生成更多数量的数据分片(section),并随机... 为了让Hadoop分布式文件系统(HDFS)达到更高的存储效率以及更加优化的负载均衡能力,针对HDFS的多副本存储技术提出了改进方案——Noah。Noah引入了编码和译码模块,对HDFS中的block进行编码分解,生成更多数量的数据分片(section),并随机地分散保存到集群当中,替代原有系统的多副本容灾策略;在集群出现节点失效的情况下,通过收集与失效block相关的任意70%左右的section进行原始数据的恢复;同时根据分布式集群运行情况以及对副本数目需求的不同采用动态副本策略。通过相关的集群实验,表明Noah在容灾效率、负载均衡、存储成本以及安全性上对HDFS作了相应的优化。 展开更多
关键词 hadoop分布式文件系统 分布式存储 数据容灾 负载均衡 动态副本
下载PDF
基于用户信任值的HDFS访问控制模型研究 被引量:4
12
作者 史文浩 江国华 +1 位作者 秦小麟 王胜 《计算机科学与探索》 CSCD 北大核心 2016年第1期25-35,共11页
目前,越来越多的用户使用云存储来保存或备份数据,以增强数据的可移动性,但针对云存储的安全性问题,研究人员主要关注隐私泄露、数据容灾、副本消除等方面,对访问控制的研究较少。在前人研究的基础上,提出了一种基于用户信任值的HDFS(Ha... 目前,越来越多的用户使用云存储来保存或备份数据,以增强数据的可移动性,但针对云存储的安全性问题,研究人员主要关注隐私泄露、数据容灾、副本消除等方面,对访问控制的研究较少。在前人研究的基础上,提出了一种基于用户信任值的HDFS(Hadoop distributed file system)访问控制模型。该模型结合可信赖第三方认证系统Kerberos实现对用户的认证,并为每个用户设定一个信任值,通过信任值与信任值阈值的比较动态控制用户对HDFS的访问。实验结果表明,该模型不仅可以克服HDFS访问控制上的缺陷,而且能够动态、有效地控制用户对HDFS中资源的访问。 展开更多
关键词 云存储 hdfs 访问控制 信任值
下载PDF
Co-Work:基于HDFS的安全云存储数据一致性保持算法 被引量:4
13
作者 林穗 黄健 姜文超 《计算机工程与应用》 CSCD 北大核心 2017年第1期9-15,共7页
针对云存储平台中用户隐私和敏感数据的安全保护问题,在前期提出的基于自主可控机制的安全云存储模型ASOM(All Self-Organization Model)基础上,对MDSS端元数据的管理操作、MDSS和DMS之间的通信过程做进一步优化,针对ASOM模型实际场景... 针对云存储平台中用户隐私和敏感数据的安全保护问题,在前期提出的基于自主可控机制的安全云存储模型ASOM(All Self-Organization Model)基础上,对MDSS端元数据的管理操作、MDSS和DMS之间的通信过程做进一步优化,针对ASOM模型实际场景引入锁思想实现两个节点一致性的Co-Work算法,完成MDSS和DMS节点之间的协同工作和数据的一致性保持。同时,考虑网络带宽对ASOM中读写效率的影响,引入随机表机制,改变DSS上报的时间结点,以提高ASOM整体读写效率。测试结果表明:执行Co-Work算法后的ASOM模型实现了数据的物理与逻辑隔离,保证用户对元数据的自主控制和管理,而且随着数据尺寸增大读写效率明显提高,在数据达到1 GB时读写效率提高了12%。 展开更多
关键词 安全云存储 hadoop分布式文件系统(hdfs) 一致性
下载PDF
基于灰色马尔可夫链预测模型的HDFS云存储副本选择策略 被引量:3
14
作者 徐骁勇 潘郁 丁燕艳 《计算机应用》 CSCD 北大核心 2011年第A02期39-42,共4页
在Hadoop分布式文件系统(HDFS)云存储环境下,网络带宽和节点性能有限且动态变化,现有的副本选择策略无法根据环境的变化选择最合适副本。针对这一问题,提出一种综合考虑了网络带宽、节点I/O性能以及节点存储空间等因素,基于灰色马尔可... 在Hadoop分布式文件系统(HDFS)云存储环境下,网络带宽和节点性能有限且动态变化,现有的副本选择策略无法根据环境的变化选择最合适副本。针对这一问题,提出一种综合考虑了网络带宽、节点I/O性能以及节点存储空间等因素,基于灰色马尔可夫链预测模型的副本选择策略,以此在系统可用性和负载均衡性之间寻求一个平衡。最后通过仿真实验,验证了该策略的可行性与有效性。 展开更多
关键词 云存储 副本选择 灰色马尔可夫链 hadoop分布式文件系统
下载PDF
异构环境中HDFS数据块调度算法的设计与实现 被引量:2
15
作者 高原 任升 顾文杰 《计算机工程》 CAS CSCD 北大核心 2017年第8期82-89,共8页
针对Hadoop分布式文件系统(HDFS)的写性能在执行效率上的不足,提出一种在节点性能异构环境中对HDFS数据块进行并发传输的调度算法。该算法实时监控HDFS集群中每个节点的资源状态和内存缓存队列,动态地将接收节点与转发节点进行配对传输... 针对Hadoop分布式文件系统(HDFS)的写性能在执行效率上的不足,提出一种在节点性能异构环境中对HDFS数据块进行并发传输的调度算法。该算法实时监控HDFS集群中每个节点的资源状态和内存缓存队列,动态地将接收节点与转发节点进行配对传输,使全系统节点的网卡和磁盘并发工作,缩短了所有副本写入分布式文件系统的时间。将数据写入磁盘后请求下一个数据块,保证数据安全性,同时也使得各个节点获得与自身性能相匹配的副本数,使性能异构的系统能达到较高的写入速度。性能测试结果表明,使用该算法的分布式文件系统的写入性能较原始的HDFS提高了1倍。 展开更多
关键词 异构 hadoop分布式文件系统 并发 数据块 调度
下载PDF
基于HDFS的区域医学影像分布式存储架构设计 被引量:29
16
作者 李彭军 陈光杰 郭文明 《南方医科大学学报》 CAS CSCD 北大核心 2011年第3期495-498,共4页
构建区域医学影像协作平台是均衡医疗资源、提高基层医院诊疗水平、降低医疗费用的有效途径,但是构建区域化影像平台在技术和成本上还存在巨大的挑战。本文详细分析了传统集中式存储和HDFS(Hadoop Distributed File System)分布式存储... 构建区域医学影像协作平台是均衡医疗资源、提高基层医院诊疗水平、降低医疗费用的有效途径,但是构建区域化影像平台在技术和成本上还存在巨大的挑战。本文详细分析了传统集中式存储和HDFS(Hadoop Distributed File System)分布式存储系统的优缺点,设计了一种适合HDFS特点的S-DICOM文件格式,以及集中式存储(FC SAN)和分布式存储(HDFS集群)结合的统一存储架构,开发了一套SDFO(S-DICOM File Operator)中间件,为上层的PACS应用组件提供透明的存储访问接口。测试结果表明此架构可以满足海量医学影像资料的快速存取和处理需求。 展开更多
关键词 图像归档与传输系统 云计算 软件即服务 hadoop分布式文件系统
下载PDF
基于HDFS的创新知识云平台存储架构的研究与设计 被引量:4
17
作者 马建红 霍振奇 《计算机应用与软件》 CSCD 2016年第3期62-66,共5页
针对现有存储结构无法满足海量创新知识带来的存储及服务需求的问题,提出一种改进的HDFS(Hadoop Distributed File System)分布式存储系统并应用到创新知识云平台。首先引入包文件及分布式索引服务,改进HDFS小文件存储的效率问题,然后... 针对现有存储结构无法满足海量创新知识带来的存储及服务需求的问题,提出一种改进的HDFS(Hadoop Distributed File System)分布式存储系统并应用到创新知识云平台。首先引入包文件及分布式索引服务,改进HDFS小文件存储的效率问题,然后通过优化HDFS的命名空间备份及故障恢复服务,实现可用性更强、资源利用率更高的HDFS高可用架构。通过系统的设计和实现证明优化工作大大降低了命名节点的内存压力,提高了集群的可用性,并且改进的HDFS存储系统可以满足创新知识云平台的存储需求。 展开更多
关键词 创新知识 hdfs 小文件存储 单点故障
下载PDF
一种面向HDFS的数据随机访问方法 被引量:5
18
作者 李强 孙震宇 孙功星 《计算机工程与应用》 CSCD 北大核心 2017年第10期1-7,共7页
为了简化文件系统的实现,支持超大规模数据集的流式访问,HDFS牺牲了文件的随机访问功能,而在实际场景中很多应用都需要对文件进行随机访问。在深入分析HDFS数据读写原理的基础上,提出了一种面向HDFS的数据随机访问方法。其设计思想是为D... 为了简化文件系统的实现,支持超大规模数据集的流式访问,HDFS牺牲了文件的随机访问功能,而在实际场景中很多应用都需要对文件进行随机访问。在深入分析HDFS数据读写原理的基础上,提出了一种面向HDFS的数据随机访问方法。其设计思想是为Datanode添加本地数据访问接口,用户程序可以读取Datanode上存放的数据块文件以及把数据写入到Datanode上的数据块存放目录。文件的首副本由用户程序直接产生,其余副本在首副本写入完成之后采用数据复制的方式生成。此外,为数据块添加了权限管理功能,Datanode上的文件副本属于用户所有。若名字空间中文件权限发生变化,文件对应的数据块权限也会改变。测试表明,数据读取性能提升了约10%,数据写入性能提升了20%以上,在高并发下写入性能最大可提升2.5倍。 展开更多
关键词 hadoop分布式文件系统 随机访问 权限管理
下载PDF
HDFS中高效存储小文件的方法 被引量:10
19
作者 尹颖 林庆 林涵阳 《计算机工程与设计》 北大核心 2015年第2期406-409,共4页
为改善应用Hadoop分布式文件系统存储大量小文件时效率低下的问题,将NameNode职责分离,使用单独的NFS服务器同步存储元数据信息,以降低Client数据请求压力,提供大吞吐量数据访问并改善访问延迟;设计文件与数据块的对应模式,允许在同一... 为改善应用Hadoop分布式文件系统存储大量小文件时效率低下的问题,将NameNode职责分离,使用单独的NFS服务器同步存储元数据信息,以降低Client数据请求压力,提供大吞吐量数据访问并改善访问延迟;设计文件与数据块的对应模式,允许在同一块中存储多个小文件,并对系统加以实现,为海量小文件的存储提供了一个有效的解决方案。实验结果表明,该机制可以在数据迅速增长的背景下实现海量小文件的高效存取。 展开更多
关键词 hadoop分布式文件系统 海量小文件 性能优化 职责分离 合并小文件
下载PDF
SingleMapReduce:单一输出HDFS文件的MapReduce编程模型 被引量:2
20
作者 陈吉荣 乐嘉锦 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第5期135-142,共8页
经典MapReduce编程模型的输出结果不是单一的Hadoop分布式文件系统(HDFS)文件,为此,文中提出了单一输出文件的MapReduce编程模型:SingleMapReduce.该模型通过拦截Job Successful状态,将输出目录下的所有文件"整合"为单一文件... 经典MapReduce编程模型的输出结果不是单一的Hadoop分布式文件系统(HDFS)文件,为此,文中提出了单一输出文件的MapReduce编程模型:SingleMapReduce.该模型通过拦截Job Successful状态,将输出目录下的所有文件"整合"为单一文件.文中给出了HDFS的4个重要特征,提出了HDFS的"块典型分布"和"块非典型分布"的概念,设计了一种通过整合元数据来达到整合文件的算法.理论分析和实验结果表明:该模型的MapReduce计算的输出结果为单一文件;该模型可以再次以文件的形式对MapReduce计算的输出结果进行分片,并可用并行方式导入大表或大文件到HDFS中;该模型间接支持了名称节点的扩展性. 展开更多
关键词 分布式计算系统 元数据 MAPREDUCE hadoop分布式文件系统 名称节点 数据节点
下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部