期刊文献+
共找到822篇文章
< 1 2 42 >
每页显示 20 50 100
基于HDFS的云存储小文件合并优化方法研究 被引量:1
1
作者 朱莉 《船舶职业教育》 2023年第2期62-65,共4页
随着云计算技术的飞速发展,海量小文件的云存储效率面临巨大的挑战。将基于HDFS的小文件合并存储成大文件的方法可以优化文件存取策略,结合Hadoop通用解决方案提出一种优化存储空间的小文件合并存储方法,在原有的用户层和存储层之间加... 随着云计算技术的飞速发展,海量小文件的云存储效率面临巨大的挑战。将基于HDFS的小文件合并存储成大文件的方法可以优化文件存取策略,结合Hadoop通用解决方案提出一种优化存储空间的小文件合并存储方法,在原有的用户层和存储层之间加入处理层,包括文件大小判定、小文件合并及索引文件生成等分级处理模块,设计文件读取和写入流程,提高数据的存储效率,减少内存开销,整体提升HDFS文件存储系统访问性能,保障云存储的稳定性和高效性。 展开更多
关键词 hdfs 小文件 合并存储
下载PDF
HDFS分级存储系统元数据管理方法的研究 被引量:4
2
作者 刘晓宇 夏立斌 +1 位作者 姜晓巍 孙功星 《计算机工程与应用》 CSCD 北大核心 2023年第17期257-265,共9页
随着高能物理实验规模的不断扩大和实验复杂度的提高,研究人员正面临海量数据存储的挑战,考虑到成本、能耗、存储周期及运维管理等问题,具有存储容量大、成本低特点的磁带库成为高能物理领域海量存储系统中必不可少的选择。但HDFS现有... 随着高能物理实验规模的不断扩大和实验复杂度的提高,研究人员正面临海量数据存储的挑战,考虑到成本、能耗、存储周期及运维管理等问题,具有存储容量大、成本低特点的磁带库成为高能物理领域海量存储系统中必不可少的选择。但HDFS现有异构存储研究不支持磁带库存储,无法满足高能物理Hadoop平台海量实验数据持久化和备份过程对于存储系统高性价比的需求。针对上述问题,为了构建支持磁盘-磁带存储的HDFS分级存储系统,使磁带层文件在HDFS中无缝融合,为用户提供统一的文件系统命名空间,调研了分布式文件系统元数据管理方法,在此基础上设计实现了HDFS分级存储系统中统一的元数据管理方法。该方法通过重新设计内存文件元数据结构,构建分级存储系统统一的内存目录树并实现其访问管理和可靠性保障,完成分级存储系统中不同层级文件元数据的集中统一管理。测试结果表明,该方法实现了分级存储系统异构资源上文件元数据的统一管理,提供了高效的元数据操作。基于该方法构建的分级存储系统可靠性高,在对不同规模大小的文件读写时,其读写吞吐量较优于高能物理领域传统分级存储系统EOSCTA。 展开更多
关键词 hdfs分布式文件系统 分级存储系统 内存元数据管理 统一命名空间 持久化
下载PDF
基于FileSystem API的HDFS文件存取和副本选择优化研究
3
作者 贾会玲 吴晟 +3 位作者 李英娜 李萌萌 杨玺 李川 《化工自动化及仪表》 CAS 2016年第6期623-627,共5页
在对HDFS进行分析和研究的基础上,在HDFS文件分布式系统中应用File System API进行文件存储和访问,并通过改进的蚁群算法对副本选择进行优化。HDFS API能够有效完成海量数据的存储和管理,提高海量数据存储的效率。通过改进的蚁群算法提... 在对HDFS进行分析和研究的基础上,在HDFS文件分布式系统中应用File System API进行文件存储和访问,并通过改进的蚁群算法对副本选择进行优化。HDFS API能够有效完成海量数据的存储和管理,提高海量数据存储的效率。通过改进的蚁群算法提升了文件读取时副本选择的效率,进一步提高了系统效率并使负载均衡。 展开更多
关键词 hdfs Filesystem API 改进的蚁群算法 副本选择
下载PDF
基于HDFS的高校开源软件镜像站架构探究
4
作者 王晓建 袁磊 《计算机时代》 2023年第1期66-69,共4页
开源镜像站是一个放置开源系统镜像文件的站点,免费提供镜像文件和一些常用软件包下载。构建校园网内部的开源软件镜像站点,能更好地服务校内师生,通过内网直接访问,也能加快访问的速度,无需校园网认证或下载。镜像资源本地化,能大大减... 开源镜像站是一个放置开源系统镜像文件的站点,免费提供镜像文件和一些常用软件包下载。构建校园网内部的开源软件镜像站点,能更好地服务校内师生,通过内网直接访问,也能加快访问的速度,无需校园网认证或下载。镜像资源本地化,能大大减少校园网带宽压力。通过搭建Hadoop集群,充分利用闲置的硬件资源来达到很好地存储效果,提高存储资源的使用效率。 展开更多
关键词 hdfs 开源软件 镜像站 HADOOP
下载PDF
基于HDFS科技媒资管理系统研究
5
作者 邹伟 陈宫晴 +1 位作者 李善君 张贝贝 《电脑与信息技术》 2023年第3期98-100,共3页
随着科技和信息化的飞速发展,科技行业积累大量的视频、音频和图片等资料,这些科技媒资资源原始素材对科技行业具有很高的价值,如何保证这些资源安全,使这些资源潜力得到最大限度释放,为科技工作和科技宣传等提供更为高效的资源服务,文... 随着科技和信息化的飞速发展,科技行业积累大量的视频、音频和图片等资料,这些科技媒资资源原始素材对科技行业具有很高的价值,如何保证这些资源安全,使这些资源潜力得到最大限度释放,为科技工作和科技宣传等提供更为高效的资源服务,文章基于底层采用HDFS分布式文件存储系统,以科技媒资管理库为应用基础,为科技服务上层应用提供了支撑。 展开更多
关键词 hdfs 媒资管理库 分布式文件存储系统
下载PDF
iHDFS: A Distributed File System Supporting Incremental Computing
6
作者 Zhenhua Wang Qingsong Ding +2 位作者 Fuxiang Gao Derong Shen Ge Yu 《国际计算机前沿大会会议论文集》 2015年第1期44-45,共2页
Big data are always processed repeatedly with small changes, which is a major form of big data processing. The feature of incremental change of big data shows that incremental computing mode can improve the performanc... Big data are always processed repeatedly with small changes, which is a major form of big data processing. The feature of incremental change of big data shows that incremental computing mode can improve the performance greatly. HDFS is a distributed file system on Hadoop which is the most popular platform for big data analytics. And HDFS adopts fixed-size chunking policy, which is inefficient facing incremental computing. Therefore, in this paper, we proposed iHDFS (incremental HDFS), a distributed file system, which can provide basic guarantee for big data parallel processing. The iHDFS is implemented as an extension to HDFS. In iHDFS, Rabin fingerprint algorithm is applied to achieve content defined chunking. This policy make data chunking has much higher stability, and the intermediate processing results can be reused efficiently, so the performance of incremental data processing can be improved significantly. The effectiveness and efficiency of iHDFS have been demonstrated by the experimental results. 展开更多
关键词 INCREMENTAL COMPUTING distributed FILE system BIG data hdfs
下载PDF
基于GM模型的HDFS副本放置改进策略
7
作者 刘芳 刘艳 +2 位作者 马萌 曹清清 吴亚玲 《数字通信世界》 2023年第5期70-73,共4页
HDFS分布式文件系统默认副本放置策略在放置节点的选择上具有较大的随机性,且衡量节点负载的指标单一,易导致集群负载不均衡,影响系统性能。文章提出一种基于GM模型的改进策略,该策略综合考虑节点多个负载指标,并使用GM模型对节点量化... HDFS分布式文件系统默认副本放置策略在放置节点的选择上具有较大的随机性,且衡量节点负载的指标单一,易导致集群负载不均衡,影响系统性能。文章提出一种基于GM模型的改进策略,该策略综合考虑节点多个负载指标,并使用GM模型对节点量化负载进行预测,同时结合节点的HDFS工作连接数,对节点性能进行综合评价,选出最合适的副本放置节点。实验表明,与HDFS默认策略相比,文中所提策略能够减少作业执行时间和数据传输时间,在系统的执行效率和读写性能方面有较大提高。 展开更多
关键词 hdfs 副本放置 负载量化 负载预测
下载PDF
存算分离架构下S3存储和HDFS存储读写性能对比研究
8
作者 杨慧 程雪平 《现代计算机》 2023年第21期24-29,共6页
在存算分离架构下,存储和计算可以分别进行优化和扩展,从而实现更高效、更可靠、更可扩展的大数据处理。存储层作为存算分离架构的重要组成部分,不仅需要具备高可靠性、高可扩展性、高性能等特点,还需要考虑成本和易用性等因素。目前,S... 在存算分离架构下,存储和计算可以分别进行优化和扩展,从而实现更高效、更可靠、更可扩展的大数据处理。存储层作为存算分离架构的重要组成部分,不仅需要具备高可靠性、高可扩展性、高性能等特点,还需要考虑成本和易用性等因素。目前,S3存储和HDFS存储是两个广泛使用的存储方案,两者各有优缺点,但在存算分离架构下,其性能表现如何,尚未有较为系统和全面的研究。为了研究存算分离架构下S3存储和HDFS存储的读写性能表现,通过性能测试和分析,比较两者的优劣,为存算分离架构下的存储方案选择提供参考。 展开更多
关键词 存储分离 hdfs S3 Hive 数据仓库 数据湖
下载PDF
基于HDFS架构的医院信息系统设计
9
作者 魏倩茹 《信息与电脑》 2023年第4期133-135,共3页
为了提高医院信息的传输速度,改善信息处理能力,解决数据繁杂利用率低的问题,拟设计一种基于分布式文件系统(Hadoop Distributed File System,HDFS)架构的医院信息系统。先介绍系统的整体架构,并结合医院情况设计各子系统,再通过遗传算... 为了提高医院信息的传输速度,改善信息处理能力,解决数据繁杂利用率低的问题,拟设计一种基于分布式文件系统(Hadoop Distributed File System,HDFS)架构的医院信息系统。先介绍系统的整体架构,并结合医院情况设计各子系统,再通过遗传算法对数据信息进行处理,以实验形式验证系统效果。测试结果表明,本系统具有良好的信息处理能力,既提高了医疗水平和服务质量,又实现了医院信息系统的规范化和有效化,对医院发展具有较大的促进作用。 展开更多
关键词 分布式文件系统(hdfs) 医院信息系统 遗传算法 信息传输
下载PDF
HDFS下载效率的优化 被引量:23
10
作者 曹宁 吴中海 +1 位作者 刘宏志 张齐勋 《计算机应用》 CSCD 北大核心 2010年第8期2060-2065,2240,共7页
针对HDFS的内部数据下载效率较低和可能出现的负载不均衡的问题进行了研究,从分布式文件整体下载效率和数据块的下载效率两方面提出了优化方法。实验结果表明:两个方法都能提高效率,但在集群有大量DataNode的前提下,两者结合起来的方法... 针对HDFS的内部数据下载效率较低和可能出现的负载不均衡的问题进行了研究,从分布式文件整体下载效率和数据块的下载效率两方面提出了优化方法。实验结果表明:两个方法都能提高效率,但在集群有大量DataNode的前提下,两者结合起来的方法能更好地提高下载效率和均衡DataNode的负载。 展开更多
关键词 云计算 Hadoop档案系统(hdfs) 多线程 并行下载
下载PDF
基于范德蒙码的HDFS优化存储策略研究 被引量:17
11
作者 宋宝燕 王俊陆 王妍 《计算机学报》 EI CSCD 北大核心 2015年第9期1825-1837,共13页
随着大数据时代的到来,新型文件系统HDFS(Hadoop分布式文件系统)的应用越来越广泛.但其本身也存在着整体存储成本过高、可扩展性低、节点负载均衡能力不足等问题.因此,该文提出了一种基于范德蒙码的HDFS分散式动态副本存储优化策略,针对... 随着大数据时代的到来,新型文件系统HDFS(Hadoop分布式文件系统)的应用越来越广泛.但其本身也存在着整体存储成本过高、可扩展性低、节点负载均衡能力不足等问题.因此,该文提出了一种基于范德蒙码的HDFS分散式动态副本存储优化策略,针对HDFS大多部署在大量的廉价硬件集群上的实际情况,在范德蒙码优化策略的基础上,采用分散式动态副本控制的思想对HDFS文件操作的计算过程、计算模式以及译码触发策略进行系统的改进,并通过校验码动态设置的方式将容错度控制在一个理想的范围之内,此外,结合伽罗华有限域理论对范德蒙码的编译码操作及计算方法进行全面优化,在不影响HDFS存储结构的前提下,降低了范德蒙码编译码的时间代价和计算的内存压力,节约了HDFS约30%的存储开销,数据可靠性提高了约200%,均衡HDFS系统节点负载能力,译码恢复效率平均提升约40%,形成了一套完整的、系统的优化方案,为未来HDFS的发展提供了一条有效途径. 展开更多
关键词 大数据 hdfs 范德蒙码 分散式动态副本 优化存储
下载PDF
HDFS下海量小文件高效存储与索引方法 被引量:5
12
作者 肖玉泽 张利军 +2 位作者 潘巍 张小芳 李战怀 《小型微型计算机系统》 CSCD 北大核心 2015年第10期2218-2223,共6页
分布式文件系统HDFS被用来存储大文件,若在其中存储海量小文件将会严重消耗Name Node内存,影响系统性能,同时小文件也不利于使用MapReduce框架进行并行处理和分析.另外,小文件附带的多维元信息也需要以一种合理的方式进行存储和索引以... 分布式文件系统HDFS被用来存储大文件,若在其中存储海量小文件将会严重消耗Name Node内存,影响系统性能,同时小文件也不利于使用MapReduce框架进行并行处理和分析.另外,小文件附带的多维元信息也需要以一种合理的方式进行存储和索引以便于查询.本文针对以上问题,提出一种基于多维列索引的小文件管理方案,支持文件的并发上传、下载及删除操作,并在多个查询维度上提供文件的自由检索.本文提出的小文件合并方案能够明显减少HDFS上的文件数量,经过实验对比,在小文件元信息的查询效率方面,本文提出的多维索引方案优于HBase,同时保证了文件传输的吞吐量. 展开更多
关键词 hdfs 海量小文件 多维列索引 文件信息查询
下载PDF
基于HDFS管理MapGIS K9瓦片地图集的研究与实现 被引量:8
13
作者 万波 党琦 杨林 《计算机应用与软件》 CSCD 北大核心 2013年第12期232-235,共4页
关系型数据库在管理海量空间数据时遇到诸多瓶颈,HDFS(Hadoop Distributed Filesystem)通过将大数据分割为多个小数据块,并将其分别存储在多个数据节点组成的分布式集群中,成为一种新的存储海量空间数据的方法。使用HDFS作为平台,利用... 关系型数据库在管理海量空间数据时遇到诸多瓶颈,HDFS(Hadoop Distributed Filesystem)通过将大数据分割为多个小数据块,并将其分别存储在多个数据节点组成的分布式集群中,成为一种新的存储海量空间数据的方法。使用HDFS作为平台,利用数据结构类型MapFile设计一种管理MapGIS K9瓦片地图集的方式,并进行实验。实验表明用HDFS管理海量瓦片地图比传统方式管理更易扩展,更加安全,效率更加高。 展开更多
关键词 海量空间数据 管理 hdfs 瓦片地图集
下载PDF
基于hadoop云平台的智能电网HDFS资源存储技术研究 被引量:10
14
作者 孟祥萍 周来 《电测与仪表》 北大核心 2014年第19期24-30,共7页
面对未来智能电网海量存储资源的管理困难、可靠性低、维护分布式数据成本高等难题,文章首先在Hadoop云计算平台基础上搭建HDFS(Hadoop Distributed File System),论证了其强大的数据存储性能,并通过实验发现HDFS在进一步提高存储性能... 面对未来智能电网海量存储资源的管理困难、可靠性低、维护分布式数据成本高等难题,文章首先在Hadoop云计算平台基础上搭建HDFS(Hadoop Distributed File System),论证了其强大的数据存储性能,并通过实验发现HDFS在进一步提高存储性能方面的诸多瓶颈——节点状态信息缺失、系统负载不均、存储效率下降等。随后考虑HDFS原始方案的弊端并给出完善数据节点状态信息、设定数据副本系数的HDFS架构改进方案,最后通过在仿真平台上的实验,有效地平衡了节点间的负载,显著提高了存储效率,同时增强了用户体验,证明了该策略提高HDFS系统存储性能的可行性。 展开更多
关键词 智能电网 数据存储 HADOOP hdfs
下载PDF
基于用户信任值的HDFS访问控制模型研究 被引量:4
15
作者 史文浩 江国华 +1 位作者 秦小麟 王胜 《计算机科学与探索》 CSCD 北大核心 2016年第1期25-35,共11页
目前,越来越多的用户使用云存储来保存或备份数据,以增强数据的可移动性,但针对云存储的安全性问题,研究人员主要关注隐私泄露、数据容灾、副本消除等方面,对访问控制的研究较少。在前人研究的基础上,提出了一种基于用户信任值的HDFS(Ha... 目前,越来越多的用户使用云存储来保存或备份数据,以增强数据的可移动性,但针对云存储的安全性问题,研究人员主要关注隐私泄露、数据容灾、副本消除等方面,对访问控制的研究较少。在前人研究的基础上,提出了一种基于用户信任值的HDFS(Hadoop distributed file system)访问控制模型。该模型结合可信赖第三方认证系统Kerberos实现对用户的认证,并为每个用户设定一个信任值,通过信任值与信任值阈值的比较动态控制用户对HDFS的访问。实验结果表明,该模型不仅可以克服HDFS访问控制上的缺陷,而且能够动态、有效地控制用户对HDFS中资源的访问。 展开更多
关键词 云存储 hdfs 访问控制 信任值
下载PDF
SQL-DFS:一种基于HDFS的海量小文件存储系统 被引量:7
16
作者 马志强 杨双涛 +1 位作者 闫瑞 张泽广 《北京工业大学学报》 CAS CSCD 北大核心 2016年第1期134-141,共8页
针对Hadoop分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时Name Node内存占用率高的问题,通过分析HDFS基础架构,提出了基于元数据存储集群的SQL-DFS文件系统.通过在Name Node中加入小文件处理模块实现了小文件... 针对Hadoop分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时Name Node内存占用率高的问题,通过分析HDFS基础架构,提出了基于元数据存储集群的SQL-DFS文件系统.通过在Name Node中加入小文件处理模块实现了小文件元数据由Name Node内存到元数据存储集群的迁移,借助关系数据库集群实现了小文件元数据的快速读写,并对小文件读取过程进行优化,减少了文件客户端对Name Node的请求次数;通过将部分Data Node文件块的校验工作交由元数据存储集群完成,进一步降低了Name Node节点的负载压力.最终通过搭建HDFS和SQL-DFS实验平台,对HDFS和SQL-DFS 2种架构进行了小文件读写的对比测试,实验结果表明:SQLDFS在文件平均耗时(file average cost,FAC)和内存占用率方面均明显优于原HDFS架构,具有更好的小文件存储能力,可用于海量小文件的存储. 展开更多
关键词 Hadoop分布式文件系统(hdfs) 元数据存储集群 小文件 元数据 内存占用率
下载PDF
分布式文件系统Hadoop HDFS与传统文件系统Linux FS的比较与分析 被引量:18
17
作者 许春玲 张广泉 《苏州大学学报(工科版)》 CAS 2010年第4期5-9,19,共6页
对现有HDFS的设计架构进行分析,并借与LinuxFS架构的对比凸显HDFS的分布式特性。通过分析得出:现有的HDFS架构使用Java的Map界面,不利于任务的分解和并行处理,因此HDFS仅在数据的存储上实现分布式,数据处理依然是集中式的,这就形成了对N... 对现有HDFS的设计架构进行分析,并借与LinuxFS架构的对比凸显HDFS的分布式特性。通过分析得出:现有的HDFS架构使用Java的Map界面,不利于任务的分解和并行处理,因此HDFS仅在数据的存储上实现分布式,数据处理依然是集中式的,这就形成了对NameNode的依赖,随着集群的扩大,NameNode的性能成为系统瓶颈,并提出了解决方向。 展开更多
关键词 HADOOP hdfs hdfs BOTTLENECK 分布式文件系统
下载PDF
基于MapFile的HDFS小文件存储效率问题 被引量:16
18
作者 洪旭升 林世平 《计算机系统应用》 2012年第11期179-182,共4页
针对HDFS最初是为流式访问大文件而开发的,而对于大量小文件的存储效率不高问题,采用MapFile设计一个HDFS中存储小文件的方案.该方案的主要思想是在上传HDFS时增加一个文件类型判断模块,建立一个小文件队列,将小文件序列化存入一个MapF... 针对HDFS最初是为流式访问大文件而开发的,而对于大量小文件的存储效率不高问题,采用MapFile设计一个HDFS中存储小文件的方案.该方案的主要思想是在上传HDFS时增加一个文件类型判断模块,建立一个小文件队列,将小文件序列化存入一个MapFile容器,合并成大文件,并建立相应的索引文件,有效降低文件数目和提高访问效率.通过和现有的Hadoop Archives(HAR files)文件归档解决小文件问题的方案对比,实验结果表明,基于MapFile的存储小文件方案可以更为有效的提高小文件存储性能和减少HDFS文件系统的节点内存消耗. 展开更多
关键词 hdfs 小文件 MapFile SequenceFile 云存储
下载PDF
HDFS异构集群中的分级存储调度机制 被引量:5
19
作者 杨冬菊 李青 邓崇彬 《小型微型计算机系统》 CSCD 北大核心 2017年第1期29-34,共6页
大部分存储集群构建时可能包含有遗留设备及新购置设备,这些设备在存储性能方面存在较大差异.采用HDFS默认的机架感知存储策略时,可能使访问频率高的数据存储在低性能节点上,而访问频率低的数据存储在高性能节点上,既影响集群响应时间,... 大部分存储集群构建时可能包含有遗留设备及新购置设备,这些设备在存储性能方面存在较大差异.采用HDFS默认的机架感知存储策略时,可能使访问频率高的数据存储在低性能节点上,而访问频率低的数据存储在高性能节点上,既影响集群响应时间,又降低了资源利用率.针对以上问题,提出一种分级存储调度机制.在HDFS机架感知调度策略基础上,首先根据节点的CPU、内存大小、磁盘大小、磁盘I/O等固有硬件性能将节点划分为高配置节点和低配置节点,其次根据节点的CPU使用率、内存使用率、网络带宽使用率、磁盘使用率等性能的动态因素建立节点的性能评价模型,并建立三个性能级别.根据节点配置情况、性能级别及网络位置等多方面因素进行综合调度.同时在集群运行过程中,会根据数据的访问频率对数据块的分布进行动态调整.实验结果表明,本文提出的分级存储调度机制可以在HDFS异构集群中提高数据的访问效率,优化集群性能. 展开更多
关键词 云存储 hdfs 异构集群 分级存储 存储调度
下载PDF
HDFS的多安全级数据销毁机制设计 被引量:6
20
作者 秦军 邓谦 张建平 《计算机技术与发展》 2013年第3期129-133,共5页
在云计算应用中,数据安全是用户首要关心的问题,因此云中数据安全的研究也成为当前云计算研究的重点。针对开源云计算存储系统HDFS中的数据不能彻底销毁,从而可能导致数据泄露的问题,设计了HDFS的多安全级数据销毁机制。一方面,该机制... 在云计算应用中,数据安全是用户首要关心的问题,因此云中数据安全的研究也成为当前云计算研究的重点。针对开源云计算存储系统HDFS中的数据不能彻底销毁,从而可能导致数据泄露的问题,设计了HDFS的多安全级数据销毁机制。一方面,该机制在删除数据前使用数据覆写算法覆写原数据,可以有效预防云中数据的恶意恢复,防止数据泄露,从而达到彻底销毁数据的目的;另一方面,该机制采用多安全级可定义的方法,采取多种覆写算法销毁数据,平衡了安全需求和性能需求。仿真实验表明,该机制可以在HDFS环境下有效地覆写Block文件达到彻底销毁原始数据的目的,同时不同的覆写算法时间开销也不同,保证了效率和安全的平衡。 展开更多
关键词 云计算 数据安全 hdfs 数据覆写 多安全级
下载PDF
上一页 1 2 42 下一页 到第
使用帮助 返回顶部