期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
数据库技术中“HDFS文件系统”微课教学设计
1
作者 卜琴 《发明与创新(初中生)》 2021年第3期96-97,共2页
在职业院校计算机专业的专业课程《数据库技术》教学中,"HDFS文件系统"对大数据进行存储,由于抽象难理解,许多术语、原理等使学生觉得理论内容枯燥、难学,兴趣不高,注意力不专注。充分运用各种信息化手段,通过微课等形式,把... 在职业院校计算机专业的专业课程《数据库技术》教学中,"HDFS文件系统"对大数据进行存储,由于抽象难理解,许多术语、原理等使学生觉得理论内容枯燥、难学,兴趣不高,注意力不专注。充分运用各种信息化手段,通过微课等形式,把专业知识与生活中有趣的应用联系起来,提高学生对《数据库技术》的学习效果。 展开更多
关键词 微课 hdfs文件系统 大数据怎么存 教学设计
下载PDF
分布式文件系统HDFS处理小文件的优化方案 被引量:8
2
作者 杨彬 《软件》 2014年第6期65-69,共5页
Hadoop分布式文件系统(HDFS)是为可靠地存储和管理海量文件而设计。在HDFS中,所有的文件由单一的服务器NameNode来管理。因此,随着小文件数量的增加,会使HDFS系统性能下降。为了提高存储和访问HDFS上小文件的效率,本文提出了一个解决方... Hadoop分布式文件系统(HDFS)是为可靠地存储和管理海量文件而设计。在HDFS中,所有的文件由单一的服务器NameNode来管理。因此,随着小文件数量的增加,会使HDFS系统性能下降。为了提高存储和访问HDFS上小文件的效率,本文提出了一个解决方案,即:扩展的Hadoop分布式文件系统(EHDFS)。这种方法把一组相关文件组合成一个大文件来减少文件的数量,然后建立一种索引机制,从这个组合文件中识别并访问客户所要的单个文件。实验结果表明EHDFS提高了存储和访问大量小文件的效率。 展开更多
关键词 Hadoop分布式文件系统(hdfs) 文件 扩展的hdfs(Ehdfs)
下载PDF
HDFS分级存储系统元数据管理方法的研究 被引量:7
3
作者 刘晓宇 夏立斌 +1 位作者 姜晓巍 孙功星 《计算机工程与应用》 CSCD 北大核心 2023年第17期257-265,共9页
随着高能物理实验规模的不断扩大和实验复杂度的提高,研究人员正面临海量数据存储的挑战,考虑到成本、能耗、存储周期及运维管理等问题,具有存储容量大、成本低特点的磁带库成为高能物理领域海量存储系统中必不可少的选择。但HDFS现有... 随着高能物理实验规模的不断扩大和实验复杂度的提高,研究人员正面临海量数据存储的挑战,考虑到成本、能耗、存储周期及运维管理等问题,具有存储容量大、成本低特点的磁带库成为高能物理领域海量存储系统中必不可少的选择。但HDFS现有异构存储研究不支持磁带库存储,无法满足高能物理Hadoop平台海量实验数据持久化和备份过程对于存储系统高性价比的需求。针对上述问题,为了构建支持磁盘-磁带存储的HDFS分级存储系统,使磁带层文件在HDFS中无缝融合,为用户提供统一的文件系统命名空间,调研了分布式文件系统元数据管理方法,在此基础上设计实现了HDFS分级存储系统中统一的元数据管理方法。该方法通过重新设计内存文件元数据结构,构建分级存储系统统一的内存目录树并实现其访问管理和可靠性保障,完成分级存储系统中不同层级文件元数据的集中统一管理。测试结果表明,该方法实现了分级存储系统异构资源上文件元数据的统一管理,提供了高效的元数据操作。基于该方法构建的分级存储系统可靠性高,在对不同规模大小的文件读写时,其读写吞吐量较优于高能物理领域传统分级存储系统EOSCTA。 展开更多
关键词 hdfs分布式文件系统 分级存储系统 内存元数据管理 统一命名空间 持久化
下载PDF
SQL-DFS:一种基于HDFS的海量小文件存储系统 被引量:7
4
作者 马志强 杨双涛 +1 位作者 闫瑞 张泽广 《北京工业大学学报》 CAS CSCD 北大核心 2016年第1期134-141,共8页
针对Hadoop分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时Name Node内存占用率高的问题,通过分析HDFS基础架构,提出了基于元数据存储集群的SQL-DFS文件系统.通过在Name Node中加入小文件处理模块实现了小文件... 针对Hadoop分布式文件系统(Hadoop distributed file system,HDFS)进行小文件存储时Name Node内存占用率高的问题,通过分析HDFS基础架构,提出了基于元数据存储集群的SQL-DFS文件系统.通过在Name Node中加入小文件处理模块实现了小文件元数据由Name Node内存到元数据存储集群的迁移,借助关系数据库集群实现了小文件元数据的快速读写,并对小文件读取过程进行优化,减少了文件客户端对Name Node的请求次数;通过将部分Data Node文件块的校验工作交由元数据存储集群完成,进一步降低了Name Node节点的负载压力.最终通过搭建HDFS和SQL-DFS实验平台,对HDFS和SQL-DFS 2种架构进行了小文件读写的对比测试,实验结果表明:SQLDFS在文件平均耗时(file average cost,FAC)和内存占用率方面均明显优于原HDFS架构,具有更好的小文件存储能力,可用于海量小文件的存储. 展开更多
关键词 Hadoop分布式文件系统(hdfs) 元数据存储集群 文件 元数据 内存占用率
下载PDF
面向搜索引擎的分布式文件系统性能分析 被引量:12
5
作者 董守斌 赵铁柱 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第4期7-14,共8页
搜索引擎是一种数据密集型应用,其性能极大依赖于底层文件系统的性能.文中主要讨论分布式文件系统在搜索引擎应用环境下的性能评估和性能优化问题.首先概述了分布式文件系统的性能影响因素及相关研究进展;在此基础上提出基于Hadoop的开... 搜索引擎是一种数据密集型应用,其性能极大依赖于底层文件系统的性能.文中主要讨论分布式文件系统在搜索引擎应用环境下的性能评估和性能优化问题.首先概述了分布式文件系统的性能影响因素及相关研究进展;在此基础上提出基于Hadoop的开放架构,系统地评估HDFS和Lustre在搜索引擎应用场景下的性能;最后针对实验评估发现的HDFS在写性能及小文件数据处理方面的不足,提出改进方案,为搜索引擎的分布式文件系统优化提供参考. 展开更多
关键词 搜索引擎 分布式文件系统 hdfs文件系统 LUSTRE文件系统 性能分析 性能优化
下载PDF
基于HDFS架构的医院信息系统设计
6
作者 魏倩茹 《信息与电脑》 2023年第4期133-135,共3页
为了提高医院信息的传输速度,改善信息处理能力,解决数据繁杂利用率低的问题,拟设计一种基于分布式文件系统(Hadoop Distributed File System,HDFS)架构的医院信息系统。先介绍系统的整体架构,并结合医院情况设计各子系统,再通过遗传算... 为了提高医院信息的传输速度,改善信息处理能力,解决数据繁杂利用率低的问题,拟设计一种基于分布式文件系统(Hadoop Distributed File System,HDFS)架构的医院信息系统。先介绍系统的整体架构,并结合医院情况设计各子系统,再通过遗传算法对数据信息进行处理,以实验形式验证系统效果。测试结果表明,本系统具有良好的信息处理能力,既提高了医疗水平和服务质量,又实现了医院信息系统的规范化和有效化,对医院发展具有较大的促进作用。 展开更多
关键词 分布式文件系统(hdfs) 医院信息系统 遗传算法 信息传输
下载PDF
云计算中的分布式文件系统 被引量:1
7
作者 郎为民 杨德鹏 《电信快报(网络与通信)》 2012年第2期3-6,24,共5页
云计算是一种基于互联网提供服务的业务模式,它能够实现IT基础设施的资源化和服务化,用户可以按需进行定制和付费,从而彻底改变了传统IT基础设施的提供和支付方式,有效解决了无限增长的海量信息存储和计算问题。文章给出了云计算分布式... 云计算是一种基于互联网提供服务的业务模式,它能够实现IT基础设施的资源化和服务化,用户可以按需进行定制和付费,从而彻底改变了传统IT基础设施的提供和支付方式,有效解决了无限增长的海量信息存储和计算问题。文章给出了云计算分布式文件系统的主要类型,分析了Google文件系统(GFS)和Hadoop分布式文件系统(HDFS)的演进情况。最后,详细描述了分布式文件系统的工作原理。 展开更多
关键词 云计算 分布式文件系统 Google文件系统(GFS) Hadoop分布式文件系统(hdfs)
下载PDF
云环境下分布式文件系统负载均衡研究 被引量:13
8
作者 吴瑶瑶 杨庚 《计算机工程与应用》 CSCD 北大核心 2019年第10期67-72,224,共7页
Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是一种适合在通用硬件上运行的低成本、高度容错性的分布式文件系统,能提供高吞吐量的数据访问,适合针对大规模数据集上的应用。然而,HDFS中还面临一些性能优化问题,如负载... Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是一种适合在通用硬件上运行的低成本、高度容错性的分布式文件系统,能提供高吞吐量的数据访问,适合针对大规模数据集上的应用。然而,HDFS中还面临一些性能优化问题,如负载均衡不足。虽然Hadoop系统自带的负载均衡器可以实现均衡调整,但需要用户预先给出静态的阈值。为了解决阈值的固定性和主观性,通过对磁盘空间使用率、CPU利用率、内存利用率、磁盘I/O占用率、网络带宽占用率等参数的分析评估优化,形成对阈值的计算表达式,并通过理论分析和仿真实验对阈值的计算和负载均衡进行验证。实验结果表明,相比较Hadoop静态的输入阈值的算法,该方法达到了更好的平衡效果,提高了计算资源的利用率。 展开更多
关键词 云环境 Hadoop分布式文件系统(hdfs) 负载均衡 动态阈值
下载PDF
眼科医疗影像文件存取下的HDFS负载均衡 被引量:1
9
作者 刘烁阳 周丽娟 +1 位作者 任仲山 张树东 《计算机工程与应用》 CSCD 北大核心 2017年第2期253-259,264,共8页
在HDFS系统中,集群负载分配不均衡成为影响分布式文件存取速度的瓶颈。针对医院信息系统的负载现状,提出多属性双阈值决策的动态负载均衡算法,对分布式集群中使用HDFS默认的单属性评价、单阈值的负载均衡策略存在的缺陷加以改进。通过... 在HDFS系统中,集群负载分配不均衡成为影响分布式文件存取速度的瓶颈。针对医院信息系统的负载现状,提出多属性双阈值决策的动态负载均衡算法,对分布式集群中使用HDFS默认的单属性评价、单阈值的负载均衡策略存在的缺陷加以改进。通过负载性能测试,对比证明运用多属性双阈值的负载均衡算法相比较HDFS默认的负载均衡更有利于将大量的影像负载数据相对均衡地分配到服务器集群中的各个节点上,大幅度地缩短了增加数据规模时数据服务器节点的平均响应时间,有利于提高HDFS集群整体的工作效率。 展开更多
关键词 Hadoop分布式文件系统(hdfs) 分布式集群 负载均衡 眼科医疗 影像文件存取
下载PDF
Co-Work:基于HDFS的安全云存储数据一致性保持算法 被引量:4
10
作者 林穗 黄健 姜文超 《计算机工程与应用》 CSCD 北大核心 2017年第1期9-15,共7页
针对云存储平台中用户隐私和敏感数据的安全保护问题,在前期提出的基于自主可控机制的安全云存储模型ASOM(All Self-Organization Model)基础上,对MDSS端元数据的管理操作、MDSS和DMS之间的通信过程做进一步优化,针对ASOM模型实际场景... 针对云存储平台中用户隐私和敏感数据的安全保护问题,在前期提出的基于自主可控机制的安全云存储模型ASOM(All Self-Organization Model)基础上,对MDSS端元数据的管理操作、MDSS和DMS之间的通信过程做进一步优化,针对ASOM模型实际场景引入锁思想实现两个节点一致性的Co-Work算法,完成MDSS和DMS节点之间的协同工作和数据的一致性保持。同时,考虑网络带宽对ASOM中读写效率的影响,引入随机表机制,改变DSS上报的时间结点,以提高ASOM整体读写效率。测试结果表明:执行Co-Work算法后的ASOM模型实现了数据的物理与逻辑隔离,保证用户对元数据的自主控制和管理,而且随着数据尺寸增大读写效率明显提高,在数据达到1 GB时读写效率提高了12%。 展开更多
关键词 安全云存储 Hadoop分布式文件系统(hdfs) 一致性
下载PDF
初始信息素筛选的蚁群优化算法在HDFS副本选择中的研究 被引量:1
11
作者 段效琛 李英娜 +2 位作者 贾会玲 赵振刚 李川 《传感器与微系统》 CSCD 2017年第4期31-33,38,共4页
随着社会信息化程度的不断提高,各种形式的数据急剧膨胀。HDFS成为解决海量数据存储问题的一个分布式文件系统,而副本技术是云存储系统的关键。提出了一种基于初始信息素筛选的蚁群优化算法(Init Ph_ACO)的副本选择策略,通过将遗传算法(... 随着社会信息化程度的不断提高,各种形式的数据急剧膨胀。HDFS成为解决海量数据存储问题的一个分布式文件系统,而副本技术是云存储系统的关键。提出了一种基于初始信息素筛选的蚁群优化算法(Init Ph_ACO)的副本选择策略,通过将遗传算法(GA)与蚁群优化算法(ACO)算法相结合,将它们进行动态衔接。提出基于初始信息素筛选的ACO算法,既克服了ACO算法初始搜索速度慢,又充分利用GA的快速随机全局搜索能力。利用云计算仿真工具Cloud Sim来验证此策略的效果,结果表明:Init Ph_ACO策略在作业执行时间、副本读取响应时间和副本负载均衡性三个方面的性能均优于基于ACO算法的副本选择策略和基于GA的副本选择策略。 展开更多
关键词 Hadoop分布式文件系统(hdfs) 副本选择 初始信息素筛选 蚁群优化算法 遗传算法
下载PDF
HDFS数据动态分布设计与实现
12
作者 蔡宇昂 张鑫䶮 《绿色科技》 2020年第6期222-225,共4页
指出了由于SSD(Hard Disk Driver,HDD)的不对称I/O特性和价格因素,在分布式系统Hadoop中,由SSD和HDD组成混合存储系统是一种有效的解决方案。HDFS是针对同构集群设计的,对存储介质的类型未加以区分,在为数据块分配存储空间和保存数据块... 指出了由于SSD(Hard Disk Driver,HDD)的不对称I/O特性和价格因素,在分布式系统Hadoop中,由SSD和HDD组成混合存储系统是一种有效的解决方案。HDFS是针对同构集群设计的,对存储介质的类型未加以区分,在为数据块分配存储空间和保存数据块的过程中,不考虑存储介质之间的性能差异,导致新型存储介质的优势无法完全地发挥出来。为此,提出了一种动态的数据分布算法,将写频率较高的数据块存储在写性能较好的存储介质上,将读频率较高的数据块存储在读性能较好的存储介质上,以提高Hadoop系统的数据存取速度。测试结果表明:数据调度线程能够根据系统中数据块的读写情况,自适应地选择数据块的存放位置,提高了系统的数据存取速度。 展开更多
关键词 hdfs分布式文件系统 数据分布 数据块调度
下载PDF
基于区块链的电子病历系统的实现与应用
13
作者 李先婷 李松钊 《信息与电脑》 2023年第10期221-224,共4页
就诊者的病历往往集中存储在就诊医院的电子病历系统中,而传统电子病历系统存在数据易篡改、海量数据存储难、不可共享以及隐私保护差等问题。为了解决这些问题,将区块链技术和Hadoop引入电子病历系统,构建去中心化的、可共享的电子病... 就诊者的病历往往集中存储在就诊医院的电子病历系统中,而传统电子病历系统存在数据易篡改、海量数据存储难、不可共享以及隐私保护差等问题。为了解决这些问题,将区块链技术和Hadoop引入电子病历系统,构建去中心化的、可共享的电子病历系统。分析了电子病历系统中存在的问题。然后,利用区块链的技术特点,结合Hadoop的分布式文件系统(Hadoop Distributed File System,HDFS)以及电子病历系统的流程,构建基于区块链的电子病历系统。 展开更多
关键词 区块链 电子病历 分布式文件系统(hdfs)
下载PDF
基于Spark的校园文档加密系统的设计与实现
14
作者 张巧燕 裴栋 周佳琪 《信息与电脑》 2023年第8期132-135,共4页
文章主要针对学校的大量电子机要文档,设计了一个基于Spark的校园文档加密系统。该系统在搭建Spark平台的基础上,使用分布式文件系统(Hadoop Distributed File System,HDFS)存储文档,并将文档使用高级加密标准(Advanced Encryption Stan... 文章主要针对学校的大量电子机要文档,设计了一个基于Spark的校园文档加密系统。该系统在搭建Spark平台的基础上,使用分布式文件系统(Hadoop Distributed File System,HDFS)存储文档,并将文档使用高级加密标准(Advanced Encryption Standard,AES)算法进行加密和解密,能够满足500~1000个用户同时对各类重要文档进行加密和解密操作,不仅提高了数据的安全性,而且给工作人员提供了极大便利。 展开更多
关键词 SPARK 分布式文件系统(hdfs) 高级加密标准(AES)算法 文档加密系统
下载PDF
基于Hadoop架构的电力系统连锁故障分布式计算技术 被引量:13
15
作者 刘友波 刘洋 +3 位作者 刘俊勇 李勇 刘挺坚 刁塑 《电力系统自动化》 EI CSCD 北大核心 2016年第7期90-97,共8页
以提升大规模组合故障快速仿真分析能力为目标,在Hadoop框架下研发了连锁故障分布式计算技术。基于PSD-BPA软件计算模块,利用Java开发连锁故障计算分析功能,实现驱动判定、故障集筛选、事故链搜索、严重度评估4类模块。通过部署Hadoop... 以提升大规模组合故障快速仿真分析能力为目标,在Hadoop框架下研发了连锁故障分布式计算技术。基于PSD-BPA软件计算模块,利用Java开发连锁故障计算分析功能,实现驱动判定、故障集筛选、事故链搜索、严重度评估4类模块。通过部署Hadoop分布式文件系统(HDFS)存储调度功能,将事故链解耦为小粒度单一故障场景进行计算,可针对连锁故障仿真的不同复杂度提供跨系统的分布式计算服务,灵活应对计算开始前连锁故障中事故链组合的不可预测性。利用10机、16机系统和某省网实际数据进行技术测试,结果表明所研发系统实现了连锁故障分析应用与数据在计算服务网络中的分离,具备动态调配计算节点资源的能力,能自动适应事件规模为电网连锁故障的仿真分析提供强大计算能力,具有在线应用前景。 展开更多
关键词 连锁故障 分布式计算 Hadoop分布式文件系统(hdfs) PSD-BPA
下载PDF
基于HBase的小文件高效存储方法 被引量:2
16
作者 熊安萍 熊风波 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2016年第1期125-130,共6页
基于Hadoop平台的相关系统得到了广泛应用。Hadoop分布式文件系统(Hadoop distributed file system,HDFS)通过分布式的工作方式,负责处理海量文件数据。对HDFS而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据... 基于Hadoop平台的相关系统得到了广泛应用。Hadoop分布式文件系统(Hadoop distributed file system,HDFS)通过分布式的工作方式,负责处理海量文件数据。对HDFS而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据中小文件读写效率低的情况,提出一种基于HBase(Hadoop database)的海量小文件高效存储方法,利用HBase的存储优势,将小文件直接存储于HBase,从而有效减少元数据节点服务器(NameNode)的负载,并对上层应用系统提供透明的访问接口。实验结果表明,该方法可以实现海量小文件的高效存储,提高HDFS环境下小文件的读写效率。 展开更多
关键词 Hadoop分布式文件系统(hdfs) 海量数据 HBASE 文件存储 读写性能
下载PDF
大数据环境下Hadoop分布式系统的研究与设计 被引量:10
17
作者 廖锋 成静静 《广东通信技术》 2013年第10期22-27,共6页
随着互联网应用的飞速发展和信息的社会化数据呈爆发式的增长,传统的关系数据库在处理分析如此海量的数据时出现性能和可扩展性的瓶颈,通过介绍目前大数据时代面临的挑战,分析了大数据对IT系统的挑战以及针对大数据业务特点的应对策略... 随着互联网应用的飞速发展和信息的社会化数据呈爆发式的增长,传统的关系数据库在处理分析如此海量的数据时出现性能和可扩展性的瓶颈,通过介绍目前大数据时代面临的挑战,分析了大数据对IT系统的挑战以及针对大数据业务特点的应对策略。目前大数据技术目前还没形成统一标准,但业界已经广泛使用Hadoop分布式系统作为其大数据处理平台,对大数据环境下Hadoop分布式系统进行了详尽的研究与设计,包括分布式文件系统、并行计算模型、分布式数据库、分布式锁服务等各个功能模块,大数据环境下的Hadoop分布式系统将更有效支撑未来电信运营商业务的发展。 展开更多
关键词 大数据 高并发 高存储 高扩展性和可用性 MPP架构 NOSQL数据库 Hadoop分布式系统分布式文件系统(hdfs) 并行数据处理模型(MapReduce) 分布式数据库(HBase BigTable) 分布式锁服务(ZooKeeper Chubby)
下载PDF
单机下Hadoop小文件处理性能分析 被引量:9
18
作者 袁玉 崔超远 +1 位作者 乌云 陈祝红 《计算机工程与应用》 CSCD 2013年第3期57-60,共4页
Hadoop主要是针对大量数据进行分布式处理的软件框架,即适合于处理大文件,但它们是否也适合处理小文件值得商榷。以词频统计为例,通过在单机环境下一些典型文件测试集的实验,对比了不同文件输入格式对Hadoop处理小文件性能的差异。从Had... Hadoop主要是针对大量数据进行分布式处理的软件框架,即适合于处理大文件,但它们是否也适合处理小文件值得商榷。以词频统计为例,通过在单机环境下一些典型文件测试集的实验,对比了不同文件输入格式对Hadoop处理小文件性能的差异。从Hadoop的工作流程和原理上解释了出现此性能差异的原因。通过分析得出多个小文件整合为一个数据片split有助于改善Hadoop处理小文件性能。 展开更多
关键词 HADOOP Hadoop的分布式文件系统(hdfs) MAPREDUCE 文件处理 文件输入格式
下载PDF
Hadoop中处理小文件的四种方法的性能分析 被引量:8
19
作者 李三淼 李龙澍 《计算机工程与应用》 CSCD 北大核心 2016年第9期44-49,共6页
Hadoop的设计初衷是为了存储和分析大数据,其最擅长处理的是大数据集。但是在实际应用中,却存在着大量的小文件。一般情况下有四种处理海量小文件的方法,分别为默认输入格式Text Input Format、为处理小文件而设计的Combine File Input ... Hadoop的设计初衷是为了存储和分析大数据,其最擅长处理的是大数据集。但是在实际应用中,却存在着大量的小文件。一般情况下有四种处理海量小文件的方法,分别为默认输入格式Text Input Format、为处理小文件而设计的Combine File Input Format输入格式、Sequence File技术以及Harballing技术。为了比较在相同的Hadoop分布式环境下这四种技术处理大量小文件时的性能,选用了典型的数据集,利用词频统计程序,来比较四种小文件处理技术的性能差异。实验研究表明,在不同需求下处理大量小文件的时候,选用适当的处理方法能够在很大程度上提高大量小文件的处理效率。 展开更多
关键词 HADOOP 文件处理 Hadoop的分布式文件系统(hdfs) MAPREDUCE 大数据
下载PDF
海量样本数据集中小文件的存取优化研究 被引量:5
20
作者 马振 哈力旦.阿布都热依木 李希彤 《计算机工程与应用》 CSCD 北大核心 2018年第22期80-84,98,共6页
针对Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)在海量样本数据集存储方面存在内存占用多、读取效率低的问题,以及分布式数据库HBase在存储文件名重复度和类似度高时产生访问热点的问题,结合样本数据集的特点、类型,... 针对Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)在海量样本数据集存储方面存在内存占用多、读取效率低的问题,以及分布式数据库HBase在存储文件名重复度和类似度高时产生访问热点的问题,结合样本数据集的特点、类型,提出一种面向样本数据集存取优化方案,优化样本数据集中小文件的写入、读取、添加、删除和替换策略。该方案根据硬件配置测得大、小文件的分界点,通过变尺度堆栈算法按样本数据集的目录结构将小文件合并存储至HDFS;结合行键优化策略将文件索引存储在HBase数据表中;搭建基于Ehcache缓存框架的预取机制。实验结果表明,该方案降低了主节点的内存消耗,提高了文件的读取效率,实现了对海量样本数据集中小文件的高效存取。 展开更多
关键词 Hadoop分布式文件系统(hdfs) 文件 样本数据集 缓存预取 分布式数据库 HBASE
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部