期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于HBase的小文件高效存储方法 被引量:2
1
作者 熊安萍 熊风波 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2016年第1期125-130,共6页
基于Hadoop平台的相关系统得到了广泛应用。Hadoop分布式文件系统(Hadoop distributed file system,HDFS)通过分布式的工作方式,负责处理海量文件数据。对HDFS而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据... 基于Hadoop平台的相关系统得到了广泛应用。Hadoop分布式文件系统(Hadoop distributed file system,HDFS)通过分布式的工作方式,负责处理海量文件数据。对HDFS而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据中小文件读写效率低的情况,提出一种基于HBase(Hadoop database)的海量小文件高效存储方法,利用HBase的存储优势,将小文件直接存储于HBase,从而有效减少元数据节点服务器(NameNode)的负载,并对上层应用系统提供透明的访问接口。实验结果表明,该方法可以实现海量小文件的高效存储,提高HDFS环境下小文件的读写效率。 展开更多
关键词 hadoop分布式文件系统(hdfs) 海量数据 HBASE 小文件存储 读写性能
下载PDF
一种提高海量电子健康档案存储性能的方法 被引量:2
2
作者 杨志芬 陈绮 《计算机应用与软件》 CSCD 2016年第1期21-23,41,共4页
医疗旅游是目前兴起的一个新型产业,面对今后日益增长的巨大数据,有效数据的存储和用户的快速访问是急需解决的课题。Hadoop的出现满足了这一需求。但Hadoop并不适合用来处理大量的小文件,其HDFS(Hadoop distributed file system)采用... 医疗旅游是目前兴起的一个新型产业,面对今后日益增长的巨大数据,有效数据的存储和用户的快速访问是急需解决的课题。Hadoop的出现满足了这一需求。但Hadoop并不适合用来处理大量的小文件,其HDFS(Hadoop distributed file system)采用主从架构,存储大量的小文件时,元数据快速增加,Name Node内存被大量占用,读取性能也受到一定的影响,直接降低了整个系统的扩展性及效率。利用RDBMS和Hadoop的优势,提出一种改进的小文件存储优化方案,同时又根据电子健康档案数据的特点,提出按副本组进行数据传输存储的方案,并采用数据预取机制,提高访问效率。实验表明,该方法能有效提高电子健康档案中的小文件存储和读取的性能,一定程度上很好地解决了NameNode内存瓶颈问题。 展开更多
关键词 hadoop hdfs 小文件 存储效率 数据预取
下载PDF
海量样本数据集中小文件的存取优化研究 被引量:5
3
作者 马振 哈力旦.阿布都热依木 李希彤 《计算机工程与应用》 CSCD 北大核心 2018年第22期80-84,98,共6页
针对Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)在海量样本数据集存储方面存在内存占用多、读取效率低的问题,以及分布式数据库HBase在存储文件名重复度和类似度高时产生访问热点的问题,结合样本数据集的特点、类型,... 针对Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)在海量样本数据集存储方面存在内存占用多、读取效率低的问题,以及分布式数据库HBase在存储文件名重复度和类似度高时产生访问热点的问题,结合样本数据集的特点、类型,提出一种面向样本数据集存取优化方案,优化样本数据集中小文件的写入、读取、添加、删除和替换策略。该方案根据硬件配置测得大、小文件的分界点,通过变尺度堆栈算法按样本数据集的目录结构将小文件合并存储至HDFS;结合行键优化策略将文件索引存储在HBase数据表中;搭建基于Ehcache缓存框架的预取机制。实验结果表明,该方案降低了主节点的内存消耗,提高了文件的读取效率,实现了对海量样本数据集中小文件的高效存取。 展开更多
关键词 hadoop分布式文件系统(hdfs) 小文件 样本数据集 缓存预取 分布式数据库 HBASE
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部