期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于HBase的分布式空间数据库技术 被引量:12
1
作者 吴琰 唐小明 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2016年第6期1355-1360,共6页
针对在大型地理信息系统(GIS)中,需要对海量矢量数据和栅格数据进行存储并对高并发的用户查询请求提供高效响应,传统的设计方案难以满足需求的问题,提出一种使用基于内存存储的分布式数据库HBase存储空间数据,并设计基于GeoHash的分布... 针对在大型地理信息系统(GIS)中,需要对海量矢量数据和栅格数据进行存储并对高并发的用户查询请求提供高效响应,传统的设计方案难以满足需求的问题,提出一种使用基于内存存储的分布式数据库HBase存储空间数据,并设计基于GeoHash的分布式空间索引,实现了矢量空间数据与栅格空间数据的分布式存储与快速查询.实验表明,该方法提升了海量空间数据的查询速度. 展开更多
关键词 分布式空间数据库 海量数据 hadoop分布式文件系统 hbase数据库
下载PDF
基于HBase的小文件高效存储方法 被引量:2
2
作者 熊安萍 熊风波 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2016年第1期125-130,共6页
基于Hadoop平台的相关系统得到了广泛应用。Hadoop分布式文件系统(Hadoop distributed file system,HDFS)通过分布式的工作方式,负责处理海量文件数据。对HDFS而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据... 基于Hadoop平台的相关系统得到了广泛应用。Hadoop分布式文件系统(Hadoop distributed file system,HDFS)通过分布式的工作方式,负责处理海量文件数据。对HDFS而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据中小文件读写效率低的情况,提出一种基于HBase(Hadoop database)的海量小文件高效存储方法,利用HBase的存储优势,将小文件直接存储于HBase,从而有效减少元数据节点服务器(NameNode)的负载,并对上层应用系统提供透明的访问接口。实验结果表明,该方法可以实现海量小文件的高效存储,提高HDFS环境下小文件的读写效率。 展开更多
关键词 hadoop分布式文件系统(hDFS) 海量数据 hbase 小文件存储 读写性能
下载PDF
分布式存储系统HBase关键技术研究 被引量:12
3
作者 张智 龚宇 《现代计算机(中旬刊)》 2014年第11期33-37,共5页
HBase是一个面向列的非关系型的开源分布式存储系统,它基于Hadoop HDFS文件存储系统,使用MapReduce来处理海量数据,利用Zookeeper作为协同服务,它使用简单的键值对映像关系为超大规模和高并发的海量数据实时响应系统提供一个很好的解决... HBase是一个面向列的非关系型的开源分布式存储系统,它基于Hadoop HDFS文件存储系统,使用MapReduce来处理海量数据,利用Zookeeper作为协同服务,它使用简单的键值对映像关系为超大规模和高并发的海量数据实时响应系统提供一个很好的解决方案。对HBase的体系结构、数据模型、MapReduce算法设计等几个方面进行详细阐述,并对HBase的未来发展做出展望。 展开更多
关键词 分布式存储系统 hbase hadoop hadoop文件系统 MAPREDUCE
下载PDF
基于Hadoop平台的分布式重删存储系统 被引量:16
4
作者 刘青 付印金 +1 位作者 倪桂强 梅建民 《计算机应用》 CSCD 北大核心 2016年第2期330-335,共6页
针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop... 针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop大数据处理平台下的分布式文件系统(HDFS)和非关系型数据库HBase两种数据管理模式,设计并实现一种可扩展分布式重删存储系统。其中,Map Reduce并行编程框架实现分布式并行重删处理,HDFS负责重删后的数据存储,在HBase数据库中构建索引表,实现高效数据块索引查询。最后,利用虚拟机镜像文件数据集对系统进行了测试,基于Hadoop平台的分布式重删系统能在保证高重删率的同时,具有高吞吐率和良好的可扩展性。 展开更多
关键词 重复数据删除 分布式存储 hadoop hbase hadoop分布式文件系统
下载PDF
基于Hadoop的海量气象雷达小文件存储研究 被引量:4
5
作者 杨芙容 王永丽 王文明 《成都信息工程学院学报》 2015年第3期254-258,共5页
针对气象雷达观测产生的文件多、数据量大、计算复杂等特点,通过研究分布式存储计算平台Hadoop,提出将雷达观测中实时生成的一次产品文件直接存储在HBase中;而对立体扫描文件和计算生成的二次产品文件,采用Sequence File技术合并处理后... 针对气象雷达观测产生的文件多、数据量大、计算复杂等特点,通过研究分布式存储计算平台Hadoop,提出将雷达观测中实时生成的一次产品文件直接存储在HBase中;而对立体扫描文件和计算生成的二次产品文件,采用Sequence File技术合并处理后存储在Hadoop分布式文件系统中。根据雷达文件的标识特点,将HBase的行主键设计成时间+产品参数,利用随机散列与预分区保证HBase中regionserver的负载均衡;通过与直接存储在Hadoop分布式文件系统的方案进行比较,从Name Node的内存占用和文件读取时间两个方面进行测试和方案评估。实验证明该方案节省约60%的Name Node的内存空间,同时提高近18%的文件读取速率。 展开更多
关键词 计算机应用 大数据 雷达数据 小文件问题 分布式存储 hadoop hbase SEQUENCE file
下载PDF
基于HDFS优化传统信息化架构的数据存储模式 被引量:2
6
作者 鲁士仿 王伟 严红 《指挥信息系统与技术》 2016年第5期107-112,共6页
首先,分析了企业传统信息化架构下数据存储现状;然后,结合Hadoop技术特点,提出了运用Hadoop分布式文件系统(HDFS)提升企业数据存储能力的思路和系统架构;最后,通过经济、效率和可靠性等方面的分析,说明其可行性。
关键词 hadoop分布式文件系统 数据存储 大数据
下载PDF
一种大规模数据快速并行导入工具的研究与实现 被引量:1
7
作者 邵开丽 姜伟 吕举文 《计算机应用与软件》 CSCD 2015年第9期26-30,共5页
随着大规模数据的快速增长及高可靠性需求,将本地数据迁移到分布式数据库势在必行。针对这种情况,提出一种基于MapReduce的"快速并行导入"技术,充分利用集群的并行计算能力,直接向HBase底层存储文件HFile写入数据,既可避免上... 随着大规模数据的快速增长及高可靠性需求,将本地数据迁移到分布式数据库势在必行。针对这种情况,提出一种基于MapReduce的"快速并行导入"技术,充分利用集群的并行计算能力,直接向HBase底层存储文件HFile写入数据,既可避免上层数据导入时间的浪费,又节省资源开销。有效解决了从单机数据库向HBase分布式数据库导入数据功能低下、效率不高等问题。实验结果表明,在"快速并行导入"技术的基础上设计并实现的快速并行导入工具,支持多列族文本数据的快速导入。与传统使用API导入数据相比,速度提升一倍以上。 展开更多
关键词 hadoop hbase MapReduce分布式数据库 大规模数据导入
下载PDF
大数据环境下地质资料的存储策略与文本化导入技术 被引量:3
8
作者 刘文毅 邓吉秋 +1 位作者 韩肖肖 何美香 《地质学刊》 CAS 2019年第3期367-371,共5页
在分析地质资料文档内容与形式特征的基础上,提出Hadoop大数据环境下的地质资料一体化耦合数据模型与存储策略,分析确定HDFS下地质资料文本化目标格式,并对地质资料原始格式、转换后的文本格式及地质信息的存储方式与模式进行设计;研究... 在分析地质资料文档内容与形式特征的基础上,提出Hadoop大数据环境下的地质资料一体化耦合数据模型与存储策略,分析确定HDFS下地质资料文本化目标格式,并对地质资料原始格式、转换后的文本格式及地质信息的存储方式与模式进行设计;研究常见地质资料格式的文本化实现方式,并构建文本转换技术流程。为大数据环境下地质资料的文本导入提供技术路径,以及大数据环境下文本化地质资料的信息抽取、融合等智能化处理提供统一数据基础,对地质资料大数据分析具有实际意义。 展开更多
关键词 地质大数据 hadoop数据库 hDFS系统 地质资料 存储策略 文本转换
下载PDF
海量样本数据集中小文件的存取优化研究 被引量:5
9
作者 马振 哈力旦.阿布都热依木 李希彤 《计算机工程与应用》 CSCD 北大核心 2018年第22期80-84,98,共6页
针对Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)在海量样本数据集存储方面存在内存占用多、读取效率低的问题,以及分布式数据库HBase在存储文件名重复度和类似度高时产生访问热点的问题,结合样本数据集的特点、类型,... 针对Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)在海量样本数据集存储方面存在内存占用多、读取效率低的问题,以及分布式数据库HBase在存储文件名重复度和类似度高时产生访问热点的问题,结合样本数据集的特点、类型,提出一种面向样本数据集存取优化方案,优化样本数据集中小文件的写入、读取、添加、删除和替换策略。该方案根据硬件配置测得大、小文件的分界点,通过变尺度堆栈算法按样本数据集的目录结构将小文件合并存储至HDFS;结合行键优化策略将文件索引存储在HBase数据表中;搭建基于Ehcache缓存框架的预取机制。实验结果表明,该方案降低了主节点的内存消耗,提高了文件的读取效率,实现了对海量样本数据集中小文件的高效存取。 展开更多
关键词 hadoop分布式文件系统(hDFS) 小文件 样本数据集 缓存预取 分布式数据库 hbase
下载PDF
电网数据存储技术选型的研究
10
作者 李成岭 郑雨翔 +2 位作者 洪祎祺 李雯 郭慧敏 《电信科学》 2018年第5期183-191,共9页
国网将采用国网公司大数据平台分布式文件系统(基于HDFS优化封装)存储非结构化数据与实时数据。大数据平台分布式文件系统基于HDFS优化封装,HDFS具有高容错、低成本、高吞吐量等特性,适合大规模数据集的应用,能有效支持大文件存储。介... 国网将采用国网公司大数据平台分布式文件系统(基于HDFS优化封装)存储非结构化数据与实时数据。大数据平台分布式文件系统基于HDFS优化封装,HDFS具有高容错、低成本、高吞吐量等特性,适合大规模数据集的应用,能有效支持大文件存储。介绍了非结构化数据存储以及实时数据存储,对电网数据存储技术选型进行了研究。 展开更多
关键词 数据中心 hadoop hDFS hbase
下载PDF
Mobile Internet Big Data Platform in China Unicom 被引量:6
11
作者 Wenliang Huang Zhen Chen +3 位作者 Wenyu Dong Hang Li Bin Cao Junwei Cao 《Tsinghua Science and Technology》 SCIE EI CAS 2014年第1期95-101,共7页
China Unicorn, the largest WCDMA 3G operator in China, meets the requirements of the historical Mobile Internet Explosion, or the surging of Mobile Internet Traffic from mobile terminals. According to the internal sta... China Unicorn, the largest WCDMA 3G operator in China, meets the requirements of the historical Mobile Internet Explosion, or the surging of Mobile Internet Traffic from mobile terminals. According to the internal statistics of China Unicom, mobile user traffic has increased rapidly with a Compound Annual Growth Rate (CAGR) of 135%. Currently China Unicorn monthly stores more than 2 trillion records, data volume is over 525 TB, and the highest data volume has reached a peak of 5 PB. Since October 2009, China Unicom has been developing a home-brewed big data storage and analysis platform based on the open source Hadoop Distributed File System (HDFS) as it has a long-term strategy to make full use of this Big Data. All Mobile Internet Traffic is well served using this big data platform. Currently, the writing speed has reached 1 390 000 records per second, and the record retrieval time in the table that contains trillions of records is less than 100 ms. To take advantage of this opportunity to be a Big Data Operator, China Unicom has developed new functions and has multiple innovations to solve space and time constraint challenges presented in data processing. In this paper, we will introduce our big data platform in detail. Based on this big data platform, China Unicom is building an industry ecosystem based on Mobile Internet Big Data, and considers that a telecom operator centric ecosystem can be formed that is critical to reach prosperity in the modern communications business. 展开更多
关键词 big data platform China Unicorn 3G wireless network hadoop distributed file System (hDFS) mobilenternet network forensic data warehouse hbase
原文传递
TIFAflow: Enhancing Traffic Archiving System with Flow Granularity for Forensic Analysis in Network Security 被引量:3
12
作者 Zhen Chen Linyun Ruan +2 位作者 Junwei Cao Yifan Yu Xin Jiang 《Tsinghua Science and Technology》 SCIE EI CAS 2013年第4期406-417,共12页
The archiving of Internet traffic is an essential function for retrospective network event analysis and forensic computer communication. The state-of-the-art approach for network monitoring and analysis involves stora... The archiving of Internet traffic is an essential function for retrospective network event analysis and forensic computer communication. The state-of-the-art approach for network monitoring and analysis involves storage and analysis of network flow statistic. However, this approach loses much valuable information within the Internet traffic. With the advancement of commodity hardware, in particular the volume of storage devices and the speed of interconnect technologies used in network adapter cards and multi-core processors, it is now possible to capture 10 Gbps and beyond real-time network traffic using a commodity computer, such as n2disk. Also with the advancement of distributed file system (such as Hadoop, ZFS, etc.) and open cloud computing platform (such as OpenStack, CloudStack, and Eucalyptus, etc.), it is practical to store such large volume of traffic data and fully in-depth analyse the inside communication within an acceptable latency. In this paper, based on well- known TimeMachine, we present TIFAflow, the design and implementation of a novel system for archiving and querying network flows. Firstly, we enhance the traffic archiving system named TImemachine+FAstbit (TIFA) with flow granularity, i.e., supply the system with flow table and flow module. Secondly, based on real network traces, we conduct performance comparison experiments of TIFAflow with other implementations such as common database solution, TimeMachine and TIFA system. Finally, based on comparison results, we demonstrate that TIFAflow has a higher performance improvement in storing and querying performance than TimeMachine and TIFA, both in time and space metrics. 展开更多
关键词 network security traffic archival forensic analysis phishing attack bitmap database hadoop distributed file system cloud computing NoSQL
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部