期刊文献+
共找到75篇文章
< 1 2 4 >
每页显示 20 50 100
基于HBase的多分类逻辑回归算法研究 被引量:11
1
作者 刘黎志 邓介一 吴云韬 《计算机应用研究》 CSCD 北大核心 2018年第10期3007-3010,共4页
为解决在大数据环境下,用于训练多分类逻辑回归模型的数据集可能会超过执行计算的客户端内存的问题,提出了块批量梯度下降算法,用于计算回归模型的系数。将训练数据集存入HBase后,通过设置表扫描对象的起始行键参数,可取出大小合适的含... 为解决在大数据环境下,用于训练多分类逻辑回归模型的数据集可能会超过执行计算的客户端内存的问题,提出了块批量梯度下降算法,用于计算回归模型的系数。将训练数据集存入HBase后,通过设置表扫描对象的起始行键参数,可取出大小合适的含训练样本及结果值的数据块;同时为避免客户端到服务端频繁的RPC调用,取出的数据块可进行多次迭代计算,以加快系数的收敛。当取出的数据块达到指定的迭代次数后,再按行键次序取出下一个数据块。如此循环,直到系数收敛或达到指定的循环控制阈值。多分类的逻辑回归问题可转换为二分类来解决,因此需要为每一个分类在训练数据表中设定结果值列,结合训练样本列簇,按块批量梯度下降算法得到每个分类的回归系数。实验结果表明得到的回归系数能准确地对测试样本进行分类。 展开更多
关键词 块批量梯度下降 多分类 逻辑回归 大数据 hbase
下载PDF
基于Hbase的地震大数据存储研究 被引量:14
2
作者 刘坚 李盛乐 +4 位作者 戴苗 陈晓琳 康凯 刘珠妹 郭啟倩 《大地测量与地球动力学》 CSCD 北大核心 2015年第5期890-893,共4页
提出一种基于Hbase的地震大数据存储方法,通过搭建测试平台、Java语言开发测试程序,并与MySQL在存储、查询结构化与非结构化数据方面进行性能对比。结果表明,Hbase存取地震数据耗时更低,在数据量多时,其性能更加显著。
关键词 大数据 存储模式 NOSQL数据库 hbase
下载PDF
一种基于HBase的智能电网时序大数据处理方法 被引量:17
3
作者 王远 陶烨 +1 位作者 袁军 何卫 《系统仿真学报》 CAS CSCD 北大核心 2016年第3期559-568,共10页
随着物联网关键技术与理论的发展,物联网应用受到了越来越多的关注。智能电网是一类典型的物联网应用,遍布全网的传感器收集及产生了大量反映关键设备运行状态的时序数据。如何利用时序数据确保智能电网的安全以及稳定运行是当前的研究... 随着物联网关键技术与理论的发展,物联网应用受到了越来越多的关注。智能电网是一类典型的物联网应用,遍布全网的传感器收集及产生了大量反映关键设备运行状态的时序数据。如何利用时序数据确保智能电网的安全以及稳定运行是当前的研究热点之一。针对智能电网时序数据设备多、数据规模大、产生速度快等特点,提出了一种基于HBase的海量时序数据存储处理方法,着重介绍了如何利用策略驱动技术实现时序数据的灵活存储与处理。通过构建HBase集群,验证了该方法的有效性。 展开更多
关键词 大数据 物联网 hbase 时序数据 性能优化
下载PDF
基于HBase的高能物理数据存储及分析平台 被引量:7
4
作者 雷晓凤 李强 孙功星 《计算机工程》 CAS CSCD 北大核心 2015年第6期49-55,共7页
高能物理对撞机产生数百亿计的物理事例,而物理分析则是从中选取几千个有意义的事例,该分析过程是一个典型的大数据处理及数据挖掘应用。由此,设计高效的数据结构、存储及访问机制,快速挑选出有意义的物理事例十分重要。介绍事例的数据... 高能物理对撞机产生数百亿计的物理事例,而物理分析则是从中选取几千个有意义的事例,该分析过程是一个典型的大数据处理及数据挖掘应用。由此,设计高效的数据结构、存储及访问机制,快速挑选出有意义的物理事例十分重要。介绍事例的数据结构、存储和处理技术,分析高能物理数据的特点,提出一种以HBase,ROOT,BEAN及Map Reduce为基础的新型高能物理数据存储及处理技术系统。利用HBase存储数据、Map Reduce实现并行处理,选择ROOT和BEAN作为高能物理分析框架,并给出具体设计与实现方案。测试结果表明,与传统高能物理数据存储系统相比,该系统具有更快的数据处理速度,当预筛选服务生效时能够更加有效地利用I/O和CPU资源。 展开更多
关键词 高能物理数据 大数据 hbase数据库 ROOT框架 BEAN框架 MAPREDUCE框架
下载PDF
HiBase:一种基于分层式索引的高效HBase查询技术与系统 被引量:56
5
作者 葛微 罗圣美 +6 位作者 周文辉 赵頔 唐云 周娟 曲文武 袁春风 黄宜华 《计算机学报》 EI CSCD 北大核心 2016年第1期140-153,共14页
大数据时代,众多应用领域的数据量爆炸式增长,迫切需要研究和寻找有效的大数据存储管理方法,提供实时或准实时的大数据查询分析能力.Hadoop HBase系统为大数据的存储管理提供了一种具有高可扩展性的技术方法和系统平台.然而HBase只有主... 大数据时代,众多应用领域的数据量爆炸式增长,迫切需要研究和寻找有效的大数据存储管理方法,提供实时或准实时的大数据查询分析能力.Hadoop HBase系统为大数据的存储管理提供了一种具有高可扩展性的技术方法和系统平台.然而HBase只有主键索引,不支持非主键索引,这导致HBase的数据查询效率较低,难以满足数据实时或准实时查询需求.为此,在HBase基础上提供面向非主键的快速查询能力,是目前Hadoop环境下急需研究和解决的一个重要问题.该文研究提出了一种基于分层式HBase非主键索引的查询模型和方法,该模型和方法首先建立基于HBase的持久性索引.然后,为了利用内存提升查询性能,该文进一步提出了一种索引热点数据缓存技术和一种高效的热度累积缓存替换策略,以降低对HBase索引表的磁盘访问开销.热度累积缓存替换策略克服了最近最少使用(LRU)算法的局限性,考虑数据访问的累积热度和时间局部特性,从而更准确地捕获数据访问的特征.为了使索引热点数据缓存内存层具有良好的可扩展性,HiBase设计了基于一致性哈希的分布式内存缓存,支持高效的基于非主键的单点查询和范围查询.最终,该文设计实现了完整的分层式索引和查询系统HiBase.在千万至十亿条记录规模数据集上的测试结果表明,HiBase冷查询响应时间比标准HBase快65倍(大结果集)到3000多倍(小结果集);而引入基于查询热度累积算法的内存索引缓存方法后,热查询性能可在HiBase冷查询基础上再提升5~15倍,使得总体查询性能比标准HBase快300多倍(大结果集)到1.7万倍(小结果集),比开源的Hindex系统快5~20倍. 展开更多
关键词 hbase 非主键索引 查询处理 分层式索引 缓存替换策略 大数据
下载PDF
基于HBase和Hive的航班延误平台的存储方法 被引量:6
6
作者 吴仁彪 刘超 屈景怡 《计算机应用》 CSCD 北大核心 2018年第5期1339-1345,共7页
针对我国目前航班延误平台的移植难、可扩展性差,无法适应民航高速发展所带来的大数据量存储的现状,设计了面向大数据的跨平台、高适用性与高扩展性的航班延误平台。该平台以大数据工具Leaf Let为可视化载体,在地图界面实时显示航班轨... 针对我国目前航班延误平台的移植难、可扩展性差,无法适应民航高速发展所带来的大数据量存储的现状,设计了面向大数据的跨平台、高适用性与高扩展性的航班延误平台。该平台以大数据工具Leaf Let为可视化载体,在地图界面实时显示航班轨迹并将轨迹数据加载至HBase数据库中,并且利用信息摘要算法(MD5)重新设计与优化航班数据表的行键,以解决其递增的飞行时间特性产生的"热点"问题;针对HBase过滤器多级查询的缺陷,提出了基于Solr Cloud的关联查询算法,利用Solr Cloud实现对行键与索引字段的分层存储,从而实现HBase二级快速索引;最后在HBase的历史航班数据与飞行计划数据基础上,构建基于Hive的海量航班信息数据仓库。实验结果显示,航班延误大数据平台的可扩展性与搭建的航班信息数据仓库可以满足民航对数据集中统一存储的需求,而多条件查询的响应速度与无二级索引的集群相比提高了上百倍,并且这种优势随着航班数据量的增长愈发明显。 展开更多
关键词 大数据平台 航班延误 hbase Hive SolrCloud LEAFLET
下载PDF
一种HBase的大数据平台负载均衡算法分析及优化 被引量:3
7
作者 李峰泉 《粘接》 CAS 2020年第5期79-81,共3页
HBase是一种分布式的、面向列的开源数据库,其原有的负载均衡算法策略是保证系统中所有区域服务器的区域数量相同。但是,随着大数据时代的到来,开源数据库需要同时面对海量的数据分析。然而,由于此时系统中各个区域服务器的访问量并不相... HBase是一种分布式的、面向列的开源数据库,其原有的负载均衡算法策略是保证系统中所有区域服务器的区域数量相同。但是,随着大数据时代的到来,开源数据库需要同时面对海量的数据分析。然而,由于此时系统中各个区域服务器的访问量并不相等,就造成了数据库中的负载不均衡现象,最终造成数据库产生热点数据,影响整体工作效率。为提高数据库相应速度,避免部分区域服务器成为热点造成高负载,需要对数据库平衡负载均衡算法进行预测和优化,从而避免数据库中出现某些区域服务器负载过重的现象,提高数据库运行效率。 展开更多
关键词 hbase 大数据平台 负载均衡 优化
下载PDF
基于HBase的小文件高效存储方法 被引量:2
8
作者 熊安萍 熊风波 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2016年第1期125-130,共6页
基于Hadoop平台的相关系统得到了广泛应用。Hadoop分布式文件系统(Hadoop distributed file system,HDFS)通过分布式的工作方式,负责处理海量文件数据。对HDFS而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据... 基于Hadoop平台的相关系统得到了广泛应用。Hadoop分布式文件系统(Hadoop distributed file system,HDFS)通过分布式的工作方式,负责处理海量文件数据。对HDFS而言,海量数据中的小文件存储问题制约着系统高效工作的能力。针对海量数据中小文件读写效率低的情况,提出一种基于HBase(Hadoop database)的海量小文件高效存储方法,利用HBase的存储优势,将小文件直接存储于HBase,从而有效减少元数据节点服务器(NameNode)的负载,并对上层应用系统提供透明的访问接口。实验结果表明,该方法可以实现海量小文件的高效存储,提高HDFS环境下小文件的读写效率。 展开更多
关键词 Hadoop分布式文件系统(HDFS) 海量数据 hbase 小文件存储 读写性能
下载PDF
一种基于HBase存储引擎的工业大数据前向插值方法 被引量:2
9
作者 鲍远松 董文生 +2 位作者 万英杰 黄明 李亚贝 《信息技术与标准化》 2016年第9期56-59,共4页
介绍了以HBase为存储引擎的工业大数据存储方案,在此基础上设计并实现了基于HBase过滤器的前向插值算法,使得HBase能够更加方便地应用于工业大数据领域,并在产品开发和项目推广中大量应用。
关键词 大数据 hbase 前向插值 存储设计 过滤器
下载PDF
基于HBase的位置数据区域查询研究 被引量:1
10
作者 何首武 蒋林利 李晓英 《广西科技师范学院学报》 2016年第3期140-143,共4页
随着位置服务的广泛应用,如何对海量位置数据进行高效的空间查询成为研究热点.结合对分布式数据库HBase存储机制与Geohash编码原理的研究,基于Geo Hash构建空间索引,设计位置数据存储模型,并在此基础上探讨一种多边形区域查询算法.通过... 随着位置服务的广泛应用,如何对海量位置数据进行高效的空间查询成为研究热点.结合对分布式数据库HBase存储机制与Geohash编码原理的研究,基于Geo Hash构建空间索引,设计位置数据存储模型,并在此基础上探讨一种多边形区域查询算法.通过与传统My SQL数据库的试验对比,验证了该算法具有较高的查询效率和良好的可扩展性. 展开更多
关键词 位置数据 hbase GeoHash 区域查询
下载PDF
基于大数据HBase的电子病历智能全文检索系统研究 被引量:4
11
作者 黄晓琴 戴静娟 徐海东 《中国数字医学》 2019年第5期27-29,共3页
针对当前医院临床信息系统中的检查报告、检验报告、电子病历等只能通过对一些结构化的数据库进行信息查询,如病人的检查ID号、性别、检查时间等结构化条件,然后通过病历相应的存储规则匹配找到,不能实现病历内容的全文检索。自主研发... 针对当前医院临床信息系统中的检查报告、检验报告、电子病历等只能通过对一些结构化的数据库进行信息查询,如病人的检查ID号、性别、检查时间等结构化条件,然后通过病历相应的存储规则匹配找到,不能实现病历内容的全文检索。自主研发了基于大数据HBase技术的临床智能搜索引擎,通过搜索引擎技术破解了非结构化临床信息检索的难题,实现了在220万份临床文件通过关键词检索仅需要25ms以内的查询速度,并对医疗领域中文自然语言处理的关键技术进行了深入剖析。 展开更多
关键词 电子病历 大数据 全文智能检索 hbase
下载PDF
基于Hbase的EHR浏览器的设计与实现
12
作者 王晔 王霏 《信息技术与标准化》 2014年第11期40-42,共3页
提出了一种基于Hbase的EHR浏览器的设计及实现的方法,该方法主要针对EHR浏览器的实际需求和数据访问特点,通过良好的行键设计来提高健康档案数据的处理和查询速度,对行键和列簇的构成方式进行优化,并通过二级索引的方式进一步提高查询... 提出了一种基于Hbase的EHR浏览器的设计及实现的方法,该方法主要针对EHR浏览器的实际需求和数据访问特点,通过良好的行键设计来提高健康档案数据的处理和查询速度,对行键和列簇的构成方式进行优化,并通过二级索引的方式进一步提高查询的效率。 展开更多
关键词 EHR浏览器 大数据 行键 列簇
下载PDF
HBase架构中RPC客户端的通信性能优化 被引量:4
13
作者 胡波 谭良 《计算机科学》 CSCD 北大核心 2016年第4期97-101,110,共6页
HBase已成为大数据存储、分析和处理的关键部件,对其进行性能优化是当前产业界和学术界的一个研究热点。HBase架构包括多个子系统,子系统之间的通信采用远程过程调用(Remote Procedure Call,RPC)通信机制,但这些子系统的RPC客户端采用... HBase已成为大数据存储、分析和处理的关键部件,对其进行性能优化是当前产业界和学术界的一个研究热点。HBase架构包括多个子系统,子系统之间的通信采用远程过程调用(Remote Procedure Call,RPC)通信机制,但这些子系统的RPC客户端采用的是阻塞通信模式,这种模式在客户端数据请求密集的情况下会引起线程的阻塞,影响了子系统之间的通信效率,降低了HBase的性能。首先分析了HBaseRPC客户端与服务端的通信机制,然后提出了一种HBaseRPC客户端非阻塞的通信模型,并通过Java NIO技术实现。实验结果表明,该模型有效降低了阻塞模式对通信性能的影响,提高了HBaseRPC客户端的通信性能。 展开更多
关键词 hbase 大数据 远程过程调用 非阻塞
下载PDF
基于HBase的综合电子系统试验数据存储系统研究
14
作者 贾万才 《电光系统》 2016年第4期12-15,共4页
面对即将到来的综合电子系统试验大数据,其特点数据量大、变化快、种类多,传统的数据处理模式已经不能够满足其存储和分析处理的需求。为了解决这个矛盾,我们尝试采用Hadoop来建立综合电子系统试验大数据处理环境,本文主要尝试采用H... 面对即将到来的综合电子系统试验大数据,其特点数据量大、变化快、种类多,传统的数据处理模式已经不能够满足其存储和分析处理的需求。为了解决这个矛盾,我们尝试采用Hadoop来建立综合电子系统试验大数据处理环境,本文主要尝试采用HBase来建立综合电子系统试验数据库。 展开更多
关键词 hbase 大数据 综合电子系统
下载PDF
基于Thrift的HBase数据存储机制优化 被引量:10
15
作者 温振蕙 樊永生 余红英 《科学技术与工程》 北大核心 2019年第6期185-189,共5页
针对Thrift接口服务定义的IDL对HBase数据库按行存储,当数据量大时频繁进行数据请求操作,增加服务调用时间,影响数据通信性能的问题,在详细分析Thrift源码架构基础上,提出了一种新的Thrift IDL设计模型。该模型重新定义了数据传输结构,... 针对Thrift接口服务定义的IDL对HBase数据库按行存储,当数据量大时频繁进行数据请求操作,增加服务调用时间,影响数据通信性能的问题,在详细分析Thrift源码架构基础上,提出了一种新的Thrift IDL设计模型。该模型重新定义了数据传输结构,将多行数据绑定在一起,经过一次RPC调用即可完成多行数据按块存储;采用新的IDL模型,修改了HBase Thrift 服务端的接口以及客户端的非阻塞实现。理论分析和实验结果表明,该方法可有效降低IDL向服务端发送数据操作请求频率,使得HBase储存效率提高4~5倍。 展开更多
关键词 hbase THRIFT 远程访问 IDL 大数据
下载PDF
基于HBase的海量GIS数据分布式处理实践 被引量:4
16
作者 李雪梅 邢俊峰 +2 位作者 刘大伟 王海洋 刘玮 《大数据》 2016年第3期73-82,共10页
设计了一种基于分布式数据库HBase的GIS数据管理系统。系统优化了栅格数据的生成和存储过程,将海量栅格数据直接写入HBase存储、索引。同时,针对矢量空间数据的存储、索引与检索,提出了一种新的rowkey设计,既考虑经纬度,又考虑空间数据... 设计了一种基于分布式数据库HBase的GIS数据管理系统。系统优化了栅格数据的生成和存储过程,将海量栅格数据直接写入HBase存储、索引。同时,针对矢量空间数据的存储、索引与检索,提出了一种新的rowkey设计,既考虑经纬度,又考虑空间数据类型和属性,使得在按空间位置检索矢量地理信息时,能通过HBase的rowkey迅速定位需要返回的数据。在HBase的集群环境上用真实GIS数据对上述方法进行了验证,结果表明,提出的系统具有较高的海量数据存储和检索性能,实现了海量地理信息数据的高效存储和实时高速检索。 展开更多
关键词 大数据 hbase 栅格数据 矢量数据 rowkey
下载PDF
基于HBase的大数据架构下负载平衡技术 被引量:3
17
作者 雷鸣 姜罕盛 +2 位作者 武国良 赵玉娟 梁健 《计算机与现代化》 2021年第6期91-95,共5页
随着气象数据规模和种类的不断增长,气象数据已经逐渐进入海量服务阶段,而基于大数据背景提供更敏捷的数据服务已经成为业务发展的迫切需求。本文针对气象中的半/非结构化数据,提出基于HBase系统的负载平衡算法和策略。在实际测试对比... 随着气象数据规模和种类的不断增长,气象数据已经逐渐进入海量服务阶段,而基于大数据背景提供更敏捷的数据服务已经成为业务发展的迫切需求。本文针对气象中的半/非结构化数据,提出基于HBase系统的负载平衡算法和策略。在实际测试对比中发现,系统可以满足200多万个格点,100个并发的场景,查询速度在2 s以内,与未曾增加负载平衡算法相比,系统数据响应速度提升了42.69倍,能够有效地满足实际业务需要。 展开更多
关键词 负载平衡 hbase 分布式存储 大数据 HDFS
下载PDF
基于HBase的工业时序大数据分布式存储性能优化策略 被引量:11
18
作者 杨力 陈建廷 向阳 《计算机应用》 CSCD 北大核心 2023年第3期759-766,共8页
在自动化的工业场景中,大量工业设备产生的时序性日志数据量呈爆炸式增长,业务场景对时序数据的访问需求进一步提升。虽然目前基于分布式列族的数据库HBase能够存储工业时序大数据,但由于未考虑特定业务场景中数据与访问行为特征的关联... 在自动化的工业场景中,大量工业设备产生的时序性日志数据量呈爆炸式增长,业务场景对时序数据的访问需求进一步提升。虽然目前基于分布式列族的数据库HBase能够存储工业时序大数据,但由于未考虑特定业务场景中数据与访问行为特征的关联,现有策略无法较好地满足工业时序数据的特定访问需求。针对上述问题,基于分布式存储系统HBase,利用工业场景中数据与访问行为特征的关联性,提出面向海量工业时序数据的分布式存储性能优化策略。针对工业时序数据特点引发的负载倾斜问题,提出基于冷热数据分区及访问行为分类的负载均衡优化策略。使用逻辑回归模型(LR)对数据进行冷热分类,并将热数据分散存储在不同节点;同时,为进一步降低存储集群中跨节点的通信开销,以提升工业时序数据高维索引的查询效率,提出索引主数据同Region化策略,设计索引RowKey字段及拼接规则,将索引存放到与它对应的主数据相同的Region中。在真实工业时序数据上的实验结果表明,引入优化策略后的数据负载分布倾斜度降低28.5%,查询效率提升27.7%,验证了所提优化策略能够有效地挖掘特定时序数据的访问模式,合理地分配负载,降低数据访问开销,有能力满足对特定时序大数据的访问需求。 展开更多
关键词 分布式存储 时序大数据 工业大数据 负载均衡 hbase
下载PDF
基于Hbase的大数据查询优化 被引量:5
19
作者 朱明 王志瑞 《智能计算机与应用》 2017年第4期59-61,共3页
Hbase有着先天的优势和先天的劣势,而劣势就是其较差的数据定位能力,也就是数据查询能力。因为面向列的特点,Hbase只能单单地以rowkey为主键作查询,而无法对表进行多维查询和join操作,并且查询通常都是全表扫描,耗费资源较大,查询效率... Hbase有着先天的优势和先天的劣势,而劣势就是其较差的数据定位能力,也就是数据查询能力。因为面向列的特点,Hbase只能单单地以rowkey为主键作查询,而无法对表进行多维查询和join操作,并且查询通常都是全表扫描,耗费资源较大,查询效率较低。类比于传统型数据库里的一些查询方式,本文对Hbase的存储原理进行了研究,借助分布式计算框架Mapreduce在Hbase上构建了二级索引,就可以对表进行有针对性的定位和高效率的查找,同时也减轻zookeeper服务对资源调度的压力。 展开更多
关键词 hbase 大数据处理 SECONDARY INDEXING
下载PDF
基于HBase的小集群风电SCADA系统高效数据存取算法研究 被引量:5
20
作者 陈敏 汤晓安 +1 位作者 刘行 谢鑫 《自动化与仪表》 2020年第12期7-11,共5页
现阶段风力发电行业以中小型风力发电厂为主,随着数据监控升级,数据量大量增加,这些部门原有传统的数据库系统及数据存取方法已无法满足其高性能数据存取需求。针对中小型风力发电厂当前的小集群、低成本背景开展高效数据存取算法研究... 现阶段风力发电行业以中小型风力发电厂为主,随着数据监控升级,数据量大量增加,这些部门原有传统的数据库系统及数据存取方法已无法满足其高性能数据存取需求。针对中小型风力发电厂当前的小集群、低成本背景开展高效数据存取算法研究。以大数据存储平台HBase为载体,对现有多种Hbase数据存取方法的性能进行深入研究和对比分析,综合使用Hbase API、批量存取与多线程等技术,创新性地设计出一个适用于小集群低成本的风电SCADA系统的高效数据存储算法,并对之进行了算法实现与系统应用。应用表明,该算法性能高效,能够满足小集群风电SCADA系统的数据存取需要,因而具有较好的工程推广价值。 展开更多
关键词 小集群 风电数据采集与监控系统 hbase 高性能 大数据
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部