-
题名基于协处理器的HBase二级索引方法
被引量:4
- 1
-
-
作者
郭红
周健倩
张瑛瑛
郭昆
-
机构
福州大学数学与计算机科学学院
福建省网络计算与智能信息处理重点实验室
空间数据挖掘与信息共享教育部重点实验室
国网信通亿力科技有限责任公司
-
出处
《计算机工程与应用》
CSCD
北大核心
2019年第21期87-92,共6页
-
基金
国家自然科学基金(No.61300104,No.61300103,No.61672158)
福建省高校杰出青年科学基金(No.JA12016)
+5 种基金
福建省高等学校新世纪优秀人才支持计划(No.JA13021)
福建省杰出青年科学基金(No.2014J06017,No.2015J06014)
福建省科技创新平台计划项目(No.2009J1007,No.2014H2005)
福建省自然科学基金(No.2013J01230,No.2014J01232)
福建省高校产学合作项目(No.2014H6014,No.2017H6008)
海西政务大数据应用协同创新中心
-
文摘
在大数据时代,海量的非结构化数据增速远大于结构化数据,HBase被广泛用于海量非结构化数据存储中。由于HBase内置的索引是基于行键(rowkey)设计的,具有很高的查询效率。但是,在根据字段进行条件查询时需要进行全表扫描,性能较低,无法应用于实时场景。针对此问题,提出一种基于协处理器(coprocessor)的HBase二级索引方法。该方法将经常需要查询的字段通过协处理器在HBase中建立映射到行键的索引,在查询时并行扫描索引数据获取行键,并利用行键快速查询记录。同时,在创建表时,通过对Region进行预分区。在插入数据时,在行键中添加Hash值。这不仅能提高数据插入速度,也避免了热点数据现象,同时保证索引数据和主数据位于同一个Region上,查询时就能减少一次RPC请求。在模拟数据集上的实验表明:提出的二级索引方法具有较好的查询性能。不仅高于HBase自带的过滤查询,也高于基于ElasticSearch的二级索引。同时,其空间开销小于基于ElasticSearch的二级索引。
-
关键词
HBASE
二级索引
协处理器
ElasticSearch
-
Keywords
HBase
secondary index
coprocessor
ElasticSearch
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-