一种基于Solr的HBase海量数据二级索引方案被引量：15

A Secondary Index Scheme of Big Data in HBase Based on Solr

下载PDF

导出

摘要针对HBase不提供二级索引和华为的hindex方案难以满足海量数据检索速度需求的问题,文章设计了基于Solr的HBase二级索引方案SIHBase(Solr Indexing HBase)。该方案使用HBase的Coprocessor(协处理器)为数据表的创建、修改、删除以及数据的插入、更新、删除和恢复等操作都实现了相应的回调函数,通过回调函数向Solr发送相关请求,以实现在Solr中自动为HBase建立和维护二级索引,保证数据与索引的一致性。该方案具有良好的通用性,可以同时为多张表的多列数据建立索引。该方案扩展了HBase的客户端功能,增加了直接查询Solr的接口,利用Solr提供的高效、灵活、多样的检索功能实现对HBase海量数据的快速检索。最后,与hindex进行了二级索引的查询性能对比实验,证明了该方案在查询速度上要远快于hindex。 For the problem that HBase cannot provide secondary indexes and Huawei hindex scheme is difficult to meet the project demand of retrieval speed, designed an HBase secondary index scheme named SIHBase(Solr Indexing HBase) based on Solr. The scheme uses HBase Coprocessor to achieve the related callback function for creating, changing, deleting operations of the data tables and inserting, updating, deleting recovering operations of data. Thus, it can create and manage secondary indexes in Solr for HBase automatically and ensure the consistency of the data and index. The scheme has favorable generality and can create index for multi-column data of multiple tables in the meantime. And then extended the client-side function of HBase, increased the direct query interface of Solr, using efficient, flexible and diversified retrieval functions which Solr provided to realize quick retrieval for the mass data of HBase. Finally, a contrast experiment about query performance with hindex show that SIHBase was turned out to be much faster than hindex in query speed.

作者王文贤陈兴蜀王海舟吴小松

机构地区四川大学网络空间安全研究院四川大学计算机学院网络与可信计算研究所

出处《信息网络安全》 CSCD 2017年第8期39-44,共6页 Netinfo Security

基金国家科技支撑计划[2012BAH18B05] 国家自然科学基金[61272447] 四川省科技厅计划项目[16ZHSF0483]

关键词 HBASE 二级索引 SOLR 快速检索 HBase secondary index Solr quick retrieval

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1宋衍,周庆,张国双,王馨.一种基于数据库服务的密文检索实现[J].信息网络安全,2015(9):10-14. 被引量：2
2刘浩阳.MS SQL数据库在线取证研究[J].信息网络安全,2016(9):26-30. 被引量：9
3张榆,马友忠,孟小峰.一种基于HBase的高效空间关键字查询策略[J].小型微型计算机系统,2012,33(10):2141-2146. 被引量：33
4丁飞,陈长松,张涛,杨涛,张岩峰.基于协处理器的HBase区域级第二索引研究与实现[J].计算机应用,2014,34(A01):181-185. 被引量：16

二级参考文献46

1HBase :bigtable-like structured storage for hadoop hdfs [ EB/OL ]. http ://hadoop. apache, org/hbase/,2010.
2Fan Chang, Jeffrey Dean, Sanjay Chemawat, et al. Bigtable: a dis- tributed storage system for structured data[ C ]. Proceedings of 7th USENIX Symposium on Operating Systems Design and Implemen- tation( OSDI'06 ), Seattle, WA, USA: USENIX Association, 2006 : 205-218.
3Dhruba Borthakur. The hadoop distributed file system:Architecture and design [ EB/OL ]. http://hadoop, apache, org/hdfs ,2011.
4Ramaswamy Hafiharaa,Bigit Hore,Chen Li,et al. Processing spatial- keyword (SK) queries in geographic information retrieval (GIR) sys- tems[ A]. Proceedings of the lgth International Conference on Scientif- ic and Statistical Database Managem (SSDBM '07) [ C ]. Washing- ton,DC,USA:IEEE Computer Society,2007:16-25.
5Ian De Felipe, Vagelis Hristidis, Naphtali Rishe. Keyword search on spatial databases[ A] . Proceedings of the 2008 IEEE 24th Interna- tional Conference on Data Engineering (ICDE '08 ) [ C]. Washing- ton, DC, USA: IEEE Computer Society, 2008:656 -665.
6Cong Gao ,Christian S Jensen,Wu Ding-ming. Efficient retrieval of the top-k most relevant spatial web objects [ J ]. Proceedings of VLDB Endowment,2009,2( 1 ) :337-348.
7Jolo B Rocha-Junior, Orestis Gkorgkas, Simon Jonassen, et al. Ef- ficient processing of Top-k spatial keyword queries [ A ]. Proceed- ings of the 12th International Conference on Advances in Spatial and Temporal Databases ( SSTD ' 11 ) [ C ]. Berlin, Heidelberg : Springer-Verla,2011:205-222.
8Guo Wei, Guo Jing, Hu Zhi-yong. Spatial database indexing tech- nique [ M ]. Shanghai: Shanghai Jiao Tong University,Press,2006.
9Ooi, Mcdonell K J, Sacks R Davis. Spatial kd-tree: an indexing mechanism for spatial database [ A ]. Proceedings of the 11 th Annu- M International Computer Software and Applications Conference ( COMPSAC '87 ) [ C ]. Washington, DC, USA: IEEE Computer Society, 1987:433-438.
10DEAN J, GHEMAWAT S. MapReduce: simplified data processing on large clusters[ C]// OSDI'04: Proceedings of the Sixth Confer- ence on Symposium on Operating System Design and Implementa- tion. Berkeley: USENIX Association, 2004:137 - 150.

共引文献53

1刘一流.一种面向智能交通场景的HBase时空索引设计[J].电脑知识与技术,2020,0(4):163-165. 被引量：1
2叶汉林.论教学中的情感性管理[J].湖北大学学报（哲学社会科学版）,2000,27(2):107-108.
3周相兵,马洪江,苗放.云计算环境下的一种基于Hbase的ORM设计实现[J].西南师范大学学报（自然科学版）,2013,38(8):130-135. 被引量：14
4郭荔荔,李敬兆.基于云存储的井下人员定位数据处理[J].电脑知识与技术,2014(2):844-846. 被引量：1
5陈娜,张金娟,刘智琼,徐歆壹.基于Hadoop平台的电信大数据入库及查询性能优化研究[J].移动通信,2014,38(7):58-63. 被引量：9
6陈燕红,张太红,马健.中英文跨语种嵌入式数据库查询处理研究[J].计算机应用与软件,2014,31(6):244-247.
7陈磊,封朝永.HBase下时态信息索引策略研究[J].广东工业大学学报,2014,31(3):102-108. 被引量：3
8方艾芬,蔡岗,缪新顿.基于大数据的机动车缉查布控平台构建[J].警察技术,2014(6):65-68. 被引量：10
9闵信志,薛安荣,黄祖卫.招聘信息采集与搜索系统构建研究[J].软件导刊,2015,14(3):74-76. 被引量：3
10黄翔,陈志刚.智能电网大数据信息平台研究[J].南方能源建设,2015,2(1):17-21. 被引量：10

同被引文献97

1陈悦.基于大数据的数据可视化技术研究[J].产业与科技论坛,2020(10):38-39. 被引量：5
2殷小丽.新时代网络新闻舆论的时代特征与引导策略[J].传媒论坛,2019,2(9):74-75. 被引量：1
3邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
4贾澎涛,何华灿,刘丽,孙涛.时间序列数据挖掘综述[J].计算机应用研究,2007,24(11):15-18. 被引量：77
5尹章才,李霖,王琤.基于HR-树扩展的时空索引机制研究[J].武汉大学学报（信息科学版）,2007,32(12):1131-1134. 被引量：7
6段磊,李琦,毛曦.基于本体的空间搜索引擎研究[J].计算机科学,2009,36(2):172-174. 被引量：5
7叶小平,郭欢,汤庸,陈罗武,周畅,廖青云.基于相点分析的移动数据索引技术[J].计算机学报,2011,34(2):256-274. 被引量：12
8杨朝辉,王立松.pT-树:高速缓存优化的主存数据库索引结构[J].计算机科学,2011,38(10):161-165. 被引量：4
9霍庆,刘培植.使用Solr为大数据库搭建搜索引擎[J].软件,2011,32(6):11-14. 被引量：16
10张榆,马友忠,孟小峰.一种基于HBase的高效空间关键字查询策略[J].小型微型计算机系统,2012,33(10):2141-2146. 被引量：33

引证文献15

1刘一流.一种面向智能交通场景的HBase时空索引设计[J].电脑知识与技术,2020,0(4):163-165. 被引量：1
2宋阳.高校大数据存储方案探索[J].中小企业管理与科技,2018,2(33):82-83. 被引量：1
3杨强,张钧鸣.基于微服务架构的大数据应用开发创新实践[J].电力大数据,2019,22(3):71-76. 被引量：19
4李斌,郭景维,彭骞.面向大数据存储的HBase二级索引设计[J].计算技术与自动化,2019,38(2):124-129. 被引量：10
5陈玉林,王武.Hbase行键优化设计与热点防治策略[J].信息与电脑,2019,0(15):145-146. 被引量：1
6郭红,周健倩,张瑛瑛,郭昆.基于协处理器的HBase二级索引方法[J].计算机工程与应用,2019,55(21):87-92. 被引量：4
7关金金,未培,庄彦.基于Hadoop的海量数据处理平台的架构与研究[J].科技视界,2019,0(20):99-100. 被引量：4
8季一木,张宁,尧海昌,李奎,李航,刘尚东,王汝传.HOS:一种基于HBase的分布式存储系统设计与实现[J].南京邮电大学学报（自然科学版）,2019,39(5):63-71. 被引量：18
9朱松杰,娄渊胜,叶枫,李凌,陈勇.基于协处理器的HBase内存索引机制的研究[J].计算机工程与应用,2020,56(1):98-105. 被引量：11
10周骑骏,王鹏,汪卫.DSI:一种基于动态分段的时间序列查询索引[J].计算机工程,2020,46(2):88-95. 被引量：4

二级引证文献73

1孟宇,陈峰,郝晓东.C#结合InfluxDB在工业中的应用[J].冶金自动化,2020(S01):178-181. 被引量：3
2张嘉,白晓飞,陶超,张小桐.大规模空间矢量数据分布式存储与计算优化[J].计算机系统应用,2020,29(12):251-256. 被引量：6
3李传冰.基于Elasticsearch的HBase大数据二级索引方案[J].电脑知识与技术,2020,0(4):1-2. 被引量：2
4任元芬,黄永泉,付丽菊.针刺治疗小儿腹泻118例疗效观察[J].针灸临床杂志,2000,16(2):27-28. 被引量：1
5任文军,张进,张庆龙,解国爱.鄂尔多斯盆地中的断层相关褶皱及其分布[J].江苏地质,2000,24(1):18-22. 被引量：5
6曹宏宇,胡恒.基于微服务架构的智能终端软件架构探讨[J].科技创新与应用,2019,0(20):17-19. 被引量：7
7端家鑫,接鑫,陈宇娥,郭丽红.HBase下基于列编码的访问控制搜索树[J].工业控制计算机,2019,32(7):59-61.
8凌武能,莫东,张德亮,黄红伟,毛文照,游成彬.基于分布式计算的月度机组组合高效算法设计[J].电力大数据,2019,22(8):14-20. 被引量：4
9关金金,未培,庄彦.基于Hadoop的海量数据处理平台的架构与研究[J].科技视界,2019,0(20):99-100. 被引量：4
10刘友旗.企业级自动化数据采集平台的设计与实现[J].信息技术与信息化,2019,0(9):32-34.

1赵娜,赵彤洲,邹冲,刘莹,蔡敦波.稀疏表示中字典学习的影响因子研究[J].武汉工程大学学报,2017,39(3):267-272. 被引量：2
2小文龙.将两列数据快速转置为多列[J].电脑知识与技术（经验技巧）,2017,0(6):41-41.
3何文哲,范冰冰.一种新型高效的多租户共享数据模型[J].计算机应用与软件,2017,34(8):66-71. 被引量：2
4王海艳,董茂伟.基于动态卷积概率矩阵分解的潜在群组推荐[J].计算机研究与发展,2017,54(8):1853-1863. 被引量：18
5毕晓君,潘铁文.基于教与学优化算法的相关反馈图像检索[J].电子学报,2017,45(7):1668-1676. 被引量：4
6郑晓露,粟勇,朱月梅.基于时标分层技术的时序数据存储引擎研究与实现[J].计算机应用,2017,37(A01):246-249. 被引量：3
7彭飞,吐尔根.依布拉音,艾山.吾买尔,米尔夏提.力提甫.用于双语科技术语对齐的汉维文可比语料库构建[J].新疆大学学报（自然科学版）,2017,34(3):316-321. 被引量：2

信息网络安全

2017年第8期

浏览历史

内容加载中请稍等...

一种基于Solr的HBase海量数据二级索引方案被引量：15

参考文献4

二级参考文献46

共引文献53

同被引文献97

引证文献15

二级引证文献73

相关作者

相关机构

相关主题

浏览历史

一种基于Solr的HBase海量数据二级索引方案 被引量：15

参考文献4

二级参考文献46

共引文献53

同被引文献97

引证文献15

二级引证文献73

相关作者

相关机构

相关主题

浏览历史

一种基于Solr的HBase海量数据二级索引方案被引量：15