基于Hbase的大数据查询优化被引量：5

Query optimization of large data based on Hbase

下载PDF

导出

摘要 Hbase有着先天的优势和先天的劣势,而劣势就是其较差的数据定位能力,也就是数据查询能力。因为面向列的特点,Hbase只能单单地以rowkey为主键作查询,而无法对表进行多维查询和join操作,并且查询通常都是全表扫描,耗费资源较大,查询效率较低。类比于传统型数据库里的一些查询方式,本文对Hbase的存储原理进行了研究,借助分布式计算框架Mapreduce在Hbase上构建了二级索引,就可以对表进行有针对性的定位和高效率的查找,同时也减轻zookeeper服务对资源调度的压力。 Hbase has the inborn advantage and disadvantage, and its disadvantage is its poor data positioning ability, namely data query ability. Due to column oriented features, Hbase can only use rowkey as its primary key for queries, meanwhile be unable to perform multidimensional queries and join operations on the table, and queries are usually designed in full table scans, which could consume more resources and cause lower query efficiency. Analogous to some queries in traditional databases, the paper studies storage principle of Hbase, and applies distributed computing framework Mapreduce to construct two-level index, therefore realizes pertinent positioning and efficient search, also relieves the pressure of zookeeper services on resource scheduling.

作者朱明王志瑞

机构地区三江学院计算机科学与工程学院

出处《智能计算机与应用》 2017年第4期59-61,共3页 Intelligent Computer and Applications

基金江苏省高等学校大学生创新创业训练计划一般项目(20161112216017) 江苏省现代教育技术研究课题(2016-R-46828)

关键词 HBASE 大数据处理 SECONDARY INDEXING Hbase big data process Secondary Indexing

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1王映东,匡艺,费江涛.Bigtable系统的负载平衡技术研究[J].计算机安全,2009(2):41-43. 被引量：1
2毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：65

二级参考文献14

1刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
2李彦,刘道群.一种实用的动态负载平衡方法及实现[J].重庆工学院学报,2006,20(2):102-105. 被引量：1
3李冬梅,施海虎.负载平衡调度问题的一般模型研究[J].计算机工程与应用,2007,43(8):121-125. 被引量：15
4Han Jiawei,Kamber M.Data mining:concepts and tech- niques[M].San Francisco:Morgan Kaufmann Publishers, 2000.
5Januzaj E, Kriegel H P, Pfeifle M.DBDC : Density-Based Distributed Clustering[C]//Proceedings of 9th International Conference on Extending Database Technology(EDBT). Oakland: IEEE Computer Press, 2004 : 88-105.
6Samatova N F, Ostrouchov G.RACHET : an efficient cov- er-based merging of clustering hierarchies from distribut- ed datasets[J].Distributed and Parallel Databases,2002, 11 (2) : 157-180.
7Johoson E, KarguPta H.Collective, hierarchical clustering from distributed, heterogeneous data[C]//Lecture Notes in Computer Science.Berlin: Springer, 2000 : 221-244.
8Kargupta H.Sclable, distributed data mining using an agent based architecture[C]//Proceedings of 3rd Interna- tional Conference on Knowledge Discovery and Data Mining.Oakland .. AAAI Press, 1997 .. 211-214.
9Hearst M A.Texttiling: segmenting text into multi-para- graph subtopic passages[J].Computational Linguistics, 1997,23(1) :33-64.
10Dean J, Ghemawat S.MapReduce-simplified data process- ing on large clusters[C]//Proceedings of the 6th Inter- national Conference on Operation Systems Design & Im- plementation(OSDI), Berkeley, CA, USA, 2004 : 137-150.

共引文献64

1徐晓旻,肖仰华.KBAC:一种基于K-means的自适应聚类[J].小型微型计算机系统,2012,33(10):2268-2272. 被引量：6
2海沫,张书云,马燕林.分布式环境中聚类问题算法研究综述[J].计算机应用研究,2013,30(9):2561-2564. 被引量：13
3杨劲锋,刘涛,陈启冠,阙华坤,肖勇.基于海量计量数据的电力客户在线分群研究[J].华东电力,2013,41(8):1581-1585. 被引量：4
4戴涛,杨洲,方勇,景旭.基于CUDA的k-means文档聚类算法并行优化[J].计算机工程与设计,2013,34(11):4032-4036. 被引量：2
5余晓山,吴扬扬.基于MapReduce的文本层次聚类并行化[J].计算机应用,2014,34(6):1595-1599. 被引量：5
6黄蔚,李戴维.基于MapReduce的网络舆情分析系统的设计与实现[J].信息技术,2014,38(7):149-153. 被引量：2
7郎福通,王鹏.基于MapReduce的网格化优化CURE算法的实现[J].成都信息工程学院学报,2014,29(6):603-608.
8武霞,董增寿,孟晓燕.基于大数据平台hadoop的聚类算法K值优化研究[J].太原科技大学学报,2015,36(2):92-96. 被引量：11
9孙天昊,黎安能,李明,朱庆生.基于Hadoop分布式改进聚类协同过滤推荐算法研究[J].计算机工程与应用,2015,51(15):124-128. 被引量：21
10曾蔚.一种基于K-均值的用户行为聚类算法[J].绵阳师范学院学报,2015,34(8):94-98. 被引量：1

同被引文献33

1惠雅莉,张科强,孟宏睿.VR技术在建筑结构效果图中应用研究[J].工业建筑,2005,35(z1):61-63. 被引量：1
2冯丹,周游,姚远,孟群.我国居民健康档案基本数据集数据元目录编制[J].中国卫生信息管理杂志,2012,9(1):71-74. 被引量：12
3安德鲁.马斯特尔斯,安娜.安德森,卡利.斯特克司.多西克.华盛顿大学B I M施工运营建筑信息交换(COBie)试点项目[J].建筑创作,2012(10):88-97. 被引量：5
4谢永华,包文泉,李奔亮.基于条形码识别技术的图书馆快速检索定位系统[J].现代科学仪器,2012,29(5):60-63. 被引量：1
5王有为,王伟平,孟丹.基于统计方法的Hive数据仓库查询优化实现[J].计算机研究与发展,2015,52(6):1452-1462. 被引量：16
6尼古拉斯.尼斯贝特,王娜.英国政府的BIM战略:施工运营建筑信息交换(COBie)及其他[J].土木建筑工程信息技术,2015,7(1):116-118. 被引量：5
7胡振中,彭阳,田佩龙.基于BIM的运维管理研究与应用综述[J].图学学报,2015,36(5):802-810. 被引量：169
8许佳捷,郑凯,池明旻,朱扬勇,禹晓辉,周晓方.轨迹大数据:数据、应用与技术现状[J].通信学报,2015,36(12):97-105. 被引量：53
9黄伟建,宋园园.HBase负载均衡分析及优化策略[J].微电子学与计算机,2016,33(4):125-128. 被引量：4
10胡祖辉.学生成绩管理系统数据查询优化方法研究[J].软件导刊,2016,15(9):149-151. 被引量：2

引证文献5

1陈冬梅.大数据存储结构及查询优化[J].信息与电脑,2018,30(2):102-104.
2邵芳,王勇.基于HBase的大数据平台负载均衡算法分析与优化[J].软件导刊,2019,18(1):104-107. 被引量：7
3谢燕.数字式图书馆海量文献数据查询优化仿真[J].计算机仿真,2019,36(6):426-429.
4何志红,孙会龙,刘贞,徐德会,包秀莉,叶杨.基于BIM+VR技术的装配式建筑远程协同平台设计[J].重庆理工大学学报（自然科学）,2019,33(10):96-102. 被引量：10
5陈桂菊.面向数字式图书馆的海量文献数据查询优化方案分析[J].现代科学仪器,2019,0(5):166-168.

二级引证文献17

1高丹丹.国内外装配式建筑技术信息可视化分析[J].四川水泥,2023(5):189-192.
2尹伟,巫沛耘,秦珺,黄园林,黄建强.“BIM+VR”技术在羌族石砌碉楼保护中的应用[J].《规划师》论丛,2022(1):390-397. 被引量：1
3王宪栋.自动机及其代数规范描述[J].青岛大学学报（自然科学版）,2000,13(1):5-9.
4艾龙.车地多链路无线通信系统安全保障技术研究[J].信息通信,2019,32(3):200-202.
5李兴菊,赵建军,聂红梅,王迎.HBase数据库行键设计及验证[J].软件导刊,2019,18(10):178-181. 被引量：2
6李峰泉.一种HBase的大数据平台负载均衡算法分析及优化[J].粘接,2020,42(5):79-81. 被引量：3
7黄启录,魏斌,陶智麟,毛永炜,陶铁托,王琳.基于BIM和VR技术的卷烟工厂设计系统研究与应用[J].软件,2020,41(9):105-107.
8唐立,李亚平,曲金帅.基于HBase/Spark的教学大数据存储及索引模型研究[J].云南民族大学学报（自然科学版）,2020,29(5):486-492. 被引量：1
9卢平,王晶,孙瑜.装配式建筑工程项目管理壁垒问题研究[J].城市住宅,2021,28(2):243-245. 被引量：5
10农兴中,史海欧,袁泉,曾文驱,郑庆,丁国富.城市轨道交通工程BIM技术综述[J].西南交通大学学报,2021,56(3):451-460. 被引量：21

1王文贤,陈兴蜀,王海舟,吴小松.一种基于Solr的HBase海量数据二级索引方案[J].信息网络安全,2017(8):39-44. 被引量：15
2沙晶,钱伟.闪存芯片数据恢复和案例分析[J].信息网络安全,2016(S1):265-268. 被引量：1
3闫学青,高兴宝.基于种群分类的差分进化算法[J].纺织高校基础科学学报,2017,30(2):272-278. 被引量：3
4王禹,高晓光,何秀丽,贾建,李建平.用于挥发性有机物检测的二次电喷雾电离-离子迁移率谱系统[J].测试技术学报,2017,31(4):304-310. 被引量：1
5李贞,张卓,王黎明.基于三元概念分析的文本分类算法研究[J].计算机科学,2017,44(8):207-215. 被引量：10
6马朋波,张钊,刘福生,解明明,独鹏,贾鹏.火电机组节能减排在线监测系统的研究与应用[J].节能技术,2017,35(4):374-379. 被引量：6

智能计算机与应用

2017年第4期

浏览历史

内容加载中请稍等...

基于Hbase的大数据查询优化被引量：5

参考文献2

二级参考文献14

共引文献64

同被引文献33

引证文献5

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于Hbase的大数据查询优化 被引量：5

参考文献2

二级参考文献14

共引文献64

同被引文献33

引证文献5

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于Hbase的大数据查询优化被引量：5