基于数据冗余的HBase合并机制研究被引量：4

Research on HBase Compaction Mechanism Based on Data Redundancy

下载PDF

导出

摘要 HBase列式数据库的所有操作均以追加数据方式写入,导致其合并机制占用资源过多,影响系统读性能。为解决该问题,提出一种基于数据冗余的合并机制,将列族下文件删除数据占比达到设定阈值的文件进行合并,以减少无用数据在系统中的占用空间。实验结果表明,与HBase原有仅考虑文件大小、个数和时间间隔的合并机制相比,改进的合并机制可提高HBase系统查询效率以及Major合并性能。 In HBase,the operations are written to database in the form of appending data.HBase Compaction mechanisms occupy plenty of system resources,which affects read performance.To solve this problem,a mechanism based on data redundancy is proposed.By compacting the column files whose ratio of deleted data equals the threshold,the algorithm can reduce space occupation because it reduces the number of files while cleaning useless data.Experimental result indicates,compared with the original HBase Compaction mechanism,which only considers the size and number of files and time interval,the proposed Compaction mechanism can improve HBase system query efficiency and enhance HBase Major compaction capability.

作者熊安萍王运萍邹洋

机构地区重庆邮电大学计算机科学与技术学院

出处《计算机工程》 CAS CSCD 北大核心 2017年第2期63-67,共5页 Computer Engineering

基金重庆市教委科学技术研究项目(KJ1400414) 重庆邮电大学博士启动基金(A2015-17) 重庆邮电大学自然科学基金(A2011-29)

关键词列式数据库存储 HBase合并机制 CPU利用率读性能 column database storage HBase Compaction mechanism CPU utilization rate read performance

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1唐长城,杨峰,代栋,孙明明,周学海.一种基于HBase的数据持久性和可用性研究[J].计算机系统应用,2013,22(10):175-180. 被引量：11
2周跃,臧斌宇.分布式NoSQL系统写操作性能优化设计与实现[J].计算机应用与软件,2014,31(11):25-28. 被引量：7
3张智,龚宇.分布式存储系统HBase关键技术研究[J].现代计算机（中旬刊）,2014(11):33-37. 被引量：12

二级参考文献32

1Kubiatowicz J, Bindel D, Chen Y, Czerwinski S, Eaton P, GeelsD, Gummadi R, Rhea S,Weatherspoon H,Wells C,Zhao B.OceanStore: an architecture for global-scale persistent storage.SIGARCH Comput. Archit. News 28,5 (Dec.2000),190-201.
2HBase. http://hbase.apache.org/.
3Chang F,Dean J, Ghemawat S, Hsieh WC. Bigtable: A distri-buted storage system for structured data. ACM Trans, onComputer Systems(TOCS) 2008,26(2).
4Tom White,曾大聃,周傲英,周敏译.Hadoop权威指南.北京:清华大学出版社,2010:366~429.
5Lars George.HBase:The Definitive Guide(影印版).南京:东南大学出版社,2012:315-384.
6Ousterhout J,Agrawal P, Erickson D, Kozyrakis C,Leverich J,Mazi^res D,Mitra S,Narayanan A, Parulkar G, RosenblumM,Rumble SM, Stratmann E, Stutsman R. The case forRAMClouds: Scalable high-performance storage entirely inDRAM. SIGOPS Operating Systems Review, December2009,43(4): 92-105.
7Dai D,Li X,Wang C, Sun MM, Zhou XH. Sedna: A memorybased key-value storage system for real time processing incloud. The 2012 International Conference on ClusterComputing Workshops(IASDS 2012) in Conjunction withIEEE Cluster* 12, September 2012: 24-28.
8Zhang, Chen,De Sterck, Hans. Supporting Multi-Row Distributed Transactions with Global Snapshot Isolation Using Bare-Bones HBase[C]. Proceedings of the 2010 1 lth IEEE/ACM International Conference on Grid Computing, Grid 2010:177-184.
9Li, Chongxin. Transforming Relational Database into HBase: A Case Study[C]. Proceedings of the 2010 IEEE International Conference on Software Engineering and Service Sciences, ICSESS 2010:683-687.
10Konstantinou, Ioannis,Angelou, Evangelos,etal. On the Elasticity of NoSQL Databases Over Cloud Management Platforms[C]. Proceed- ings of the 2011 International Conference on Information and Knowledge Management,CIKM'11:p2385-2388.

共引文献26

1杨晓雁,甘琳梅.基于Hadoop的NoSQL非关系型数据库安全研究[J].微型电脑应用,2018,34(12):43-45. 被引量：1
2李超岭,李健强,张宏春,龚爱华,魏东琦.智能地质调查大数据应用体系架构与关键技术[J].地质通报,2015,34(7):1288-1299. 被引量：50
3李超岭,李丰丹,李健强,刘园园,刘畅,吕霞.智能地质调查体系与架构[J].中国地质,2015,42(4):828-838. 被引量：14
4李小波,田中娟,叶振.民间艺术资源的云存储技术研究[J].智能计算机与应用,2016,6(2):41-42.
5李国竞.民航机场停机位信息多平台交互系统设计与应用[J].科技风,2016(12):192-193. 被引量：3
6宋春红,王佳斌,郑力新.一种MySQL到HBase的迁移策略的研究与实现[J].微型机与应用,2016,35(13):82-85. 被引量：2
7孙旭,束晓敏,叶润武,史昇,钟艳,高亚红.基于HBase的车联网传感数据管理系统设计[J].软件导刊,2016,15(8):71-73. 被引量：4
8杨新爱.数据库在分布式管理系统中的应用与优化设计[J].电脑编程技巧与维护,2016(16):73-74. 被引量：2
9王朝霞,郭宇栋,谈昨非,孟月昊.基建工程数据仓库构建与应用研究[J].中国管理信息化,2016,19(21):163-168. 被引量：1
10李超岭,李丰丹,吕霞,李健强,刘畅,刘园园.地质调查智能空间体系与架构[J].测绘学报,2015,44(B12):143-151. 被引量：9

同被引文献48

1刘立拓,刘建国,赵南京,鲁翠萍,陈东,石焕,王春龙,张玉钧,刘文清.激光诱导击穿光谱数据特征自动提取方法研究[J].光谱学与光谱分析,2011,31(12):3285-3288. 被引量：5
2魏雪峰,刘晓.基于2维最大熵最佳阈值算法的图像分割研究[J].激光技术,2013,37(4):519-522. 被引量：11
3陈凯,张达,张元生.采空区三维激光扫描点云数据处理方法[J].光学学报,2013,33(8):117-122. 被引量：40
4范士俊,张爱武,胡少兴,孙卫东.基于随机森林的机载激光全波形点云数据分类方法[J].中国激光,2013,40(9):216-222. 被引量：29
5曹忆南,王新伟,周燕.距离选通激光成像空间定位模糊C均值聚类分割法[J].红外与激光工程,2013,42(10):2682-2686. 被引量：7
6刘希亮,陈桂明,李方溪,张倩.采用聚类分析的冲突证据判定及合成方法[J].红外与激光工程,2013,42(10):2853-2857. 被引量：5
7盛成凯,陈芬,郭明松,彭宗举,郁梅.基于相似度的HEVC帧内低复杂度算法[J].光电子．激光,2015,26(9):1732-1739. 被引量：4
8刘青,付印金,倪桂强,梅建民.基于Hadoop平台的分布式重删存储系统[J].计算机应用,2016,36(2):330-335. 被引量：16
9刘祥哲,刘培玉,任敏,伊静,高钊.基于负载均衡和冗余剪枝的并行FP-Growth算法[J].数据采集与处理,2016,31(1):223-230. 被引量：8
10王璐,刘忠.基于自适应迭代UKF的纯距离目标定位算法[J].中南大学学报（自然科学版）,2016,47(2):503-507. 被引量：7

引证文献4

1高继梅.隐私保护数据库中自适应重复数据删除仿真[J].计算机仿真,2019,36(1):239-242. 被引量：1
2平金珍,王茜,师硕.激光传感中冗余数据的挖掘方法设计[J].激光杂志,2018,39(5):138-141.
3武琰,樊海红.移动终端冗余运营数据迭代消除仿真研究[J].计算机仿真,2019,36(7):445-448. 被引量：2
4查毅,冯宏伟.基于卷积神经网络的运动辅助决策系统设计[J].电子设计工程,2021,29(15):111-114. 被引量：2

二级引证文献5

1牛志梅.基于多维量化评价的高私密性大数据访问控制[J].计算机仿真,2020,37(6):401-405. 被引量：5
2杨晖.基于皮尔森相关算法的云存储层次化去冗优化[J].吉林大学学报（信息科学版）,2022,40(1):71-76. 被引量：2
3何俊,洪孙焱,周义方,申时凯,邹目权.基于HMM的多维数据下扶贫对象状态预测[J].系统仿真学报,2022,34(5):1118-1126. 被引量：3
4邓泽夫.基于CNN-SVM的调频连续波毫米波雷达人体姿势识别研究[J].软件工程,2022,25(10):28-31. 被引量：3
5胥素芳.基于神经网络的数据安全加密系统设计和实现[J].无线互联科技,2023,20(4):74-76. 被引量：2

1田岩,谢玉波,周泉,崔亮,张梦一,许毅平.基于创建解动态控制和局部搜索合并的蚁群算法[J].系统工程与电子技术,2008,30(1):160-163. 被引量：2
2徐芳芳,顾进广,邓海龙,田萍芳.基于列数据库和图缓存的海量RDF管理[J].武汉大学学报（理学版）,2015,61(2):145-150. 被引量：2
3卢东明.对列式数据库的一点总结和展望[J].软件和信息服务,2013(4):67-67.
4霄岳.列式数据库新标准问世[J].上海商业,2011(12):68-68.
5石菲.列式数据库持续突破[J].中国计算机用户,2009(16):60-60. 被引量：2
6Teraclata建立列式数据库新标准[J].信息与电脑,2011(11):75-75.
7孙惠生.浅谈列式数据库[J].企业技术开发,2010,29(11):43-43. 被引量：4
8熊力,顾进广,项灵辉.基于列式数据库的RDF数据分布式存储[J].数学的实践与认识,2014,44(5):148-156. 被引量：2
9Teradata建立列式数据库新标准[J].中国电子商情（通信市场）,2011(5):4-5.
10石菲.赛贝斯力推列式数据库[J].中国计算机用户,2009(2):91-91.

计算机工程

2017年第2期

浏览历史

内容加载中请稍等...

基于数据冗余的HBase合并机制研究被引量：4

参考文献3

二级参考文献32

共引文献26

同被引文献48

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于数据冗余的HBase合并机制研究 被引量：4

参考文献3

二级参考文献32

共引文献26

同被引文献48

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于数据冗余的HBase合并机制研究被引量：4