一种改进的Hadoop数据放置策略被引量：35

An Improved Data Placement Strategy for Hadoop

下载PDF

导出

摘要采用现有的Hadoop默认数据放置策略时,若本地数据副本失效,从远程结点上恢复数据需要耗费大量数据传输时间,且随机选取数据放置结点可能会影响数据放置的负载均衡.为此,文中提出一种改进的数据放置策略.该策略基于结点网络距离与数据负载计算每个结点的调度评价值,据此选择一个最佳的远程数据副本的放置结点,从而既能实现数据放置的负载均衡,又能实现良好的数据传输性能.在Hadoop平台上实现了所提出的数据副本放置改进策略,结果表明,与系统默认策略相比,文中提出的策略不仅可以改进数据放置的负载均衡,而且可以减少数据副本放置的时间. In the existing default data placement strategy for Hadoop,much time is needed to restore data from a remote DataNode when the local replicas become unavailable,and the load balancing may be destroyed due to the random selection of DataNode for data storage.In order to solve these problems,an improved data placement strategy is proposed,which chooses the most appropriate DataNode to place remote replicas according to the scheduling evaluation value of each DataNode based on DataNodes＇ network distance and data load.Thus,the load balancing for data storage is implemented and excellent data transmission is achieved.The proposed data placement strategy is then implemented in the Hadoop platform and the results show that the proposed strategy is superior to the existing default data placement strategy because it improves the local balancing for data storage and reduces the time for data placement.

作者林伟伟

机构地区华南理工大学计算机科学与工程学院

出处《华南理工大学学报（自然科学版）》 EI CAS CSCD 北大核心 2012年第1期152-158,共7页 Journal of South China University of Technology(Natural Science Edition)

基金国家自然科学基金资助项目(61070015) 广东省自然科学基金资助项目(10451064101005155 S2011010001754 9451063101002213) 广东省科技计划项目(2010B010600032)

关键词 HADOOP 数据放置负载均衡策略 Hadoop data placement load balancing strategy

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1Rajkumar Buyya,Chee Shin Yeo,Srikumar Venugopal,et al.Cloud computing and emerging IT platforms:vision,hype,and reality for delivering computing as the 5 th utility[J].Future Generation Computer Systems,2009,25 (6):599-616.
2林伟伟,齐德昱,刘波.基于资源融合的网格任务调度模型与算法[J].华南理工大学学报（自然科学版）,2008,36(1):32-37. 被引量：4
3Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51 (1):107-113.
4Borthakur D.Hadoop[EB/OL].[2011-06-15].http://lucene.apache.org/hadoop.
5栾亚建,黄翀民,龚高晟,赵铁柱.Hadoop平台的性能优化研究[J].计算机工程,2010,36(14):262-263. 被引量：51
6Ghemawat S,Gogioff H,Leung P T.The google file system[C] //Proc of the 19 th ACM Symp on Operating Systems Principles.New York:ACM,2003:29-43.
7曹宁,吴中海,刘宏志,张齐勋.HDFS下载效率的优化[J].计算机应用,2010,30(8):2060-2065. 被引量：23
8John Dorion.Applications powered by Hadoop[EB/OL].[2011-06-15].http://wiki.apache.org/hadoop/PoweredBy.
9Amazon.Amazon elastic compute cloud[EB/OL].[2011-06-15].http://aws.amazon.com/ec2.
10Borthakur D.The hadoop distributed file system:architecture and design[EB/OL].[2011-06-15].http://hadoop.apache.org/hdfs/docs/current/hdfs _ design.html.

二级参考文献28

1虞云翔.嵌入式Linux系统中Overlay文件系统的实现[J].微电子学与计算机,2005,22(10):175-178. 被引量：3
2林伟伟,齐德昱.树型网格环境TGrid的模型及算法[J].华南理工大学学报（自然科学版）,2007,35(1):89-93. 被引量：4
3Dean J,Ghemawat S.MapReduce:Simplified Data Processing on Large Cluster[C] //Proc.of OSDI'04.Boston,MA,USA:[s.n.] ,2004.
4Hadoop Distributed Filesystem[EB/OL].(2008-12-13).http://hadoop.apache.org/hdfs/.
5IBM Research.Cloud Analytics:Do We Really Need to Reinvent the Storage Stack?[Z].2009.
6Apache Hadoop[EB/OL].(2009-09-12).http://hadoop.apache.org/.
7HADOOP Wi-ki[EB/OL].[2009-07-01].http://wiki.apache.org/hadoop/.
8GHEMAWAT S,GOBIOFF H,LEUNG S T.The google file system.[EB/OL].[2009-07-01].http://labs.google.com/papers/gfs.html.
9DEAN Jean,GHEMAWAT S.Map/reduce:simplified data processing on large clusters[EB/OL].[2009-07-01].http://static.googleusercontent.com/external _ content/untrusted _ dlcp/labs.google.com/zh-CN//papers/mapreduce-osdi04.pdf.
10Map/Reduce[EB/OL].[2009 -07 -01].http://wiki.apache.org/hadoop/HadoopMapReduce.

共引文献71

1林伟伟,齐德昱.基于分层结构和树型覆盖网络的网格资源发现模型[J].华南理工大学学报（自然科学版）,2008,36(5):6-12. 被引量：4
2林伟伟,齐德昱.基于概率冗余调度的可靠P2P计算模型[J].华南理工大学学报（自然科学版）,2010,38(6):84-88. 被引量：3
3董守斌,赵铁柱.面向搜索引擎的分布式文件系统性能分析[J].华南理工大学学报（自然科学版）,2011,39(4):7-14. 被引量：12
4陈俊,陈孝威.基于Hadoop建立云计算系统[J].贵州大学学报（自然科学版）,2011,28(3):91-93. 被引量：8
5廖彬,于炯,张陶,杨兴耀.基于P2P的分布式文件系统下载效率优化[J].计算机应用,2011,31(9):2317-2320. 被引量：2
6李明,胥光辉,戢瑶.MapReduce编程模型在网络I/O密集型程序中的应用研究[J].计算机应用研究,2011,28(9):3372-3374. 被引量：4
7陈剑,龚发根.一种优化分布式文件系统的文件合并策略[J].计算机应用,2011,31(A02):161-163. 被引量：6
8李绍松,尹栋,慕德俊,戴冠中.基于FPGA可扩展的Mapreduce架构设计与实现[J].计算机技术与发展,2012,22(2):103-106. 被引量：1
9姚远,王丽芳,蒋泽军.HDFS一致性管理的研究[J].现代电子技术,2012,35(8):86-89. 被引量：1
10张得震.租赁云中的Hadoop集群环境搭建方案研究[J].硅谷,2012,5(9):88-88.

同被引文献263

1章坚武,张季姬.无线传感器节点低功耗的研究[J].传感技术学报,2007,20(12):2679-2682. 被引量：13
2宋丽娜,戴华东,任怡.基于海量数据存储系统多级存储介质的热点数据区分方法[J].计算机研究与发展,2012,49(S1):6-11. 被引量：7
3崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
4黄訸,易晓东,李姗姗,廖湘科.面向高性能计算机的海量数据处理平台实现与评测[J].计算机研究与发展,2012,49(S1):357-361. 被引量：13
5刘田甜,李超,胡庆成,张桂刚.云环境下多副本管理综述[J].计算机研究与发展,2011,48(S3):254-260. 被引量：20
6董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：69
7孙立峰,李放,钟玉琢,杨士强.基于多视点视频的虚拟会议显示与合成[J].电子学报,2005,33(2):193-196. 被引量：6
8黎青松,杨伟,曾传华.中心问题与中位问题的研究现状[J].系统工程,2005,23(5):11-16. 被引量：22
9李德毅,孟海军,史雪梅.隶属云和隶属云发生器[J].计算机研究与发展,1995,32(6):15-20. 被引量：1227
10陈有孝,林晓言.灰色——马尔可夫链改进的预测方法[J].统计与决策,2005,21(08X):36-38. 被引量：26

引证文献35

1林伟伟,刘波.基于动态带宽分配的Hadoop数据负载均衡方法[J].华南理工大学学报（自然科学版）,2012,40(9):42-47. 被引量：10
2武娟,黄海,钱锋,李拥军,寿质彬.基于多变量动态算法的Hadoop负载均衡优化与实现[J].电信科学,2012,28(12):83-87. 被引量：4
3王永洲,茅苏.HDFS中的一种数据放置策略[J].计算机技术与发展,2013,23(5):90-92. 被引量：8
4刘琨,钮文良.一种改进的Hadoop数据负载均衡算法[J].河南理工大学学报（自然科学版）,2013,32(3):332-336. 被引量：10
5罗鹏,龚勋.HDFS数据存放策略的研究与改进[J].计算机工程与设计,2014,35(4):1127-1131. 被引量：15
6陈娜,张金娟,刘智琼,徐歆壹.基于Hadoop平台的电信大数据入库及查询性能优化研究[J].移动通信,2014,38(7):58-63. 被引量：9
7张桂刚.一种大数据放置方法[J].计算机科学,2014,41(6):1-4. 被引量：3
8葛君伟,陈志林,方义秋.一种基于纠删码的数据放置容错算法[J].计算机应用研究,2014,31(9):2688-2691.
9诸振家,陆云帆.大规模PC集群语义系统纠删码Hash容错算法[J].科技通报,2014,30(8):215-217.
10张榜,王兴伟,黄敏.云存储智能多数据副本放置机制[J].计算机科学与探索,2014,8(10):1177-1186. 被引量：1

二级引证文献124

1张嘉芮,刘少华,秦孔建,石娟,张珊.驾驶模拟器在自动驾驶汽车方向的应用综述[J].中国汽车,2020(8):46-50. 被引量：2
2刘琨,钮文良.一种改进的Hadoop数据负载均衡算法[J].河南理工大学学报（自然科学版）,2013,32(3):332-336. 被引量：10
3林伟伟,贺品嘉,刘波.云存储系统的能耗优化节点管理方法[J].华南理工大学学报（自然科学版）,2014,42(1):104-110. 被引量：1
4郭其标,吕春峰.基于云计算Hadoop异构集群的并行作业调度算法[J].计算机测量与控制,2014,22(6):1846-1849. 被引量：3
5李强,刘晓峰.基于模拟植物生长算法的云作业调度模型[J].系统仿真学报,2018,30(12):4649-4658. 被引量：9
6闫龙川,白东霞,刘万涛,刘殷,李莉敏.人工智能技术在云计算数据中心能量管理中的应用与展望[J].中国电机工程学报,2019,39(1):31-42. 被引量：37
7乔宏明.运营商在大数据产业中的定位刍议[J].移动通信,2014,38(13):15-18. 被引量：3
8陈泽琳,潘运军,何浥尘,齐德昱.一种基于Hadoop的BIM云服务框架和空间位置检索算法[J].计算机科学,2014,41(11):107-111. 被引量：4
9康承昆,刘晓洁.一种基于多衡量指标的HDFS负载均衡算法[J].四川大学学报（自然科学版）,2014,51(6):1163-1169. 被引量：10
10孔晨燕,赵建民,朱信忠,徐慧英.HDFS平台下基于纠删码的一种数据放置策略[J].浙江师范大学学报（自然科学版）,2015,38(1):89-94.

1陈惟康,杜松.分布式存储中数据放置策略的研究[J].计算机应用与软件,2009,26(1):6-8. 被引量：5
2许大炜.分布式环境下数据密集型应用的数据放置策略[J].当代教育实践与教学研究（电子版）,2017,0(4):268-268.
3王永洲,茅苏.HDFS中的一种数据放置策略[J].计算机技术与发展,2013,23(5):90-92. 被引量：8
4庞慧,陈艳君.分布式存储中数据分布策略的分析与研究[J].河北建筑工程学院学报,2012,30(3):64-69. 被引量：1
5孔晨燕,赵建民,朱信忠,徐慧英.HDFS平台下基于纠删码的一种数据放置策略[J].浙江师范大学学报（自然科学版）,2015,38(1):89-94.
6何丽丽.基于多云存储的数据放置策略方案研究[J].电脑知识与技术,2016,0(3):6-8. 被引量：1
7王意洁,王勇军,胡守仁.并行面向对象数据库中的基于对象类的混合式数据放置策略[J].计算机学报,1998,21(S1):178-183. 被引量：2
8荀亚玲,张继福,秦啸.MapReduce集群环境下的数据放置策略[J].软件学报,2015,26(8):2056-2073. 被引量：16
9刘翔,汪海玲.分布式存储中的一种数据放置策略[J].计算机与数字工程,2009,37(5):27-29. 被引量：3
10杨文茵,王国军.在线社交网络中有向社交超图数据放置策略[J].小型微型计算机系统,2015,36(7):1559-1564.

华南理工大学学报（自然科学版）

2012年第1期

浏览历史

内容加载中请稍等...

一种改进的Hadoop数据放置策略被引量：35

参考文献12

二级参考文献28

共引文献71

同被引文献263

引证文献35

二级引证文献124

相关作者

相关机构

相关主题

浏览历史

一种改进的Hadoop数据放置策略 被引量：35

参考文献12

二级参考文献28

共引文献71

同被引文献263

引证文献35

二级引证文献124

相关作者

相关机构

相关主题

浏览历史

一种改进的Hadoop数据放置策略被引量：35