基于压力反馈的MapReduce负载均衡策略被引量：4

Load Balancing Strategy Based on Pressure Feedback on MapReduce

下载PDF

导出

摘要数据倾斜是严重影响MapReduce性能的因素之一。数据倾斜问题的现有解决方法需要用户对应用类型提供针对的分区函数,或是为MapReduce编写额外的采样过程,增加了用户的负担。为解决上述问题,提出了一种基于压力统计的负载均衡策略。该策略充分利用MapReduce中的混洗阶段,在reducer准备数据的同时进行统计,以获取全局数据分布。系统根据数据分布情况对负载较重节点进行调度,平衡整个集群负载,而无需用户提供额外的输入。此外,考虑到上层不同的应用类型,引入了压力反馈机制来进一步提高调度策略的性能。实验结果表明,提出的负载均衡调度策略的性能优于默认策略性能。 Data skew is one of the factors which seriously affects the performance of MapReduce.Existing solutions for the data skew problem increase the burden that the users need to provide the partition function for the specific application,or write additional sampling processes for the MapReduce.To solve this problem,we presented a load balancing strategy based on pressure statistics.To get the global data distribution,we computed the statistics while preparing data,which makes full use of the shuffle stage in MapReduce.To balance the entire cluster,the strategy schedules the heavy nodes according to the data distribution,without requiring the user to provide additional input.In addition,due to the complexity of the applications,we introduced the pressure feedback mechanism,and further improved the performance of the scheduling policy.The experimental results show that our strategy is far more efficient than the default strategy.

作者李航晨秦小麟沈尧

机构地区南京航空航天大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2015年第4期141-146,共6页 Computer Science

基金国家自然科学基金项目(61373015 61300052 41301407) 国家教育部高等学校博士学科点专项科研基金资助项目(20103218110017) 江苏高校优势学科建设工程项目(PAPD) 中央高校基本科研业务费专项项目(NP2013307)资助

关键词 MAPREDUCE 数据倾斜负载均衡压力反馈 MapReduce Data skew Load balance Pressure feedback

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1Dean J,Ghemawat S.MapReduce:simplified data processing onlarge clusters[J].Communications of the ACM,2008,51(1):107-113.
2http://hadoop.apache.org.
3Dhawalia P,Kailasam S,Janakiram D.Chisel:A Resource Savvy Approach for Handling Skew in MapReduce Applications[C]∥2013 IEEE Sixth International Conference on Cloud Computing (CLOUD).IEEE,2013:652-660.
4DeWitt D J,Naughton J F,Schneider D A,et al.Practical skew handling in parallel joins[C]∥Very Large Data Bases(VLDB).1992:27-40.
5Poosala V,Ioannidis Y E.Estimation of query-result distribution and its application in parallel-join load balancing[C]∥VLDB.1996:448-459.
6Shatdal A,Naughton J F.Adaptive parallel aggregation algo-rithms[J].ACM SIGMOD Record,ACM,1995,24(2):104-114.
7Gates A F,Natkovich O,Chopra S,et al.Building a high-level dataflow system on top of Map-Reduce:the Pig experience[J].Proceedings of the VLDB Endowment,2009,2(2):1414-1425.
8Kwon Y C,Balazinska M,Howe B,et al.Skew-resistant parallel processing of feature-extracting scientific user-defined functions[C]∥Proceedings of the 1st ACM symposium on Cloud computing.ACM,2010:75-86.
9Ibrahim S,Jin H,Lu L,et al.Handling partitioning skew in MapReduce using LEEN[J].Peer-to-Peer Networking and Applications,2013,6(4):409-424.
10傅杰,都志辉.一种周期性MapReduce作业的负载均衡策略[J].计算机科学,2013,40(3):38-40. 被引量：15

二级参考文献11

1White T.Hadoop:The definitive guide[OL].http://books.google.com,2010.
2Borthakur D.TheHadoop Distributed File System:Architecture and Design[OL].http://cloudcomputing.googlecode.com,2007.
3Dean J,Ghemawat S.MapReduce:Simplified Data Processing on Large Clusters[C] //OSDI'04,Proceedings of the 6th Coference on Symposium Opearting Systems Design & Implementation.Sep.2004.
4Lammel M R.Google's MapReduce programming model-Revisited[J].Data Programmability Team,2007,68(3):208-237.
5Armbrust M,Fox A,Griffith R.Above the Clouds:A Berkeley View of Cloud Computing[M].ACM,2010.
6Seo S,et al.HPMR:Prefetching and Pre-shuffling SharedMapReduce Computation Environment[C] //the Proceedings of 11th IEEEInternational Conference on Cluster Computing.Sep.2009.
7Jiang D,Ooi B C,Shi L,et al.The Performance of MapReduce:An Indepth Study[C] //Int' l Conference on Very Large Data Bases (VLDB).2010.
8Dittrich J,Jindal A.Schad Hadoop+ +:Making a Yellow Elephant Run Like a Cheetah (Without It Even Noticing)[J].VLDB 2010/PVLDB,2010,34(1/2):515-529.
9Liu Xu-hui,Han Ji-zhong.Implementing WebGIS on Hadoop:A case study of improving small file I/O performance on HDFS[C] //Cluster Computing and Workshops,2009.IEEE International Conference on.2009:1-8.
10Lee K-H,Lee Y-J,Choi H,et al.Parallel data processing with MapReduce:a survey[J].ACM SIGMOD Record,2011,40 (4):11-20.

共引文献14

1周家帅,王琦,高军.一种基于动态划分的MapReduce负载均衡方法[J].计算机研究与发展,2013,50(S1):369-377. 被引量：11
2董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：70
3李晓飞.云计算环境下Apriori算法的MapReduce并行化[J].长春工业大学学报,2013,34(6):736-740. 被引量：3
4周文琼,王乐球,叶玫.云环境下Hadoop平台的作业调度算法[J].计算机系统应用,2014,23(5):177-181. 被引量：1
5郑志娴.基于云计算的Apriori算法设计[J].莆田学院学报,2014,21(5):61-64. 被引量：2
6刘寒梅,韩宏莹.基于反馈调度的MapReduce负载均衡分区算法研究[J].信息通信,2015,28(10):41-42. 被引量：1
7陶永才,张丹丹,石磊,卫琳.基于Maxdiff直方图的MapReduce负载均衡研究[J].小型微型计算机系统,2016,37(3):417-421. 被引量：2
8江立.基于Hadoop大数据分析的企业应用解决方案研究[J].福建电脑,2016,32(8):106-107. 被引量：1
9王刚,李盛恩.MapReduce中数据倾斜解决方法的研究[J].计算机技术与发展,2016,26(9):201-204. 被引量：3
10王勇,尹鹏飞,李娟.基于HBase的健康大数据平台性能优化及应用[J].软件导刊,2017,16(10):146-149. 被引量：5

同被引文献26

1周家帅,王琦,高军.一种基于动态划分的MapReduce负载均衡方法[J].计算机研究与发展,2013,50(S1):369-377. 被引量：11
2陈远玲,周启迪,黄芸茗,覃海英.基于压力反馈的甘蔗收割机台架液压升降系统仿真[J].农机化研究,2010,32(9):37-40. 被引量：7
3王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752. 被引量：616
4赵锦荣,胡学武,盛小明.基于压力反馈的上下料机械手电液伺服位置系统[J].液压与气动,2011,35(12):47-49. 被引量：5
5李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：187
6傅杰,都志辉.一种周期性MapReduce作业的负载均衡策略[J].计算机科学,2013,40(3):38-40. 被引量：15
7朱欣焰,张建超,李德仁,龚健雅.无缝空间数据库的概念、实现与问题研究[J].武汉大学学报（信息科学版）,2002,27(4):382-386. 被引量：49
8刘娴,郭锐锋,邓昌义.主/副版本模型中预分配容错实时调度算法[J].计算机研究与发展,2015,52(3):760-768. 被引量：3
9杜海超,赵明,王蕊,贾晓启.面向SAP系统的透明加解密方法[J].计算机应用,2015,35(A01):37-42. 被引量：2
10刘宏志,程荣贇,徐新权.基于异构系统迁移的SAP ERP软硬件同步升级技术[J].计算机应用,2015,35(A01):192-194. 被引量：1

引证文献4

1周华平,刘光宗,张贝贝.基于索引偏移的MapReduce聚类负载均衡策略[J].计算机科学,2018,45(5):303-309. 被引量：6
2郭茜,牟士壮,陈晓杰.基于压力反馈型薄壁类零件夹持机械手的设计[J].装备制造技术,2018(7):20-22. 被引量：2
3孟强,孙科达,许建峰.SAP系统核心业务数据准确迁移方法与实现[J].自动化与仪器仪表,2018,0(11):223-227. 被引量：1
4彭大为.基于MapReduce技术的WebGIS系统研究[J].江西科学,2019,37(5):783-786. 被引量：2

二级引证文献11

1高菲,孙清闻,邱光宇,姜维.防盗求生智能背包设计与实现[J].单片机与嵌入式系统应用,2019,19(4):81-85. 被引量：1
2林庆新.基于多属性决策的CEPH系统数据存储选择方法[J].闽江学院学报,2019,40(5):55-61. 被引量：1
3崔晓军,高子航.基于GIS与云计算的温州市农业大数据可视化平台研究[J].电脑编程技巧与维护,2020,0(4):113-115. 被引量：10
4党引,吴旻荣,李强.基于HBase的海量数据分布式序列存储策略优化[J].自动化技术与应用,2020,39(8):39-43. 被引量：11
5陈冲锋,潘露.机械手夹持器的优化设计[J].机械制造,2020,58(10):15-16. 被引量：2
6张靖雯,张鑫.基于人工鱼群算法的共享汽车停放网点优化算法的研究[J].电子设计工程,2020,28(23):134-138. 被引量：3
7张华剑,郑旭东.基于AutoCAD和Access的两区划定信息管理系统研究[J].江西科学,2020,38(6):922-928. 被引量：1
8张强,张学文.利用布隆滤波二次拆分的数据倾斜处理算法[J].计算机工程与设计,2021,42(2):475-481.
9毛伊敏,陶涛,曹文梁.基于网格密度和局部敏感哈希函数的并行化聚类算法[J].计算机应用研究,2021,38(5):1422-1427. 被引量：6
10陶涛,毛伊敏.基于MapReduce和改进人工蜂群算法的并行划分聚类算法[J].科学技术与工程,2021,21(21):8989-8998. 被引量：6

1文代明,朱建公,张俊俊.恒功率液压控制系统设计[J].制造技术与机床,2006(1):41-42. 被引量：1
2李智,林凤云,谈世哲,王东.气动位置控制系统 PCM 控制方式的研究[J].青岛大学学报（工程技术版）,1997,12(4):53-58. 被引量：3
3张业建,李洪人.极点配置在二自由度液压位置伺服系统中的应用[J].机床与液压,1999,27(4):40-41. 被引量：2
4ABB变频器降低钢铁生产能耗[J].变频器世界,2009(5):18-18.
5陈良维,廖婷,杨清平.贷款农户信用评价系统中数据库的性能优化[J].四川文理学院学报,2010,20(2):58-59.
6童朝南,阳定武,黄国强.基于dSPACE的液压活套控制系统的在线仿真[J].实验技术与管理,2007,24(7):85-87. 被引量：1
7徐必勇,叶兴海,罗铭.新型压力反馈式液压冲击器系统的动态仿真研究[J].矿山机械,2009,37(9):13-17. 被引量：1
8刘东光,罗铭,徐必勇.新型压力反馈式液压锤的试验研究[J].工程机械,2010,41(2):58-60. 被引量：3
9魏建华,吴根茂.针对位移传感器故障的容错式电液控制系统[J].汽轮机技术,1997,39(4):193-195.
10高凤阳,田野,王君帅.压力反馈在非对称缸电液伺服系统中的应用[J].沈阳建筑大学学报（自然科学版）,2005,21(4):403-406. 被引量：7

计算机科学

2015年第4期

浏览历史

内容加载中请稍等...

基于压力反馈的MapReduce负载均衡策略被引量：4

参考文献13

二级参考文献11

共引文献14

同被引文献26

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于压力反馈的MapReduce负载均衡策略 被引量：4

参考文献13

二级参考文献11

共引文献14

同被引文献26

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于压力反馈的MapReduce负载均衡策略被引量：4