用于Hadoop2.x的MapReduce性能评估模型

MapReduce Performance Evaluation Model for Hadoop2.x

下载PDF

导出

摘要基于MapReduce的程序被越来越多地应用于大型数据分析的应用中.Apache Hadoop是最常用的开源MapReduce模型之一.程序运行时间的缩短对于MapReduce程序以及所有数据处理应用而言至关重要,而能够准确估算MapReduce程序的执行时间是优化程序的重要环节.本文定义了一个在Hadoop2.x版本中能够准确估算MapReduce作业负载执行时间的性能模型.该模型包括一个优先级树模型与一个排队网络模型,分别用于展示一个MapReduce作业中不同任务之间的依赖关系及MapReduce作业内的同步约束.最后,实验证明了该模型的可用性. MapReduce-based systems are increasingly being used for large-scale data analysis applications.Apache Hadoop is one of the most common open-source implementations of such paradigm.Minimizing the execution time is vital for MapReduce as well as for all data-processing applications,and the accurate estimation of execution time is essential for optimization.In this study,the author created a MapReduce performance model for Hadoop2.x that can precisely estimate the execution time of workload in MapReduce.This model combines a precedence tree model that can capture dependencies between different tasks in one MapReduce job,and a queueing network model that can capture the intra-job synchronization constraints.Such an analytical performance model is a particularly attractive tool as it might provide reasonably accurate job response time at significantly lower cost than the simulation experiment of real dataanalysis systems.Furthermore,a clear understanding of systematic job response time under different circumstances is key to making decisions in MapReduce workload management and resource capacity planning.

作者吴岳 WU Yue(Forest Industry Planning and Design Institute,National Forestry and Glassland Administration,Beijing 100010,China)

机构地区国家林业和草原局林产工业规划设计院

出处《计算机系统应用》 2021年第2期219-225,共7页 Computer Systems & Applications

关键词 MapReduce性能模型 Hadoop2.x 队列模型均值算法 MapReduce performance model Hadoop2.x queuing theory mean value analysis

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1李耘书,滕飞,李天瑞.基于微操作的Hadoop参数自动调优方法[J].计算机应用,2019,39(6):1589-1594. 被引量：3
2李元亨,邹学玉.Hadoop综述[J].电脑知识与技术,2018,14(3X):8-9. 被引量：7
3郭玉栋,左金平.基于Hadoop改进的云任务调度算法研究[J].晋中学院学报,2019,36(3):56-60. 被引量：3
4朱洁,顾烨君,柳飞,李思成,刘瑞.Hadoop负载树任务调度算法[J].软件导刊,2018,17(12):69-72. 被引量：1
5司雅楠.Hadoop2.0平台概述[J].科技与创新,2019(5):65-66. 被引量：3
6马生俊,陈旺虎,郭宏乐,乔保民,李新田.Hadoop集群中影响应用性能的因素分析[J].小型微型计算机系统,2018,39(4):719-724. 被引量：3
7王凌晖,解云月,周美华.Hadoop分布式存储架构的性能分析[J].现代电子技术,2018,41(18):92-95. 被引量：6

二级参考文献36

1崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
2董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：70
3刘丹丹,陈俊,梁锋,范小朋.云计算异构环境下Hadoop性能分析[J].集成技术,2012,1(4):46-51. 被引量：8
4潘耘,王励成,余镇危,梁辉.基于随机进程代数的Overlay网络上的QoS性能评价[J].北京邮电大学学报,2009,32(B04):129-133. 被引量：1
5栾亚建,黄翀民,龚高晟,赵铁柱.Hadoop平台的性能优化研究[J].计算机工程,2010,36(14):262-263. 被引量：51
6李成华,张新访,金海,向文.MapReduce:新型的分布式并行计算编程模型[J].计算机工程与科学,2011,33(3):129-135. 被引量：111
7范杰,彭舰,黎红友.基于蚁群算法的云计算需求弹性算法[J].计算机应用,2011,31(A01):1-3. 被引量：22
8郝树魁.Hadoop HDFS和MapReduce架构浅析[J].邮电设计技术,2012(7):37-42. 被引量：73
9邓鹏,李枚毅,何诚.Namenode单点故障解决方案研究[J].计算机工程,2012,38(21):40-44. 被引量：27
10许丞,刘洪,谭良.Hadoop云平台的一种新的任务调度和监控机制[J].计算机科学,2013,40(1):112-117. 被引量：52

共引文献17

1马振,哈力旦.阿布都热依木,李希彤.海量样本数据集中小文件的存取优化研究[J].计算机工程与应用,2018,54(22):80-84. 被引量：5
2奥勇,李美丽,赵永华,孙佳佳,付泉.分布式数据库中数据集成与共享的研究进展[J].科技与创新,2020,0(1):31-35. 被引量：3
3范会丽,彭宁,任薇.基于Hadoop平台的数据清洗研究[J].电脑知识与技术,2020,16(5):27-28. 被引量：3
4孙晓萍.Hadoop分布式框架下石油行业非结构化数据管理实现策略探究[J].中国管理信息化,2020,23(7):63-64. 被引量：4
5梅国新,胡明星,方皓,王雅宁,刘华.云南省道路运输大数据云服务平台框架研究[J].交通节能与环保,2020,16(4):59-64. 被引量：3
6于璐.基于分布式架构及PAC技术的风洞测试及控制系统设计[J].计算机测量与控制,2020,28(10):10-15. 被引量：2
7潘卫军,刘皓晨,王润东,胡博文.基于ANN的改进Spark系统在空管大数据处理中的应用[J].计算机与现代化,2020(12):78-82. 被引量：1
8柴志远,王小妮.MapReduce实现的改进决策树[J].北京信息科技大学学报（自然科学版）,2020,35(6):14-18. 被引量：2
9熊晓,陈悦,吴海波.农业机械信息管理平台中会计智能化监测技术研究[J].农机化研究,2021,43(3):245-248. 被引量：6
10葛一统,向锋铭,余桂华,崔金栋,李晨雨.大数据背景下的电力营销信息化建设研究[J].华电技术,2021,43(1):76-82. 被引量：27

1张慕华.如何加强电力工程技术管理[J].幸福生活指南,2020(32):0024-0024.
2苗国华.T型牵引架结构及其多工况加载分析[J].筑路机械与施工机械化,2019,36(11):93-97.
3吴惠昌,胡志超,吴峰,顾峰玮,邱添,张延化,陈有庆.后抛式免耕播种机碎秸装置离地高度自动控制系统研制[J].农业工程学报,2019,35(24):1-9. 被引量：7
4罗文华,程家兴.基于Hadoop架构的混合型DDoS攻击分布式检测系统[J].信息网络安全,2021(2):61-69. 被引量：5
5高卫斌,柳晓龙.基于A*算法的2种任务-处理器分配改进算法[J].吉林化工学院学报,2021,38(1):52-57.
6杜浩鑫,王春萍,韩晟.舍曲林治疗重度抑郁症的短期成本-效果[J].临床药物治疗杂志,2021,19(2):27-30. 被引量：5
7李同辉,谢斌,王东青,张胜利,武丽萍.双电机驱动电动拖拉机实时自适应能量管理策略研究[J].农业机械学报,2020,51(S02):530-543. 被引量：14
8苑进,尹然光,刘功,刘雪美,毛志泉.原位混肥挖坑回填复式果树栽植机设计与试验[J].农业机械学报,2021,52(2):110-121. 被引量：12

计算机系统应用

2021年第2期

浏览历史

内容加载中请稍等...

用于Hadoop2.x的MapReduce性能评估模型

参考文献7

二级参考文献36

共引文献17

相关作者

相关机构

相关主题

浏览历史