Hadoop MapReduce短作业执行性能优化被引量：28

Performance Optimization for Short Job Execution in Hadoop MapReduce

下载PDF

导出

摘要 Hadoop MapReduce并行计算框架被广泛应用于大规模数据并行处理.近年来,由于其能较好地处理大规模数据,Hadoop MapReduce也被越来越多地使用在查询应用中.为了能够处理大规模数据集,Hadoop的基本设计更多地强调了数据的高吞吐率.然而在处理对短作业响应性能有较高要求的查询应用时,Hadoop MapReduce并行计算框架存在明显不足.为了提升Hadoop对于短作业的执行效率,对原有的Hadoop MapReduce作出以下3点优化:1)通过优化原有的setup和cleanup任务的执行方式,成功地缩短了作业初始化环境准备和作业结束环境清理的时间;2)将首次任务分配从"拉"模式转变为"推"模式;3)将作业执行过程中JobTracker和TaskTrackers之间的控制消息通信从现有的周期性心跳机制中分离出来,采用即时传递机制.最后,采用一种典型的基于MapReduce并行化的查询应用BLAST,对优化工作进行了评估.各种不同类型BLAST作业的测试实验表明,与现有的标准Hadoop相比,优化后的Hadoop平均执行性能提升约23%. Hadoop MapReduce is a widely used parallel computing framework for solving dataintensive problems.Now days,for its good capability for processing large scale data,Hadoop MapReduce has also been adopted in many query applications.To be able to process large scale datasets,the fundamental design of the standard Hadoop places more emphasis on the highthroughput of data than on the job execution performance.This causes performance limitation when we use Hadoop MapReduce to execute short jobs.This paper proposes several optimization methods to improve the execution performance of MapReduce jobs,especially for short jobs.We make three major optimizations：1） reduce the time cost during the initialization and termination stages of a job by optimizing its setup and cleanup tasks; 2） change the assignment model of the first batch of tasks from the pull model to the push model; 3） replace the heartbeat-base communication mechanism with an instant message communication mechanism for event notifications between the JobTracker and TaskTrackers.We also adopt a typical MapReduce-based parallel query application,BLAST,to evaluate the effects of our optimizations.Experimental results show that the job execution performance of our improved version of Hadoop is about 23％ faster on average than the standard Hadoop for different types of BLAST MapReduce jobs.

作者顾荣严金双杨晓亮袁春风黄宜华

机构地区计算机软件新技术国家重点实验室(南京大学)

出处《计算机研究与发展》 EI CSCD 北大核心 2014年第6期1270-1280,共11页 Journal of Computer Research and Development

基金国家自然科学基金专项基金项目(61223003) 国家"八六三"高技术研究发展计划基金项目(2011AA01A202) 美国Intel Labs大学研究资助项目

关键词 MAPREDUCE 并行计算短作业性能优化大数据处理 MapReduce parallel computing short job performance optimization big data processing

分类号 TP302 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献4

1王鹏,孟丹,詹剑锋,涂碧波.数据密集型计算编程模型研究进展[J].计算机研究与发展,2010,47(11):1993-2002. 被引量：39
2鲁伟明,杜晨阳,魏宝刚,沈春辉,叶振超.基于MapReduce的分布式近邻传播聚类算法[J].计算机研究与发展,2012,49(8):1762-1772. 被引量：53
3栾亚建,黄翀民,龚高晟,赵铁柱.Hadoop平台的性能优化研究[J].计算机工程,2010,36(14):262-263. 被引量：51
4李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：186

二级参考文献81

1倪巍伟,陆介平,孙志挥.基于向量内积不等式的分布式k均值聚类算法[J].计算机研究与发展,2005,42(9):1493-1497. 被引量：15
2宁焕生,张瑜,刘芳丽,刘文明,渠慎丰.中国物联网信息服务系统研究[J].电子学报,2006,34(B12):2514-2517. 被引量：151
3Dean J,Ghemawat S.MapReduce:Simplified Data Processing on Large Cluster[C] //Proc.of OSDI'04.Boston,MA,USA:[s.n.] ,2004.
4Hadoop Distributed Filesystem[EB/OL].(2008-12-13).http://hadoop.apache.org/hdfs/.
5IBM Research.Cloud Analytics:Do We Really Need to Reinvent the Storage Stack?[Z].2009.
6Apache Hadoop[EB/OL].(2009-09-12).http://hadoop.apache.org/.
7Wikipedia. Cloud computing [EB/OL]. [ 2008-11 -16 ]. http ://en. wikipedia, org/wiki/Cloud computing.
8Ghemawat S, Gobioff H, Leung S. The Google file system [C] //Proc of the 19th ACM Symp on Operating System Principles(SOSP). New York, ACM, 2003:29-43.
9Dean J, Ghemawat S. MapReduee: Simplified data processing on large clusters [C] //Proc of the 6th USENIX Symp on Operating Systems Design and Implementation (OSDI). San Francisco: USENIX Association, 2004: 137- 150.
10Chang F, Dean J, Ghemawat S. et al. Bigtable: A distributed storage system for structured data [C] //Proc of the 7th USENIX Syrup on Operating Systems Design and Implementation(OSDI). San Francisco: USENIX Association, 2006:205-218.

共引文献319

1桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：21
2刘义,陈荦,景宁,刘露.海量空间数据的并行Top-k连接查询[J].计算机研究与发展,2011,48(S3):163-172. 被引量：7
3王习特,申德荣,聂铁铮,寇月,于戈.共享的MapReduce环境下批量作业的调度算法研究[J].计算机研究与发展,2013,50(S1):332-341. 被引量：2
4原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
5董守斌,赵铁柱.面向搜索引擎的分布式文件系统性能分析[J].华南理工大学学报（自然科学版）,2011,39(4):7-14. 被引量：12
6陈俊,陈孝威.基于Hadoop建立云计算系统[J].贵州大学学报（自然科学版）,2011,28(3):91-93. 被引量：8
7李明,胥光辉,戢瑶.MapReduce编程模型在网络I/O密集型程序中的应用研究[J].计算机应用研究,2011,28(9):3372-3374. 被引量：4
8牛新征,佘堃.面向大规模数据的快速并行聚类划分算法研究[J].计算机科学,2012,39(1):134-137. 被引量：22
9俞东进,郑苏杭,李万清.基于多核并行的海量数据序列模式挖掘[J].计算机应用研究,2012,29(2):478-481. 被引量：4
10陈剑,龚发根.一种优化分布式文件系统的文件合并策略[J].计算机应用,2011,31(A02):161-163. 被引量：6

同被引文献226

1董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：69
2庄绪强.基于云计算技术的用户用电智能分析技术研究[J].自动化与仪器仪表,2016(2):187-189. 被引量：8
3伍湘君,黄丽萍.超级计算机上矩阵乘的并行计算与实现[J].应用气象学报,2005,16(1):122-128. 被引量：6
4李端,钱富才,李力,高建军.动态规划问题研究[J].系统工程理论与实践,2007,27(8):56-64. 被引量：30
5方木云,刘辉.高级软件工程[M].北京:清华大学出版社,2011.
6Dean J, Ghemawat S. MapReduce: Simplified data pro- eessing on large clusters [ C ]//Pro(.. of lhe OSI)I 2004. 2004. 137-150.
7Yang HC, Dasdan A, Hsiao RL, Parker DS. Map-Reduce-Merge: Simplified relational data processing on large cluster [ C ] ///Proc. ofthe SIGMOD 2007. 2007, 1029-1040.
8mmel R. Google's MapReduce programming model:Revisi- ted. Science Computer Program[ J]. 2008,70( 1 ) : 1-30.
9金海,廖小飞,叶晨成.内存计算:大数据处理的机遇与挑战[J].中国计算机协会通信,2013,9(4):40-46.
10Lee BC, Ipek E, Mutlu O, Burger D. Architecting phase change memory as a scalable DRAM alternative[ C]/jln- ternational Symposium on Computer Architecture, 2009.

引证文献28

1殷进勇,杨阳,徐振朋,姚小城,曾玮妮.计算存储融合:从高性能计算到大数据[J].指挥控制与仿真,2015,37(3):1-7. 被引量：3
2刘青,鲍爱华,倪桂强.大数据技术专题讲座(二) 第3讲面向大数据处理的MapReduce优化技术[J].军事通信技术,2015,36(2):81-87. 被引量：1
3刘凯,张立民,范晓磊,孙永威.基于改进Hadoop的受限玻尔兹曼机云计算实现[J].燕山大学学报,2015,39(2):145-151.
4谢恒,王梅,乐嘉锦,孙莉.基于Hive的计算结果特征提取与重用策略[J].计算机研究与发展,2015,52(9):2014-2024. 被引量：4
5李茜.基于Hadoop的高性能GIS云计算平台研究[J].南方国土资源,2015(12):26-28. 被引量：4
6宋杰,徐澍,郭朝鹏,鲍玉斌,于戈.一种优化MapReduce系统能耗的任务分发算法[J].计算机学报,2016,39(2):323-338. 被引量：12
7何婧媛.MapReduce编程模型的研究与改进[J].民营科技,2016(8):79-79.
8张鹏,黄豪洲,张兴.蜂窝无线网络大数据平台设计与分析研究[J].邮电设计技术,2016(8):12-17. 被引量：2
9吴佳,苏丹,李环媛,袁卫国.一种基于交互式的Hadoop作业调度算法[J].计算机技术与发展,2016,26(11):45-48. 被引量：1
10马志强,张力,杨双涛.MRI:面向并行迭代的MapReduce模型[J].计算机工程与科学,2016,38(12):2434-2441.

二级引证文献82

1赵建涛,黄立松.微服务故障诊断相关技术研究探讨[J].网络新媒体技术,2020,9(1):57-64. 被引量：2
2李强,刘晓峰.基于模拟植物生长算法的云作业调度模型[J].系统仿真学报,2018,30(12):4649-4658. 被引量：9
3胡欢欢.新常态下仪器设备经济供给侧配送中心自动选择技术研究[J].自动化与仪器仪表,2018,0(12):62-64.
4何婧媛.MapReduce编程模型的研究与改进[J].民营科技,2016(8):79-79.
5胡锐.基于Hadoop的高校档案管理存储系统研究[J].无线互联科技,2016,13(18):114-115. 被引量：1
6杨焱超,熊盛武,饶文碧,袁景凌.基于云计算的计算机类实验教学平台搭建与应用[J].实验技术与管理,2016,33(10):147-151. 被引量：20
7郑瑛.分布式并行编程模型MapReduce及其应用研究[J].西南民族大学学报（自然科学版）,2017,43(2):161-166. 被引量：2
8吴秋莉,郭丽娟,吕泽承,张炜.基于大数据的井喷式状态监测数据实时处理研究[J].电力信息与通信技术,2017,15(3):49-54. 被引量：12
9梁满,周传生.基于Presto海量日志分析系统的设计[J].黑龙江科技信息,2017(1):162-163. 被引量：2
10张佳鑫,张兴,李永竞,王硕,杨居沃,梅承力,王文博.蜂窝网络中基站关系与业务关系网络与应用[J].中国科学：信息科学,2017,47(5):648-663. 被引量：3

1朱焱.浅论数据抽取、净化和转换工具[J].计算机应用,2000,20(4):1-3. 被引量：13
2惠普LASERJET 3030多功能一体机[J].世界发明,2004,26(6):16-16.
3乔溪,张晓明.基于XML技术为数据存储层的数据仓库应用系统的设计[J].北京石油化工学院学报,2009,17(2):49-53. 被引量：1
4刘芙.基于智能家居的6410网关网络文件挂载[J].电子世界,2013(19):96-96.
5潘东静.基于OLAP的多维分析模型设计及应用[J].德州学院学报,2004,20(6):55-58. 被引量：6
6曹计昌,李纯.UCard中多COS调度问题的研究[J].计算机工程与科学,2006,28(2):128-131. 被引量：2
7赵祥玉.韩国双龙越野车遥控启动功能无法使用[J].汽车维修技师,2005(5):57-57.
8赵晓岚.规范化软件测试过程浅析[J].航天控制,2010,28(1):96-98. 被引量：7
9加载新服务系统关机只需几秒[J].网友世界,2006(15):32-32.
10乔杰华,刘亚卓,王钰博.Android环境下App2SD功能的实现[J].计算机光盘软件与应用,2013,16(15):29-30.

计算机研究与发展

2014年第6期

浏览历史

内容加载中请稍等...

Hadoop MapReduce短作业执行性能优化被引量：28

参考文献4

二级参考文献81

共引文献319

同被引文献226

引证文献28

二级引证文献82

相关作者

相关机构

相关主题

浏览历史

Hadoop MapReduce短作业执行性能优化 被引量：28

参考文献4

二级参考文献81

共引文献319

同被引文献226

引证文献28

二级引证文献82

相关作者

相关机构

相关主题

浏览历史

Hadoop MapReduce短作业执行性能优化被引量：28