Hadoop云平台MapReduce模型优化研究被引量：10

Research on optimized MapReduce model of Hadoop cloud platform

下载PDF

导出

摘要针对Hadoop平台Map Reduce分布式计算模型运行机制中的顺序制约而产生的计算资源浪费问题,从提高平台中每个执行节点的细粒度并行数据处理角度出发,结合Java共享内存多线程编程技术,对该模型进行了优化,提出一种Map Reduce+Open MP粗细粒度相结合的分布式并行计算模型。并在由四个节点组成的Hadoop集群环境下对不同规模大小的出租车GPS轨迹数据分析处理,验证该模型的性能和效率,实验结果证明Map Reduce+Open MP分布式并行计算模型确实能够提高针对大数据集的计算效率,是对Hadoop平台大数据分析处理模型有效的完善和优化。 Sequential control of running mechanism of MapReduce model on Hadoop platform can lead to waste of computingresources. From the perspective of the fine-grained parallel data processing of each node, combined withmulti-threads technique of Java shared memory, this paper optimizes MapReduce model and puts forward a MapReduce+OpenMP framework. This model is a distributed and parallel computing architecture based on Hadoop cloud platform,which combines computing resources of coarse and fine granularity. After programming and realizing on the GPS trajectorydata of the taxi in the Hadoop distributed cluster environment, the results show that this distributed parallel computingmodel can really improve the computing efficiency of processing big data set, and it is an effective optimization andimprovement to the MapReduce model of big data processing.

作者张红王晓明曹洁马彦宏郭义戎王慜 ZHANG Hong;WANG Xiaoming;CAO Jie;MA Yanhong;GUO Yirong;WANG Min(College of Electrical & Information Engineering, Lanzhou University of Technology, Lanzhou 730050, China;College of Computer & Communication, Lanzhou University of Technology, Lanzhou 730050, China;State Grid Gansu Electric Company, Lanzhou 730030, China)

机构地区兰州理工大学电气与信息工程学院兰州理工大学计算机与通信学院国网甘肃省电力公司

出处《计算机工程与应用》 CSCD 北大核心 2016年第22期22-25,共4页 Computer Engineering and Applications

基金甘肃省自然科学基金(No.148RJZA019) 甘肃省科技支撑计划基金(No.1304GKCA023)

关键词 HADOOP MAPREDUCE OPENMP 分布式并行 Hadoop MapReduce OpenMP distributed parallel

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1陈吉荣,乐嘉锦.基于Hadoop生态系统的大数据解决方案综述[J].计算机工程与科学,2013,35(10):25-35. 被引量：118
2顾荣,严金双,杨晓亮,袁春风,黄宜华.Hadoop MapReduce短作业执行性能优化[J].计算机研究与发展,2014,51(6):1270-1280. 被引量：28
3翟岩龙,罗壮,杨凯,徐晟晨.基于Hadoop的高性能海量数据处理平台研究[J].计算机科学,2013,40(3):100-103. 被引量：32
4孙卫真,王秀锦,徐远超.交通信息分布式处理中的Hadoop调度算法优化[J].计算机工程与设计,2014,35(4):1269-1273. 被引量：8

二级参考文献25

1Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[C] //Communications of the ACM.vol.51,2008:107-113.
2Vecchiola C,Pandey S,Buyya R.High-performance cloud computing:A view of scientific applications[C] // 2009 10th International Symposium on Pervasive Systems,Algorithms,and Networks.2009:4-16.
3Yoo R M,Romano A,Kozyrakis C.Phoenix rebirth:Scalable MapReduce on a large-scale shared-memory system[C] // IEEE International Symposium on Workload Characterization,2009(IISWC 2009).2009:198-207.
4Fang W,He B,Luo Q,et al.Mars:Accelerating MapReduce with Graphics Processors[J].IEEE Transactions on Parallel and Distributed Systems,2011,22:608-620.
5Catanzaro B,Sundaram N,Keutzer K.A map reduce framework for programming graphics processors[C] //Workshop on Software Tools for MultiCore Systems.2008.
6Hong C,Chen D,Chen W,et al.MapCG:writing parallel program portable between CPU and GPU[C] //Proceedings of the 19th International Conference on Parallel Architectures and Compilation Techniques.New York,NY,USA:ACM,2010:217-226.
7Zhai Yan-long,Su Hong-yi,Zhan Shou-yi.A Data Flow Optimization based approach for BPEL Processes Partition[C] //IEEE International Conference on e-Business Engineering (ICEBE 2007).HongKong,China,2007:410-413.
8Zaharia M, Borthakur D, Sen S:anna J, et ak Delay scheduling: A simple technique for achieving locality and fairness in duster scheduling [C] //Proceedings of the 5th European Conference on Computer Systerr: New York: ACM, 2010: 265-278.
9Isard M, Prabhakaran V, Currey J, et al. Quincy: Fair scheduling for distributed computing clusters [C] //Procee- dings of the 22nd Symposium on Operating Systems Principles: New York: ACM, 2009.. 261-276.
10Dean J, Ghernawat S. MapReduce: Simplified data processing on large clusters [J]. Communications of the ACM, 2008, 51 (1) : 107-113.

共引文献177

1陈豫,曾铮,王三梅.科技信息工作中大数据技术的应用和发展[J].情报学进展,2014(1):81-122. 被引量：2
2屈志坚,郭亮,陈阁.基于Hadoop的电网监控信息流分布式处理研究[J].华东交通大学学报,2013,30(5):37-41. 被引量：5
3李莉华,冯志强,冉兵,赵春玲,张春来,盘强文,邬丽莎.缺血预处理减轻兔肾缺血再灌流损伤的研究[J].中国病理生理杂志,2000,16(5):461-461. 被引量：2
4高广飞,姚军.基于Hadoop云平台的矿井指纹定位算法研究[J].金属矿山,2013,42(12):90-93.
5李尤丰,王智钢.基于动态云的智慧农业架构研究[J].计算机技术与发展,2014,24(3):190-193. 被引量：15
6韩江.大数据安全处理技术研究[J].信息安全与技术,2014,5(4):45-47. 被引量：3
7周文琼,王乐球,叶玫.云环境下Hadoop平台的作业调度算法[J].计算机系统应用,2014,23(5):177-181. 被引量：1
8曾玉珠,吴小东.本科计算机专业培养云计算应用型人才实践[J].电脑编程技巧与维护,2014(8):143-144. 被引量：1
9肖筱华,周栋.大数据技术及标准发展研究[J].信息技术与标准化,2014(4):34-38. 被引量：13
10胡宇舟,范滨,顾学道,缪力.基于Hadoop的云计算在清分系统中的应用[J].电子世界,2014(13):16-17. 被引量：3

同被引文献97

1董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：70
2王晓英,李三立.HPCC:面向存储访问模型的基准测试—一种可能替代TOP500 HPL的测试方法[J].小型微型计算机系统,2006,27(5):950-955. 被引量：1
3徐洁,王华,吴晓华,王雁东.浅析SPEC基准测试程序集及评价指标[J].实验科学与技术,2010,8(6):21-24. 被引量：6
4吴文忠,易平.MapReduce在分布式搜索引擎中的应用[J].计算机系统应用,2012,21(2):249-251. 被引量：6
5李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657. 被引量：1605
6张雪萍,龚康莉,赵广才.基于MapReduce的K-Medoids并行算法[J].计算机应用,2013,33(4):1023-1025. 被引量：33
7郝晓飞,谭跃生,王静宇.Hadoop平台上Apriori算法并行化研究与实现[J].计算机与现代化,2013(3):1-4. 被引量：26
8黄承真,王雷,刘小龙,况亚萍.Hadoop任务分配策略的改进[J].计算机应用,2013,33(8):2158-2162. 被引量：4
9高洪,杨庆平,黄震江.基于Hadoop平台的大数据分析关键技术标准化探讨[J].信息技术与标准化,2013(5):27-30. 被引量：13
10吕超,戴晨,张为华.计算机体系结构基准测试程序集的研究[J].计算机应用与软件,2013,30(10):189-194. 被引量：3

引证文献10

1郑瑛.分布式并行编程模型MapReduce及其应用研究[J].西南民族大学学报（自然科学版）,2017,43(2):161-166. 被引量：2
2郭凯,龚才鑫,龚奕利,雷迎春.基于分布式文件系统的MPP数据库扫描调度研究[J].计算机工程与应用,2018,54(13):84-87. 被引量：3
3薛瑞,苗福涛,叶笑春,孙凝晖,徐文星.面向处理器微体系结构评估的高通量MicroBenchmark研究[J].计算机研究与发展,2018,55(7):1569-1583.
4刘斌,何进荣,耿耀君,王最.并行机器学习算法基础体系前沿进展综述[J].计算机工程与应用,2017,53(11):31-38. 被引量：10
5裴树军,孔德凯,苗辉.DMS算法在Map/Reduce任务调度中的应用[J].哈尔滨理工大学学报,2019,24(1):71-77. 被引量：2
6王茂钢.Java内存模型描述及变量运用分析[J].现代信息科技,2019,3(4):98-99. 被引量：1
7何经纬,刘黎志,彭贝,付星堡.基于Spark并行SVM参数寻优算法的研究[J].武汉工程大学学报,2019,41(3):283-289. 被引量：7
8李文航,余恒奇.基于Hadoop平台的数据分析和应用[J].微型电脑应用,2019,35(11):134-136. 被引量：1
9杜涛.混合光网络通信中分布式加密算法研究[J].激光杂志,2020,41(7):171-175. 被引量：2
10龚建锋.基于数据挖掘的云安全评估模型研究[J].电脑与电信,2021(11):95-98. 被引量：1

二级引证文献29

1马献,陈丽,郝冀皖,刘陆陆,高婧怡.利用kubernetes集群搭建基于容器技术的分布式架构数据中心研究[J].中国数字医学,2021,16(12):43-48. 被引量：6
2白永平,彭江红,王延卓.机器学习和数据挖掘在动物养殖行业中的应用研究进展[J].兽医导刊,2019(2):47-48.
3厉彦玲,赵庚星,常春艳,王卓然,王凌,郑佳荣.OLI与HSI影像融合的土壤盐分反演模型[J].农业工程学报,2017,33(21):173-180. 被引量：25
4敬思,许建飞.基于知识图谱的机器学习领域研究进展分析[J].江苏科技信息,2018,35(13):18-21. 被引量：1
5王禹辰,王思远.机器学习下的SDN网络结构[J].信息记录材料,2018,19(11):101-103.
6童莲.大数据背景下的机器学习算法应用研究[J].电脑与电信,2018(9):29-31.
7郭鹏.网络环境下收益管理系统需求无约束估计综述[J].计算机工程与应用,2017,53(19):17-25. 被引量：7
8张志强,杨和平,杨笛,姜筱玮,陈楠.气象数据在线融合分析原型系统的实现[J].计算机工程与应用,2018,54(15):229-234. 被引量：3
9徐向远,李星银,赵德水.大数据技术下的安庆人口与设施空间分布特征及规划应对[J].规划师,2018,34(A01):21-25. 被引量：1
10舒娜,刘波,林伟伟,李鹏飞.分布式机器学习平台与算法综述[J].计算机科学,2019,46(3):9-18. 被引量：30

1逄华,王龙,王剑辉.一种基于移动Agent的分布式并行计算模型[J].计算机技术与发展,2011,21(2):70-72. 被引量：3
2杨晓华,侯巍,王树新,梁捷,刘颉.基于CAN总线的水下机器人执行节点设计与实现[J].海洋技术,2005,24(4):14-17. 被引量：7
3刘丹丹,陈俊,梁锋,范小朋.云计算异构环境下Hadoop性能分析[J].集成技术,2012,1(4):46-51. 被引量：8
4施磊磊,施化吉,束长波,宋玉平.基于Hadoop和HBase的分布式索引模型的研究[J].信息技术,2015,39(6):109-111. 被引量：5
5武森,冯小东,杨杰,张晓楠.基于MapReduce的大规模文本聚类并行化[J].北京科技大学学报,2014,36(10):1411-1419. 被引量：9
6余胜生,文元桥,周敬利.隧道算法的分布式并行计算模型[J].数值计算与计算机应用,2006,27(4):299-306. 被引量：2
7王力,王世强.基于CAN总线的AUV分布式控制系统[J].水雷战与舰船防护,2011,19(2):22-25. 被引量：2
8孙玉强,陆勇,王文闻,李媛媛,顾玉宛.异构环境下基于双重预取的Hadoop调度算法[J].计算机测量与控制,2016,24(9):172-175.
9熊慕舟,骆文振.一种基于多Agent的人群仿真多机并行平台研究[J].计算机工程与科学,2012,34(10):64-67. 被引量：1
10邹燕飞,王维.云环境下基于监督学习的资源调度策略研究与实现[J].福建电脑,2014,30(10):13-14.

计算机工程与应用

2016年第22期

浏览历史

内容加载中请稍等...

Hadoop云平台MapReduce模型优化研究被引量：10

参考文献4

二级参考文献25

共引文献177

同被引文献97

引证文献10

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

Hadoop云平台MapReduce模型优化研究 被引量：10

参考文献4

二级参考文献25

共引文献177

同被引文献97

引证文献10

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

Hadoop云平台MapReduce模型优化研究被引量：10