基于ORC元数据的Hive Join查询Reducer负载均衡方法被引量：3

ORC Metadata Based Reducer Load Balancing Method for Hive Join Queries

下载PDF

导出

摘要负载不均衡问题位列影响大规模MapReduce集群性能因素的首位,而Hive join查询非常容易触发该问题。通用解决方案是基于中间键值对的key频率分布设计能够实现负载均衡的key划分算法。现有工作估算key频率分布时依赖于对map的输出进行监控采样,使得通信开销较大并显著延后了shuffle的启动。针对Hive join查询,提出了基于ORC元数据的key频率分布估计方法和相应的负载均衡key划分方法。该方法具有计算量小、通信开销小、不影响现有shuffle机制的优点。通过基准测试证明了该方法在key频率分布估算效率上的巨大提升及相应的key划分方法对Hive join查询性能的提升。 The load imbalance problem ranks first among the performance issues in large-scale MapReduce cluster,and it's very prone to be triggered by Hive join queries.An effective solution is to design reducer load balancing partitioning algorithms by consulting the key's frequency distribution histogram estimated from intermediate key-value pairs.The existing works of key histogram estimation rely on monitoring and sampling the output of map in a distributed way,which triggers huge network traffic load and notably delays the start of the shuffle.A novel key histogram estimation method based on ORC metadata and the corresponding load balancing partitioning strategy was proposed for Hive join queries.The proposals only need some light-weight computation before the start of the job,thus imposing no extra loads on network traffics and the shuffle.Benchmarking test proves the proposal's significant improvement on both the key histogram estimation and the reducer load balancing.

作者王华进黎建辉沈志宏周园春

机构地区中国科学院计算机网络信息中心中国科学院大学

出处《计算机科学》 CSCD 北大核心 2018年第3期158-164,共7页 Computer Science

基金国家重点研发计划项目:科学大数据管理系统(2016YFB1000600) 协同精密定位技术(2016YFB0501900)资助

关键词负载均衡 MAPREDUCE Hive JOIN REDUCER ORC Load balancing MapReduce Hive Join Reducer ORC

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1王卓,陈群,李战怀,潘巍,尤立.基于增量式分区策略的MapReduce数据均衡方法[J].计算机学报,2016,39(1):19-35. 被引量：23

二级参考文献20

1周家帅,王琦,高军.一种基于动态划分的MapReduce负载均衡方法[J].计算机研究与发展,2013,50(S1):369-377. 被引量：11
2Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters. Operating Systems Design : Implementation, 2004, 51(1) : 147-152.
3Shvachko K, Kuang H, Radia S, et al. The hadoop distributed file system//Proceedings of the 2010 IEEE 26th Symposium on Mass Storage Systems and Technologies (MSST). Nevada, USA, 2010:1-10.
4Rasmussen A, Conley M, Kapoor R, et at. Themis: An I/O efficient MapReduce//Proceedings of the ACM Symposium on Cloud Computing (SOCC'12). San Jose, USA, 2012.
5Ren K, Kwon Y, Balazinska M, Howe B. Hadoop's adolescence: A comparative workload analysis from three research clusters. Carnegie Mellon University (CMU), USA: Technical Report CMU-PDL-12-106, 2012.
6Lin J, et al. The curse of Zipf and limits to parallelization: A look at the stragglers problem in MapReduee//Proceedings of the 7th Workshop on Large-Scale Distributed Systems for Information Retrieval. Boston, USA, 2009.
7Gufler B, Augsten N, Reiser A, Kemper A. Handing data skew in MapReduce//Proeeedings of the 1st InternationalConference on Cloud Computing and Services Science. Noordwijkerhout, The Netherlands, 2011, 146:574 583.
8Racha S C. Load Balancing Map-Reduce Communications for Efficient Executions of Applications in a Cloud [M]. S. disser tation]. Indian Institute of Science, Bangalore, India, 2012.
9Kwon Y, et al. A study of skew in MapReduce applications. Open Cirrus Summit, Moscow, Russia, 2011.
10Kwon Y, Balazinska M, Howe B, Rolia J. Skew-resistant parallel processing of feature-extracting scientific userdefined functions//Proceedings of the 1st ACM Symposium on Cloud Computing. Indianapolis, USA, 2010:75-86.

共引文献22

1李宗福,李阳,李昂,陈康.基于Hadoop与机器学习的舆情分析与应用[J].计算机应用研究,2020,37(S01):43-46. 被引量：1
2卞琛,于炯,修位蓉,英昌甜,钱育蓉.基于迭代填充的内存计算框架分区映射算法[J].计算机应用,2017,37(3):647-653. 被引量：3
3邱宁佳,李宾,王鹏,杨华民,王玮琦.基于MapReduce的密度聚类改进算法[J].计算机应用,2017,37(A01):63-67. 被引量：5
4阎栋,董媛.基于云计算的海量网络流量数据分析研究[J].自动化与仪器仪表,2017(9):32-34. 被引量：9
5王卓,索勃,潘巍.三角形的并行枚举算法[J].计算机应用,2017,37(12):3397-3400.
6周华平,刘光宗,张贝贝.基于索引偏移的MapReduce聚类负载均衡策略[J].计算机科学,2018,45(5):303-309. 被引量：6
7白玲玲,韩天鹏.一种改进的SPRINT算法[J].韶关学院学报,2018,39(9):20-25.
8卞琛,于炯,修位蓉,廖彬,英昌甜,钱育蓉.基于分配适应度的Spark渐进填充分区映射算法[J].通信学报,2017,38(9):133-147. 被引量：5
9张润莲,李豪,叶志博.基于能力与任务完成时间的数据分配方法[J].计算机工程与设计,2018,39(4):923-927. 被引量：4
10王兴,吴艺,蒋新华,廖律超.大规模数据集下基于DBSCAN算法的增量并行化快速聚类[J].计算机应用与软件,2018,35(4):269-275. 被引量：7

同被引文献23

1赵彦荣,王伟平,孟丹,张书彬,李均.基于Hadoop的高效连接查询处理算法CHMJ[J].软件学报,2012,23(8):2032-2041. 被引量：36
2谭洁清,毛锡军.Hadoop云计算基础架构的搭建和hbase和hive的整合应用[J].贵州科学,2013,31(5):32-35. 被引量：13
3房俊,李冬,郭会云,王嘉怡.面向海量交通数据的HBase时空索引[J].计算机应用,2017,37(2):311-315. 被引量：9
4宋天舒,童咏昕,王立斌,许可.空间众包环境下的3类对象在线任务分配[J].软件学报,2017,28(3):611-630. 被引量：47
5高强,张凤荔,王瑞锦,周帆.轨迹大数据:数据处理关键技术研究综述[J].软件学报,2017,28(4):959-992. 被引量：126
6王家耀,武芳,郭建忠,成毅,陈科.时空大数据面临的挑战与机遇[J].测绘科学,2017,42(7):1-7. 被引量：63
7王康,陈海光,李东静.基于Hive的性能优化研究[J].上海师范大学学报（自然科学版）,2017,46(4):527-534. 被引量：7
8陈喜洲.一种基于业务特征优化HIVE中两个大表不等值关联的方法[J].广东通信技术,2017,37(11):52-55. 被引量：1
9李龙杰,于洋,白伸伸,侯元伟,郝永乐.基于二次训练技术的入侵检测方法研究[J].北京理工大学学报,2017,37(12):1246-1252. 被引量：18
10刘生建,杨艳,周永权.一种群体智能算法——狮群算法[J].模式识别与人工智能,2018,31(5):431-441. 被引量：74

引证文献3

1赵少东.基于GPU加速的高性能MapReduce集群设计研究[J].电网与清洁能源,2021,37(4):90-94. 被引量：3
2韦统边,司帅锋,温丽梅,唐莹,苏德.整车大数据存储与计算优化实现[J].电子测试,2022,36(14):56-58.
3丁强龙,叶惠珠,袁弘强,李志新.大规模时空轨迹数据连接查询效率优化实践[J].计算机系统应用,2024,33(5):1-14. 被引量：1

二级引证文献4

1丁斌,袁博,郑焕坤,邢志坤,王帆.面向新型电力系统的电力大数据副本管理算法[J].电测与仪表,2022,59(1):10-17. 被引量：13
2黄艳.基于数据优先级的嵌入式多核任务调度方法[J].信息与电脑,2022,34(12):41-43.
3杨漾,刘博,任昊文,代昊琦,梁子键.基于边缘计算的弹性智能电网信息管理模型[J].云南师范大学学报（自然科学版）,2023,43(5):45-48.
4王璐雯.基于轨迹数据的目标聚类算法研究与应用[J].移动信息,2024,46(6):199-201.

1李晓慧.移师“设计力量展区”,HIVE又将颠覆时尚?[J].纺织服装周刊,2018,0(9):34-34.
2鲁亮,于炯,卞琛,英昌甜,师康利,蒲勇霖.Storm环境下基于权重的任务调度算法[J].计算机应用,2018,38(3):699-706. 被引量：15
3Yuval Tassa.为“强化学习智能体”提供性能基准[J].机器人产业,2018,0(1):34-38.
4卞琛,于炯,修位蓉,廖彬,英昌甜,钱育蓉.基于分配适应度的Spark渐进填充分区映射算法[J].通信学报,2017,38(9):133-147. 被引量：5
5Mehdi Habibpour,Peter E. Clark.Drag reduction behavior of hydrolyzed polyacrylamide/xanthan gum mixed polymer solutions[J].Petroleum Science,2017,14(2):412-423. 被引量：8
6任光辉,何翔宇,高双成,张鑫.三级数据的遥测交互软件架构设计及实现[J].飞行器测控学报,2017,36(3):227-233.
7郑嘉仪,高尚,姜小峰.软件定义网络中隐藏DoS攻击[J].科技与创新,2018(6):124-125.
8黄兴灏,宋余庆,陆虎.遗传社团划分算法揭示静息态fMRI社团结构[J].江苏科技大学学报（自然科学版）,2017,31(6):787-794.
9刘亚玲,张诚,邹益平,陈娟,刘朝.利用有机朗肯循环系统回收30t/h燃煤锅炉烟气余热的热经济性评估[J].重庆大学学报（自然科学版）,2018,41(3):91-99. 被引量：3
10朱轩.船用局域网络信息传输时延的优化和控制[J].舰船科学技术,2018,40(1X):157-159. 被引量：1

计算机科学

2018年第3期

浏览历史

内容加载中请稍等...

基于ORC元数据的Hive Join查询Reducer负载均衡方法被引量：3

参考文献1

二级参考文献20

共引文献22

同被引文献23

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于ORC元数据的Hive Join查询Reducer负载均衡方法 被引量：3

参考文献1

二级参考文献20

共引文献22

同被引文献23

引证文献3

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于ORC元数据的Hive Join查询Reducer负载均衡方法被引量：3