基于增量式分区策略的MapReduce数据均衡方法被引量：23

An Incremental Partitioning Strategy for Data Balance on MapReduce

下载PDF

导出

摘要 MapReduce以其简洁的编程模型,被广泛应用于大规模和高维度数据集的处理,如日志分析、文档聚类和其他数据分析.开源系统Hadoop很好地实现了MapReduce模型,但由于自身采用一次分区机制,即通过Hash/Range分区函数对数据进行一次划分,导致在处理密集数据时,Reduce端常会出现数据倾斜的问题.虽然系统为用户提供了自定义分区函数方法,但不幸的是在不清楚输入数据分布的情况下,数据倾斜问题很难被避免.为解决数据划分的不均衡,该文提出一种将分区向Reducer指派时按照多轮分配的分区策略.该方法首先在Map端产生多于Reducer个数的细粒度分区,同时在Mapper运行过程中实时统计各细粒度分区的数据量;然后由JobTracker根据全局的分区分布信息筛选出部分未分配的细粒度分区,并用代价评估模型将选中的细粒度分区分配到各Reducer上;依照此方法,经过多轮的筛选、分配,最终在执行Reduce()函数前,将所有细粒度分区分配到Reduce端,以此解决分区后各Reducer接收数据总量均衡的问题.最后在Zipf分布数据集和真实数据集上与现有的分区切分方法Closer进行了对比,增量式分区策略更好地解决了数据划分后的均衡问题. MapReduce has been widely used in processing large data sets in a distributed cluster as a flexible computation model, such as log analysis, document clustering and other forms of data analytics. In the MapReduce open-source platform Hadoop, the default Hash/Range partition scheme usually results in unbalanced data load in the Reduce phase. Even though Hadoop allows users to define a partition function, it is difficult to achieve balanced data load without detailed information on data distribution. In this paper, we propose a novel multiple-round approach to balance data load in the Reduce phase. In our proposal, Mapper produces more fine-grained partitions than the number of Reducer and gathers the statistics on the sizes of fine-grained partitions. And then, JobTracker selects appropriate fine-grained partitions to be allocated to Reducers before running Reduce （） function. We introduce a cost model and propose a heuristic assignment algorithm for this task. Finally, we experimentally compare our approach with Closer, which uses a segment partition method, on both synthetic and real datasets. The experimental results show our method achieves more balanced data load.

作者王卓陈群李战怀潘巍尤立

机构地区西北工业大学计算机学院

出处《计算机学报》 EI CSCD 北大核心 2016年第1期19-35,共17页 Chinese Journal of Computers

基金国家"九七三"重点基础研究发展规划项目基金(2012CB316203) 国家自然科学基金(61033007 61332006 61472321) 西北工业大学基础研究基金(3102014JSJ0005 3102014JSJ0013)资助

关键词增量分配细粒度分区数据倾斜均衡分区 MAPREDUCE 大数据 incremental allocation fine-grained partition~ data skew~ balanced partitioning^MapReduce~ big data

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献20

1Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters. Operating Systems Design : Implementation, 2004, 51(1) : 147-152.
2Shvachko K, Kuang H, Radia S, et al. The hadoop distributed file system//Proceedings of the 2010 IEEE 26th Symposium on Mass Storage Systems and Technologies (MSST). Nevada, USA, 2010:1-10.
3王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752. 被引量：615
4潘巍,李战怀,伍赛,陈群.基于消息传递机制的MapReduce图算法研究[J].计算机学报,2011,34(10):1768-1784. 被引量：45
5Rasmussen A, Conley M, Kapoor R, et at. Themis: An I/O efficient MapReduce//Proceedings of the ACM Symposium on Cloud Computing (SOCC'12). San Jose, USA, 2012.
6Ren K, Kwon Y, Balazinska M, Howe B. Hadoop's adolescence: A comparative workload analysis from three research clusters. Carnegie Mellon University (CMU), USA: Technical Report CMU-PDL-12-106, 2012.
7Lin J, et al. The curse of Zipf and limits to parallelization: A look at the stragglers problem in MapReduee//Proceedings of the 7th Workshop on Large-Scale Distributed Systems for Information Retrieval. Boston, USA, 2009.
8Gufler B, Augsten N, Reiser A, Kemper A. Handing data skew in MapReduce//Proeeedings of the 1st InternationalConference on Cloud Computing and Services Science. Noordwijkerhout, The Netherlands, 2011, 146:574 583.
9Racha S C. Load Balancing Map-Reduce Communications for Efficient Executions of Applications in a Cloud [M]. S. disser tation]. Indian Institute of Science, Bangalore, India, 2012.
10Kwon Y, et al. A study of skew in MapReduce applications. Open Cirrus Summit, Moscow, Russia, 2011.

二级参考文献76

1[OL].<http://hadoop.apache.org.>.
2WinterCorp: 2005 TopTen Program Summary. http:// www. wintercorp, com/WhitePapers/WC TopTenWP. pdf.
3TDWI Checklist Report: Big Data Analytics. http://tdwi. org/research/2010/08/Big-Data-Analytics, aspx.
4Chaudhuri S, Dayal U. An overview of data warehousing and OLAP technology. SIGMOD Rec, 1997,26(1): 65-74.
5Madden S, DeWitt D J, Stonebraker M. Database parallelism choices greatly impact scalability. DatabaseColumn Blog. http://www, databasecolumn, com/2007/10/database-parallelism-choices, html.
6Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters//Proceedings of the 6th Symposium on Operating System Design and Implementation (OSDI ' 04). San Francisco, California, USA, 2004: 137-150.
7DeWitt D J, Gerber R H, Graefe G, Heytens M L, Kumar K B, Muralikrishna M. GAMMA--A high performance dataflow database machine//Proceedings of the 12th International Conference on Very Large Data Bases (VLDB' 86). Kyoto, Japan, 1986:228-237.
8Fushimi S, Kitsuregawa M, Tanaka H. An overview of the system software of a parallel relational database machine// Proceedings of the 12th International Conference on Very Large DataBases(VLDB'86). Kyoto, Japan, 1986:209-219.
9Brewer E A. Towards robust distributed systems//Proceedings of the 19th Annual ACM Symposium on Principles of Distributed Computing (PODC' 00). Portland, Oregon, USA, 2000:7.
10http: //www. dbms2, com/2008/08/26/known-applications of mapreduce/.

共引文献664

1张刘玲.会展行业发展现状及未来发展趋势[J].质量与市场,2023(12):31-33. 被引量：2
2李明建.试论大数据技术的图书馆特色馆藏文化建设[J].作家天地,2020(21):189-190.
3陈然.大数据时代下企业精准营销发展难题及破解[J].中国经贸导刊,2019,0(5Z):95-96. 被引量：4
4梅傲.数据治理的逻辑基础和实现路径[J].经济法论丛,2023(2):309-325.
5张文华.大数据对体育教育的冲击[J].贵阳学院学报（自然科学版）,2014,9(2):47-51. 被引量：19
6李满意.大数据安全[J].保密科学技术,2012(9):71-72. 被引量：19
7陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,25(S1):142-146. 被引量：340
8陈爱东,刘国华,费凡,周宇,万小妹,貟慧.满足均匀分布的不确定数据关联规则挖掘算法[J].计算机研究与发展,2013,50(S1):186-195. 被引量：18
9王习特,申德荣,聂铁铮,寇月,于戈.共享的MapReduce环境下批量作业的调度算法研究[J].计算机研究与发展,2013,50(S1):332-341. 被引量：2
10董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：69

同被引文献99

1廖松博,何震瀛.HDCH:MapReduce平台上的音频数据聚类系统[J].计算机研究与发展,2011,48(S3):472-475. 被引量：3
2周家帅,王琦,高军.一种基于动态划分的MapReduce负载均衡方法[J].计算机研究与发展,2013,50(S1):369-377. 被引量：11
3韩蕾,孙徐湛,吴志川,陈立军.MapReduce上基于抽样的数据划分最优化研究[J].计算机研究与发展,2013,50(S2):77-84. 被引量：12
4庄绪强.基于云计算技术的用户用电智能分析技术研究[J].自动化与仪器仪表,2016(2):187-189. 被引量：8
5袁静波,丁顺利,鞠九滨.基于负载的任务运行时间预报模型[J].计算机工程,2006,32(7):123-125. 被引量：2
6卢苇,彭雅.几种常用文本分类算法性能比较与分析[J].湖南大学学报（自然科学版）,2007,34(6):67-69. 被引量：31
7刘衍珩,田大新,余雪岗,王健.基于分布式学习的大规模网络入侵检测算法[J].软件学报,2008,19(4):993-1003. 被引量：46
8陈一骄,卢锡城,时向泉,孙志刚.一种面向会话的自适应负载均衡算法[J].软件学报,2008,19(7):1828-1836. 被引量：24
9慈轶为,张展,左德承,吴智博,杨孝宗.可扩展的多周期检查点设置[J].软件学报,2010,21(2):218-230. 被引量：7
10刘超,金海,蒋文斌,李浩.基于MapReduce的数据密集型应用性能优化研究[J].武汉理工大学学报,2010,32(20):36-40. 被引量：3

引证文献23

1李宗福,李阳,李昂,陈康.基于Hadoop与机器学习的舆情分析与应用[J].计算机应用研究,2020,37(S01):43-46. 被引量：1
2卞琛,于炯,修位蓉,英昌甜,钱育蓉.基于迭代填充的内存计算框架分区映射算法[J].计算机应用,2017,37(3):647-653. 被引量：3
3邱宁佳,李宾,王鹏,杨华民,王玮琦.基于MapReduce的密度聚类改进算法[J].计算机应用,2017,37(A01):63-67. 被引量：5
4阎栋,董媛.基于云计算的海量网络流量数据分析研究[J].自动化与仪器仪表,2017(9):32-34. 被引量：9
5王卓,索勃,潘巍.三角形的并行枚举算法[J].计算机应用,2017,37(12):3397-3400.
6王华进,黎建辉,沈志宏,周园春.基于ORC元数据的Hive Join查询Reducer负载均衡方法[J].计算机科学,2018,45(3):158-164. 被引量：3
7周华平,刘光宗,张贝贝.基于索引偏移的MapReduce聚类负载均衡策略[J].计算机科学,2018,45(5):303-309. 被引量：6
8白玲玲,韩天鹏.一种改进的SPRINT算法[J].韶关学院学报,2018,39(9):20-25.
9卞琛,于炯,修位蓉,廖彬,英昌甜,钱育蓉.基于分配适应度的Spark渐进填充分区映射算法[J].通信学报,2017,38(9):133-147. 被引量：5
10张润莲,李豪,叶志博.基于能力与任务完成时间的数据分配方法[J].计算机工程与设计,2018,39(4):923-927. 被引量：4

二级引证文献108

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2王媛,杨凯,李倩.高速公路智慧互通立交方案探究[J].中国交通信息化,2022(S01):351-354.
3伏家云,靖常峰,杜明义.空间密度聚类模式挖掘方法DBSCAN研究回顾与进展[J].测绘科学,2018,43(12):50-57. 被引量：6
4于炯,蒲勇霖,鲁亮,刘粟.分布式处理平台节能计算研究综述[J].新疆大学学报（自然科学版）,2018,35(4):389-401. 被引量：1
5贾如春.基于海量数据集中式数字图形仿真视景系统的研究与应用[J].激光杂志,2018,39(11):195-199. 被引量：1
6马宏伟,吴少杰,曹现刚,徐博远,张鑫媛.煤矿综采设备运行状态大数据清洗建模[J].工矿自动化,2018,44(11):80-83. 被引量：13
7何玉林,黄哲学.大规模数据集聚类算法的研究进展[J].深圳大学学报（理工版）,2019,36(1):4-17. 被引量：9
8邓东林,徐冘,陈剑,杨仁增.智能用电数据的采集与预处理[J].电力大数据,2019,22(3):81-86. 被引量：9
9周松.基于混沌理论的酒店客户隐私信息加密系统设计[J].自动化与仪器仪表,2019,0(6):18-22. 被引量：2
10张元鸣,蒋建波,陆佳炜,徐俊,肖刚.面向MapReduce的迭代式数据均衡分区策略[J].计算机学报,2019,42(8):1873-1885. 被引量：12

1于红斌,李孝安.基于分区策略的蚂蚁算法[J].微处理机,2007,28(3):78-80. 被引量：1
2李志忠.硬盘分区机制的分析与安全保护[J].微型计算机,1996,16(3):72-73.
3李志忠.一种安全的硬盘保护方法[J].微小型计算机开发与应用,1996(3):34-38.
4付淇,李正凡.基于CLIQUE的聚类算法研究[J].华东交通大学学报,2006,23(5):79-82. 被引量：12
5李航晨,秦小麟,沈尧.基于压力反馈的MapReduce负载均衡策略[J].计算机科学,2015,42(4):141-146. 被引量：4
6张鹏.神州数码网络推出新的网关产品DCFS-8500[J].通信世界,2009(38).
7欧阳娅,孙瑞志,杨璐.基于Condor的密集数据处理系统的实现[J].计算机应用,2007,27(B12):270-271.
8陈良维,廖婷,杨清平.贷款农户信用评价系统中数据库的性能优化[J].四川文理学院学报,2010,20(2):58-59.
9刘光曹.电网GIS平台内存集群数据分区策略[J].信息通信,2016,29(6):106-107.
10王晓军,孙惠.基于MapReduce的多路连接优化方法研究[J].计算机技术与发展,2013,23(6):59-62. 被引量：5

计算机学报

2016年第1期

浏览历史

内容加载中请稍等...

基于增量式分区策略的MapReduce数据均衡方法被引量：23

参考文献20

二级参考文献76

共引文献664

同被引文献99

引证文献23

二级引证文献108

相关作者

相关机构

相关主题

浏览历史

基于增量式分区策略的MapReduce数据均衡方法 被引量：23

参考文献20

二级参考文献76

共引文献664

同被引文献99

引证文献23

二级引证文献108

相关作者

相关机构

相关主题

浏览历史

基于增量式分区策略的MapReduce数据均衡方法被引量：23