一种分布式异构带宽环境下的高效数据分区方法被引量：6

An Efficient Data Partitioning Method in Distributed Heterogeneous Bandwidth Environment

下载PDF

导出

摘要在分布式大数据处理框架的作业运行过程中,会有大量的数据通过网络传输,数据在各节点之间传输所需的时间已成为作业运行的主要开销之一.在节点异构带宽的情况下,因为带宽瓶颈节点的存在,传统的数据分区方法效率低下.针对这个问题,建立了节点间的数据传输模型,该模型以降低数据传输时间为目标,根据各节点的上下行带宽和初始数据量大小,计算出各节点的最优数据分发比例.以该模型为基础,设计了基于带宽的数据分区方法,该数据分区方法使得各节点按最优数据分发比例来分配数据.最后在Apache Flink框架中将基于带宽的数据分区方法进行了实现,并通过实验进行了验证.实验结果表明:异构带宽条件下,基于带宽的数据分区方法可以有效减少数据分区所需的时间. A large quantity of data is transmitted through the network during the process in distributed big data processing framework,resulting in the time consumption for data transmission between each node becomes one of the main costs of the operation.However,in the case of heterogeneous bandwidth of nodes,traditional data partitioning methods such as Hash partitioning or range partitioning will be inefficient,due to the existence of bandwidth bottleneck nodes.Data partitioning is necessary for big data processing and inefficient data partitioning methods would significantly increase the running time of jobs.We therefore propose a data transmission model between nodes to reduce time consumption in distributed heterogeneous bandwidth networks.The model calculates each node s optimal data distribution ratio to minimize the data transfer time,according to its uplink and downlink bandwidth as well as the initial data size.Besides,a bandwidth-based data partitioning method is designed based on the proposed model,enabling each node to allocate data under the optimal data distribution ratio.We demonstrate the effectiveness of our bandwidth-based data partitioning method through the implementation in the Apache Flink framework and have significantly improved efficiency.Extensive experimental results show that the bandwidth-based data partitioning method can effectively reduce the time consumption of data partitioning in distributed heterogeneous bandwidth conditions.

作者马卿云季航旭赵宇海毛克明王国仁 Ma Qingyun;Ji Hangxu;Zhao Yuhai;Mao Keming;Wang Guoren(School of Computer Science and Engineering,Northeastern University,Shenyang 110169;Software College,Northeastern University,Shenyang 110169;School of Computer Science and Technology,Beijing Institute of Technology,Beijing 100081)

机构地区东北大学计算机科学与工程学院东北大学软件学院北京理工大学计算机学院

出处《计算机研究与发展》 EI CSCD 北大核心 2020年第12期2683-2693,共11页 Journal of Computer Research and Development

基金国家重点研发计划项目(2018YFB1004402) 国家自然科学基金项目(61772124)。

关键词数据分区 Apache Flink 负载均衡异构带宽分布式系统 data partitioning Apache Flink load balancing heterogeneous bandwidth distributed system

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1杨志伟,郑烇,王嵩,杨坚,周乐乐.异构Spark集群下自适应任务调度策略[J].计算机工程,2016,42(1):31-35. 被引量：19
2周家帅,王琦,高军.一种基于动态划分的MapReduce负载均衡方法[J].计算机研究与发展,2013,50(S1):369-377. 被引量：11

二级参考文献11

1The Spark Software Foundation.Spark[EB/OL].[2015-01-08].http://spark.apache.org.
2The Apache Software Foundation.Hadoop[EB/OL].[2015-01-08].http://hadoop.apache.org.
3Xu Xiaolong,Cao Lingling,Wang Xinheng.Adaptive Task Scheduling Strategy Based on Dynamic Workload Adjustment for Heterogeneous Hadoop Clusters[J].IEEE Systems Journal,2014,(99):1-12.
4Nightingale E B,Chen P M,Flinn J.Speculative Execution in a Distributed File System[J].ACM Transactions on Computer Systems,2006,24(4):361-392.
5Yong M,Garegrat N,Mohan S.Towards a Resource Aware Scheduler in Hadoop[C]//Proceedings of the 7th IEEE International Conference on Web Services.Los Angeles,USA:IEEE Computer Society,2009:102-109.
6Zaharia M,Chowdhury M,Das T,et al.Resilient Distributed Datasets:A Fault-tolerant Abstraction for In-memory Cluster Computing,UCB/EECS-2011-82[R].University of California,Berkeley,2012.
7Zaharia M,Chowdhury M,Franklin M J,et al.Spark:Cluster Computing with Working Sets,UCB/EECS-2010-53[R].University of California,Berkeley,2010.
8Guo Zhenhua,Fox G,Zhou Mo.Investigation of Data Locality in MapReduce[C]//Proceedings of the 12th IEEE/ACM International Symposium on Cluster,Cloud and Grid Computing.Ottawa,Canada:IEEE Computer Society,2012:419-426.
9Typesafe Inc.akka[EB/OL].[2015-01-08].http://akka.io/.
10Massie M,Li B,Nickoles B,et al.Monitoring with Ganglia[M].Sebastopol,USA:O'Reilly Media,2012.

共引文献28

1刘寒梅,韩宏莹.基于反馈调度的MapReduce负载均衡分区算法研究[J].信息通信,2015,28(10):41-42. 被引量：1
2王卓,陈群,李战怀,潘巍,尤立.基于增量式分区策略的MapReduce数据均衡方法[J].计算机学报,2016,39(1):19-35. 被引量：24
3王刚,李盛恩.MapReduce中数据倾斜解决方法的研究[J].计算机技术与发展,2016,26(9):201-204. 被引量：3
4梁俊杰,何利民.基于MapReduce的数据倾斜连接算法[J].计算机科学,2016,43(9):27-31. 被引量：6
5黄廷辉,王玉良,汪振,崔更申.基于内存与文件共享机制的Spark I/O性能优化[J].计算机工程,2017,34(3):1-6. 被引量：8
6高原,任升,顾文杰.异构环境中HDFS数据块调度算法的设计与实现[J].计算机工程,2017,34(8):82-89. 被引量：2
7张靓,肖俊东,赵开敏.基于Spark的舰船网络数据解析存储系统设计与实现[J].舰船电子工程,2017,37(11):92-95. 被引量：2
8杨朝辉,康磊.Hadoop平台中的MapReduce模型及优化[J].信息技术与信息化,2017(12):82-85. 被引量：2
9于梦馨,刘波,汤恩生.改进粒子群算法优化SVM参数的遥感图像分类[J].航天返回与遥感,2018,39(2):133-140. 被引量：9
10周华平,刘光宗,张贝贝.基于索引偏移的MapReduce聚类负载均衡策略[J].计算机科学,2018,45(5):303-309. 被引量：6

同被引文献57

1田方正,皇甫大宏,沙永忠.新一代机载数据采集系统的发展综述[J].测控技术,2007,26(3):16-18. 被引量：7
2高自娟,朱玉全,陈耿.基于变尺度滑动窗口的流数据聚类算法[J].计算机应用研究,2011,28(2):551-553. 被引量：4
3刘藻珍.基于飞行试验数据的仿真模型验证方法的研究[J].系统仿真学报,2002,14(3):281-284. 被引量：29
4邰滢滢,薄旭,庞影,付云鹏.一种运用模糊综合评判的实时服务器负载均衡算法[J].小型微型计算机系统,2019,40(1):93-97. 被引量：3
5袁炳南,霍朝晖,白效贤.飞行试验大数据技术发展及展望[J].计算机测量与控制,2015,23(6):1844-1847. 被引量：26
6李彬,曹望璋,张洁,陈宋宋,杨斌,孙毅,祁兵.基于异构区块链的多能系统交易体系及关键技术[J].电力系统自动化,2018,42(4):183-193. 被引量：59
7杨洋.数字孪生技术在供应链管理中的应用与挑战[J].中国流通经济,2019,33(6):58-65. 被引量：19
8刘欢,房胜,李哲,赵晴.基于多条带HEVC并行编码器的负载均衡算法[J].计算机工程与应用,2019,55(18):180-188. 被引量：2
9丁岩,杨万祥,汪清,杨乐,胡晓.大数据统一SQL引擎研究与设计[J].科技视界,2019,0(29):1-4. 被引量：4
10胡昌吉,屈柏耿,林为,段春艳.太阳辐射数据分析及其在光伏系统设计中的应用[J].广东电力,2019,32(11):19-27. 被引量：8

引证文献6

1张茂君,李俊华,邢海涛,朱庭楠,孙健.基于Hadoop和Flink的电力供应链数据中台建设与应用[J].电力大数据,2022,25(2):55-63. 被引量：2
2吕鹤轩,黄山,艾力卡木·再比布拉,吴思衡,段晓东.Flink水位线动态调整策略[J].计算机工程与科学,2023,45(2):237-245.
3梁懿,刘迪,陈又咏,董晓祺,许志毅.国产化环境下的海量小文件数据分布式存储技术[J].计算技术与自动化,2023,42(3):141-146. 被引量：1
4邓国宝,查晓文,刘涛,冯灿,薛博文.试飞数据查询引擎设计[J].计算机测量与控制,2023,31(10):208-213. 被引量：1
5邓国宝,查晓文,冯灿,张逸飞,薛博文.试飞数据平台数据架构设计与应用[J].计算机测量与控制,2023,31(12):271-276.
6华书蓓,刘于超,白雅雯,郑际俊.电能表数据采集终端负载自适应均衡方法研究[J].自动化仪表,2024,45(3):78-82.

二级引证文献4

1廖阳春,谢宏泉,周泉群,杨柳,雷书学.基于供求融合的计量物资智能调度匹配路径优化研究[J].粘接,2023,50(6):148-152. 被引量：1
2舒珏淋,曹杨,迟雪,胥月,何加浪,周豪.面向物联网应用的大数据平台研究与设计[J].计算机时代,2023(7):127-132. 被引量：6
3肖嘉丽,蔡玲嘉,黄玉昆,吴伟忠,钟敏.基于深度强化学习的数字电网数据安全迁移研究[J].信息与电脑,2024,36(2):195-197.
4肖丽丽.蚁群算法的大数据计算引擎均衡部署数学建模研究[J].运筹与模糊学,2024,14(3):969-978.

1赵颖.基于Hadoop的计算机分布式存储与数据分发设计[J].电子技术与软件工程,2020(13):150-151.
2唐浩,姜春宇,田稼丰.分布式数据库技术及发展趋势研究[J].信息通信技术与政策,2020(11):86-90. 被引量：9
3毛先胤,文屹,马晓红,黄欢,张辉,余容.基于电力大数据的多源异构数据融合技术研究与应用[J].电力大数据,2020,23(8):33-39. 被引量：17
4戴荣,孙国忠,吕灼恒,秦晓宁.面向E级计算超融合软件框架的设计与实现[J].计算机仿真,2020,37(7):234-238. 被引量：4
5郑革.4K超高清视频采集传输技术在5G平台中的运用[J].科技风,2020(35):95-96. 被引量：6
6侯瑞涛,咸鹤群,李京,狄冠东.分级可逆的关系数据水印方案[J].软件学报,2020,31(11):3571-3587. 被引量：2
7付丽伟,马琪,付君丽,李名泰,朱辉.居民小区电缆识别仪的研究与应用[J].河北电力技术,2020,39(5):37-39. 被引量：1
8张怀生.预制桩柔性分区施工工艺研究[J].山西建筑,2020,46(22):63-65.
9易文博,陈国平,管春.FreeRTOS在ZYNQ实时液晶显示系统中的应用[J].现代电子技术,2020,43(22):15-18. 被引量：7
10苏祥枝.关于机车谐振引起网压高处置方法的研究[J].电气传动自动化,2020,42(3):14-16. 被引量：1

计算机研究与发展

2020年第12期

浏览历史

内容加载中请稍等...

一种分布式异构带宽环境下的高效数据分区方法被引量：6

参考文献2

二级参考文献11

共引文献28

同被引文献57

引证文献6

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种分布式异构带宽环境下的高效数据分区方法 被引量：6

参考文献2

二级参考文献11

共引文献28

同被引文献57

引证文献6

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种分布式异构带宽环境下的高效数据分区方法被引量：6