广播机制解决Shuffle过程数据倾斜的方法被引量：4

Method Research to Solve Shuffle Data Skew Based on Broadcast

下载PDF

导出

摘要在Spark 计算平台中,数据倾斜往往导致某些节点承受更大的网络流量和计算压力,给集群的CPU、内存、磁盘和流量带来了巨大的负担,影响整个集群的计算性能.本文通过对Spark Shuffle 设计和算法实现的研究,深入分析在大规模分布式环境下发生数据倾斜的本质原因.提出了广播机制避免Shuffle 过程数据倾斜的方法,分析了广播变量分发逻辑过程,给出广播变量性能优势分析和该方法的算法实现.通过Broadcast Join 实验验证了该方法在性能上有稳定的提升. In the Spark computing platform, data skew often causes some nodes to withstand greater network traffic and computing pressure, which imposes a huge burden on the cluster’s CPU, memory, disk, and traffic, affecting the computing performance of the entire cluster. Through the research on Spark Shuffle design and algorithm implementation, and deep analyses on the essential reasons of data skew in large-scale distributed environment, this study proposes a method to avoid data skew in shuffle process through the broadcast mechanism, analyzes the process of broadcast variable distribution logic, and gives the algorithm implementation and performance advantage analysis of the method. The performance of the method is improved by the Broadcast Join experiment.

作者吴恩慈 WU En-Ci(Shanghai Qiyu Information Technology Co. Ltd., Shanghai 200120, China)

机构地区上海淇毓信息科技有限公司

出处《计算机系统应用》 2019年第6期189-197,共9页 Computer Systems & Applications

关键词数据倾斜分区策略洗牌算法广播机制 data skew partition shuffle broadcast

分类号 TN93 [电子电信—信号与信息处理]

引文网络
相关文献

参考文献5

1廖旺坚,黄永峰,包从开.Spark并行计算框架的内存优化[J].计算机工程与科学,2018,40(4):587-593. 被引量：10
2卞琛,于炯,英昌甜,修位蓉.并行计算框架Spark的自适应缓存管理策略[J].电子学报,2017,45(2):278-284. 被引量：18
3李俊丽.基于Spark平台的离群数据并行挖掘算法[J].计算机与数字工程,2018,46(11):2175-2178. 被引量：2
4朱继召,贾岩涛,徐君,乔建忠,王元卓,程学旗.SparkCRF：一种基于Spark的并行CRFs算法实现[J].计算机研究与发展,2016,53(8):1819-1828. 被引量：11
5谭亮,周静.基于Spark Streaming的实时交通数据处理平台[J].计算机系统应用,2018,27(10):133-139. 被引量：13

二级参考文献23

1陈敏.数据挖掘技术在商业银行中的应用[J].中国管理信息化,2011,14(9):59-62. 被引量：8
2司成祥,孟晓烜,许鲁.一种针对websearch应用的缓存替换算法[J].电子学报,2011,39(5):1205-1209. 被引量：2
3凌晨添.进化神经网络在信用卡欺诈检测中的应用[J].微电子学与计算机,2011,28(10):14-17. 被引量：14
4刘滔,雷霖,陈荦,熊伟.基于MapReduce的中文词性标注CRF模型并行化训练研究[J].北京大学学报（自然科学版）,2013,49(1):147-152. 被引量：5
5王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138. 被引量：714
6诸彤宇,王奇,高梦丹.离群点挖掘技术在交通事件检测中的应用[J].计算机科学与探索,2014,8(1):111-120. 被引量：7
7陈庄,黄勇,邹航.基于离群点挖掘的工业控制系统异常检测[J].计算机科学,2014,41(5):178-181. 被引量：13
8程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：740
9FANG Juan,WANG Jing,LI Chengyan,YAO Zhicheng,KE Weimao.Partition-Based Cache Replacement to Manage Shared L2 Caches[J].Chinese Journal of Electronics,2014,23(3):464-467. 被引量：1
10崔星灿,禹晓辉,刘洋,吕朝阳.分布式流处理技术综述[J].计算机研究与发展,2015,52(2):318-332. 被引量：50

共引文献46

1李浩光.大数据网络分布式独立内存分配算法研究[J].科技通报,2021,37(4):37-41.
2洪燕云.创新思维与创新技法的应用[J].茶叶机械杂志,2000(2):1-2. 被引量：2
3于炯,蒲勇霖,鲁亮,刘粟.分布式处理平台节能计算研究综述[J].新疆大学学报（自然科学版）,2018,35(4):389-401. 被引量：1
4余传明,原赛,王峰,安璐.大数据环境下文本情感分析算法的规模适配研究:以Twitter为数据源[J].图书情报工作,2019,63(4):101-111. 被引量：13
5李志义,王冕,赵鹏武.基于条件随机场模型的“评价特征-评价词”对抽取研究[J].情报学报,2017,36(4):411-421. 被引量：8
6宋凯.基于行运算器思想的DRSTOP控制信息生成方法[J].电子学报,2018,46(5):1133-1138.
7刘恒,谭良.并行计算框架Spark中一种新的RDD分区权重缓存替换算法[J].小型微型计算机系统,2018,39(10):2279-2284. 被引量：8
8谭亮,周静.基于Spark Streaming的实时交通数据处理平台[J].计算机系统应用,2018,27(10):133-139. 被引量：13
9贾如春.基于海量数据集中式数字图形仿真视景系统的研究与应用[J].激光杂志,2018,39(11):195-199. 被引量：1
10陆克中,朱金彬,李正民,隋秀峰.面向固态硬盘的Spark数据持久化方法设计[J].计算机研究与发展,2017,54(6):1381-1390. 被引量：3

同被引文献16

1李垚周,李光明.分布式数据清洗系统设计[J].网络安全技术与应用,2020,0(2):60-62. 被引量：7
2文明波,丁治明.适用于云计算的面向查询数据库数据分布策略[J].计算机科学,2010,37(9):168-172. 被引量：21
3王兴,鲍志伟.适用于高速检索的完美Hash函数[J].计算机系统应用,2016,25(2):250-256. 被引量：2
4邸宏宇,张静,于毅,王连印.一种基于改进模糊哈希的文件比较算法研究[J].信息网络安全,2016(11):12-18. 被引量：3
5黄廷辉,王玉良,汪振,崔更申.基于内存与文件共享机制的Spark I/O性能优化[J].计算机工程,2017,34(3):1-6. 被引量：8
6周亮,李格非,邰伟鹏,郑啸.基于Spark的时态查询扩展与时态索引优化研究[J].计算机工程,2017,34(7):22-28. 被引量：3
7牛志华,屈景怡,吴仁彪.基于Spark的分层子空间权重树随机森林算法[J].信号处理,2017,33(10):1301-1307. 被引量：5
8A.K.Sampath,Dr.N.Gomathi.Decision tree and deep learning based probabilistic model for character recognition[J].Journal of Central South University,2017,24(12):2862-2876. 被引量：6
9阎博,张昊,郭子明,王东升,刘蒙.基于多源数据融合的电网故障综合分析与智能告警技术研究与应用[J].中国电力,2018,51(2):39-46. 被引量：38
10翟俊海,齐家兴,沈矗,宋丹丹,王谟瀚,田石.基于MapReduce和Spark的大数据主动学习比较研究[J].计算机工程与科学,2019,41(10):1715-1722. 被引量：6

引证文献4

1吴恩慈.决策树模型预测Spark SQL作业执行时间的方法[J].计算机应用与软件,2021,38(4):24-31.
2杨彦彬,干祯辉.Spark环境下SQL优化的方法[J].数字通信世界,2021(7):13-14. 被引量：2
3杨彦彬.基于Spark和Kudu技术的施工人员准实时数据仓库[J].信息技术与信息化,2021(12):91-93.
4杨沙沙,黄艳.基于工程机械设备数据倾斜问题分析与研究[J].西安交通工程学院学术研究,2022,7(2):36-40.

二级引证文献2

1樊亚妮,蔡灿材,郑泽森,谢嘉豪,张大明.基于数据集成平台SQL解析器的研究[J].信息与电脑,2023,35(3):13-15.
2陈春茹.基于Spark SQL的数据查询与索引优化系统研究[J].信息技术与信息化,2024(7):170-173.

1张习波.千米定向钻机液压系统在井下钻探中的性能分析[J].内蒙古煤炭经济,2017(19):43-43.
2赵尹.基于洗牌算法的二方向折叠扩散混沌系统图像加密[J].电脑与电信,2018(12):50-55. 被引量：2
3周华君,丁爱芬,吕小俊.一种基于策略集的概率缩域算法对多目标随机组卷问题的解决方案[J].计算机与现代化,2018(2):80-83.
4王暖云.基于数学素养下的课堂逻辑与模式[J].课程教育研究,2019(13):139-139.
5万新军,宾博逸,吕宋,宋可,解树平.基于Zernike多项式拟合的非球面点云数据自动调平[J].光学技术,2019,45(2):170-175. 被引量：5
6孟琪.WTO争端解决机制作为“上海合作组织”经贸争端解决机制的可行性研究[J].上海对外经贸大学学报,2019,26(3):43-57. 被引量：2
7从幕后到台前华为的汽车“野心”[J].汽车与社会,2019,0(13):60-60.
8蔡清伟.新时代“把党的政治建设摆在首位”的逻辑证成[J].党史博采（下）,2019,0(6):27-29.
9李聪明.基于网络环境下心理健康教育存在的意义探析[J].读书文摘,2019,0(3):29-29.
10周礼祥,刘美玲,孙立研,于洋.森林碳汇智能计算模型和评估系统开发[J].实验室研究与探索,2019,38(6):22-26. 被引量：4

计算机系统应用

2019年第6期

浏览历史

内容加载中请稍等...

广播机制解决Shuffle过程数据倾斜的方法被引量：4

参考文献5

二级参考文献23

共引文献46

同被引文献16

引证文献4

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

广播机制解决Shuffle过程数据倾斜的方法 被引量：4

参考文献5

二级参考文献23

共引文献46

同被引文献16

引证文献4

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

广播机制解决Shuffle过程数据倾斜的方法被引量：4