Spark数据倾斜问题研究被引量：3

Research on data skew of Spark

下载PDF

导出

摘要当今人类已经进入大数据时代,海量数据处理已成为大数据技术领域的研究热点。Spark是一种典型的基于内存的分布式大数据处理框架,但在Spark的实际应用中出现的数据倾斜问题会对计算效率产生重要影响。本文针对于Spark在各类应用中出现的数据倾斜问题,梳理国内外相关研究进展,对在出现数据倾斜问题后常用的优化方法进行了分析对比,最后对未来的研究方向进行了展望。 Nowadays,mankind has entered the era of big data,and mass data processing has become a research hotspot in the field of big data technology.Spark is a typical memory-based distributed big data processing framework,but the data skew problem in the actual application of Spark will have an important impact on the computing efficiency.Aiming at the data skew problem in various applications of Spark,this paper sorted out relevant research progress at home and abroad,analyzed and compared the commonly used optimization methods after the occurrence of data skew problem,and finally looked into the future research direction.

作者张占峰王文礼耿珊珊贾芝婷 ZHANG Zhan-feng;WANG Wen-li;GENG Shan-shan;JIA Zhi-ting(College of Information Technology,Hebei University of Economics and Business,Shijiazhuang Hebei 050061,China)

机构地区河北经贸大学信息技术学院

出处《河北省科学院学报》 CAS 2020年第1期1-7,共7页 Journal of The Hebei Academy of Sciences

基金 2019年度河北省研究生创新资助项目(CXZZSS2019106)。

关键词大数据 SPARK 数据倾斜数据处理 Big data Spark Data skew Data processing

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1王卓,陈群,李战怀,潘巍,尤立.基于增量式分区策略的MapReduce数据均衡方法[J].计算机学报,2016,39(1):19-35. 被引量：25
2梁俊杰,何利民.基于MapReduce的数据倾斜连接算法[J].计算机科学,2016,43(9):27-31. 被引量：7
3高宇飞,曹仰杰,陶永才,石磊.MapReduce计算模型下基于虚拟分区的数据倾斜处理方法[J].小型微型计算机系统,2015,36(8):1706-1710. 被引量：5
4张元鸣,蒋建波,陆佳炜,徐俊,肖刚.面向MapReduce的迭代式数据均衡分区策略[J].计算机学报,2019,42(8):1873-1885. 被引量：14

二级参考文献51

1陈勇旭,陈梦杰,刘雪冰,宋杰.基于MapReduce的连接聚集查询算法研究[J].计算机研究与发展,2013,50(S1):306-311. 被引量：7
2周家帅,王琦,高军.一种基于动态划分的MapReduce负载均衡方法[J].计算机研究与发展,2013,50(S1):369-377. 被引量：11
3韩蕾,孙徐湛,吴志川,陈立军.MapReduce上基于抽样的数据划分最优化研究[J].计算机研究与发展,2013,50(S2):77-84. 被引量：13
4Gufler B, Augsten N, Reiser A, et al. Handing data skew in mapRe- duce[ C]. Proceedings of the I st International Conference on Cloud Computing and Services Science ,2011,146:574-583.
5Kwon Y C,Ren K,Balazinska M,et al. Managing skew in hadoop [ J]. IEEE Data Eng,Bull,2013,36( 1 ) :24-33.
6Ibrahim S,Jin H,Lu L,et al. Handling partitioning skew in MapRe- duce using LEEN [ J ]. Peer-to-Peer Networking and Applications, 2013,6(4) :409-424.
7Xu Y,Zou P, Qu W,et al. Sampling-based partitioning in MapRe- duce for skewed data [ C ]. ChinaGrid Annual Conference ( China- Grid) ,2012 Seventh, IEEE ,2012 : 1-8.
8Yang H, Dasdan A, Hsiao R L, et al. Map-reduce-merge : simplified relational data processing on large clusters [ C ]. Proceedings of the 2007 ACM SIGMOD International Conference on Management of Data, ACM,2007 : 1029 - 1040.
9Abouzeid A, Bajda-Pawlikowski K, Abadi D, et al. HadoopDB : an architectural hybrid of MapReduce and DBMS technologies for ana- lytical workloads [ J ]. Proceedings of the VLDB Endowment,2009, 2( I ) :922-933.
10Cbopra S, Rao M R. The partition problem [ J ]. Mathematical Pro- gramming, 1993,59( 1-3 ) :87-115.

共引文献39

1李宗福,李阳,李昂,陈康.基于Hadoop与机器学习的舆情分析与应用[J].计算机应用研究,2020,37(S01):43-46. 被引量：1
2卞琛,于炯,修位蓉,英昌甜,钱育蓉.基于迭代填充的内存计算框架分区映射算法[J].计算机应用,2017,37(3):647-653. 被引量：5
3邱宁佳,李宾,王鹏,杨华民,王玮琦.基于MapReduce的密度聚类改进算法[J].计算机应用,2017,37(A01):63-67. 被引量：5
4阎栋,董媛.基于云计算的海量网络流量数据分析研究[J].自动化与仪器仪表,2017(9):32-34. 被引量：9
5王卓,索勃,潘巍.三角形的并行枚举算法[J].计算机应用,2017,37(12):3397-3400.
6王华进,黎建辉,沈志宏,周园春.基于ORC元数据的Hive Join查询Reducer负载均衡方法[J].计算机科学,2018,45(3):158-164. 被引量：3
7陈军.分布式平台等值连接优化技术分析[J].现代计算机,2018,24(5):90-92.
8周华平,刘光宗,张贝贝.基于索引偏移的MapReduce聚类负载均衡策略[J].计算机科学,2018,45(5):303-309. 被引量：6
9郑钤,向军.一种基于负载代价的MapReduce等值连接优化算法[J].湖北民族学院学报（自然科学版）,2018,36(3):342-347.
10白玲玲,韩天鹏.一种改进的SPRINT算法[J].韶关学院学报,2018,39(9):20-25.

同被引文献18

1李垚周,李光明.分布式数据清洗系统设计[J].网络安全技术与应用,2020,0(2):60-62. 被引量：7
2宋怀明,安明远,王洋,袁春阳,孙凝晖.大规模数据密集型系统中的去重查询优化[J].计算机研究与发展,2010,47(4):581-588. 被引量：6
3文明波,丁治明.适用于云计算的面向查询数据库数据分布策略[J].计算机科学,2010,37(9):168-172. 被引量：21
4陈涛,肖侬,刘芳,付长胜.基于聚类和一致Hash的数据布局算法[J].软件学报,2010,21(12):3175-3185. 被引量：17
5黄秋兰,程耀东,陈刚.分布式存储系统的哈希算法研究[J].计算机工程与应用,2014,50(1):1-4. 被引量：17
6王晓燕,陈晋川,郭小燕,杜小勇.基于Nash-Pareto策略的自动数据分布方法及支持工具[J].计算机研究与发展,2015,52(9):1965-1975. 被引量：2
7王兴,鲍志伟.适用于高速检索的完美Hash函数[J].计算机系统应用,2016,25(2):250-256. 被引量：3
8邸宏宇,张静,于毅,王连印.一种基于改进模糊哈希的文件比较算法研究[J].信息网络安全,2016(11):12-18. 被引量：3
9黄廷辉,王玉良,汪振,崔更申.基于内存与文件共享机制的Spark I/O性能优化[J].计算机工程,2017,34(3):1-6. 被引量：8
10王新友,杨昆瓒.基于二次平滑指数的引航事故预测研究[J].中国水运,2017(9):56-57. 被引量：1

引证文献3

1杨彦彬,干祯辉.Spark环境下SQL优化的方法[J].数字通信世界,2021(7):13-14. 被引量：2
2孟令伍,杨阳朝,黄晓明,练丽萍.基于节点负载的数据动态分区[J].计算机系统应用,2021,30(12):299-307.
3杨沙沙,黄艳.基于工程机械设备数据倾斜问题分析与研究[J].西安交通工程学院学术研究,2022,7(2):36-40.

二级引证文献2

1樊亚妮,蔡灿材,郑泽森,谢嘉豪,张大明.基于数据集成平台SQL解析器的研究[J].信息与电脑,2023,35(3):13-15.
2陈春茹.基于Spark SQL的数据查询与索引优化系统研究[J].信息技术与信息化,2024(7):170-173.

1张宏伟,李晓欢,李春海,姚荣彬,唐欣.基于内存关联分析的预拷贝迁移优化策略[J].计算机工程,2020,46(3):222-228.
2高磊.遥感影像动态裁剪程序化实现方法[J].北京测绘,2020,34(2):172-175. 被引量：2
3张旭,常轶松,张科,陈明宇.面向图计算应用的处理器访存通路优化设计与实现[J].国防科技大学学报,2020,42(2):13-22.
4黄向平,彭明田,杨永凯.基于内存映射文件的复杂对象快速读取方法[J].计算机技术与发展,2020,30(3):82-87. 被引量：7

河北省科学院学报

2020年第1期

浏览历史

内容加载中请稍等...

Spark数据倾斜问题研究被引量：3

参考文献4

二级参考文献51

共引文献39

同被引文献18

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

Spark数据倾斜问题研究 被引量：3

参考文献4

二级参考文献51

共引文献39

同被引文献18

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

Spark数据倾斜问题研究被引量：3