Spark内存管理及缓存策略研究被引量：13

Research on Memory Management and Cache Replacement Policies in Spark

下载PDF

导出

摘要 Spark系统是基于Map-Reduce模型的大数据处理框架。Spark能够充分利用集群的内存,从而加快数据的处理速度。Spark按照功能把内存分成不同的区域:Shuffle Memory和Storage Memory,Unroll Memory,不同的区域有不同的使用特点。首先,测试并分析了Shuffle Memory和Storage Memory的使用特点。RDD是Spark系统最重要的抽象,能够缓存在集群的内存中;在内存不足时,需要淘汰部分RDD分区。接着,提出了一种新的RDD分布式权值缓存策略,通过RDD分区的存储时间、大小、使用次数等来分析RDD分区的权值,并根据RDD的分布式特征对需要淘汰的RDD分区进行选择。最后,测试和分析了多种缓存策略的性能。 Spark is a big data processing framework based on Map-Reduce.Spark can make full use of cluster memory,thus accelerating data processing.Spark divides memory into Shuffle Memory,Storage Memory and Unroll Memory according to their functions.These different memory zones have different characteristics.The features of Shuffle Memory and Storage Memory were tested and analyzed.RDD（Resilient Distributed Datasets）is the most important abstract in spark,which can cache in cluster memory.When the cluster memory is insufficient,Spark must select some RDD partitions to discard to make room for the new ones.A new cache replacement policies called DWRP（Distributed Weight Replacement Policy）was proposed.DWRP can compute the weight of every RDD partition based on the time of store in memory,size and frequency of use,and then select possible RDD partition to discard based on distribution features.The performance of different cache replacement policies was tested and analyzed at last.

作者孟红涛余松平刘芳肖侬

机构地区国防科学技术大学计算机学院

出处《计算机科学》 CSCD 北大核心 2017年第6期31-35,74,共6页 Computer Science

基金 863计划"面向大数据的内存计算关键技术与系统"子课题"基于内存计算的并行处理系统与研究"资助

关键词大数据 Spark内存管理 RDD缓存缓存策略 Big data Spark memory management RDD cache Cache replacement policies

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

同被引文献66

1姜勤波,马红光,杨利锋.一种新的雷达脉冲信号的非匹配检测算法[J].现代雷达,2006,28(11):36-40. 被引量：7
2刘一星,梁山.基于改进ATSVM算法的评审专家自动推荐模型[J].重庆科技学院学报（自然科学版）,2010,12(1):134-136. 被引量：8
3晏立,沈锐.Java序列化技术的探讨[J].红河学院学报,2011,9(4):37-39. 被引量：10
4郝树魁.Hadoop HDFS和MapReduce架构浅析[J].邮电设计技术,2012(7):37-42. 被引量：73
5左利云,曹志波,董守斌.云计算虚拟资源的熵优化和动态加权评估模型[J].软件学报,2013,24(8):1937-1946. 被引量：24
6林子雨,赖明星,邹权,薛永生,杨思颖.基于替换概率的闪存数据库缓冲区替换算法[J].计算机学报,2013,36(8):1568-1581. 被引量：12
7赵玲,许宏科.基于改进的灰色马尔可夫链模型的交通事故预测[J].数学的实践与认识,2013,43(20):92-98. 被引量：15
8金伟健,王春枝.适于进化算法的迭代式MapReduce框架[J].计算机应用,2013,33(12):3591-3595. 被引量：16
9刘仁义,刘南,苏国中.图形数据与关系数据库的结合及其应用[J].测绘学报,2000,29(4):329-333. 被引量：51
10龚健雅.空间数据库管理系统的概念与发展趋势[J].测绘科学,2001,26(3):4-9. 被引量：130

引证文献13

1汪保友,姚健,张正卿.基于FKS的信令采集与监控技术[J].电信科学,2018,34(3):145-155. 被引量：5
2刘恒,谭良.并行计算框架Spark中一种新的RDD分区权重缓存替换算法[J].小型微型计算机系统,2018,39(10):2279-2284. 被引量：8
3王欣,周云才.基于隐马尔科夫模型的spark作业异常分析[J].电脑知识与技术,2018,14(4Z):198-200.
4赵俊先,喻剑.基于RDD非序列化本地存储的Spark存储性能优化[J].计算机科学,2019,46(5):143-149. 被引量：5
5权赵恒,李嘉迪.从Hadoop到Spark技术的革新[J].电脑知识与技术,2019,15(3Z):265-268. 被引量：3
6穆诗棋,徐小良,何宏,王宇翔,夏一行.基于Spark的分布式科技专家推荐模型[J].杭州电子科技大学学报（自然科学版）,2019,39(5):30-34.
7Suzhen Wang,Yanpiao Zhang,Lu Zhang,Ning Cao,Chaoyi Pang.An Improved Memory Cache Management Study Based on Spark[J].Computers, Materials & Continua,2018(9):415-431. 被引量：2
8Suzhen Wang,Shanshan Geng,Zhanfeng Zhang,Anshan Ye,Keming Chen,Zhaosheng Xu,Huimin Luo,Gangshan Wu,Lina Xu,Ning Cao.A Dynamic Memory Allocation Optimization Mechanism Based on Spark[J].Computers, Materials & Continua,2019(8):739-757. 被引量：2
9罗祖兵,杨晓敏,严斌宇.基于Hadoop和Spark的雷达数据序列模式挖掘系统[J].计算机应用,2019,39(S02):169-174. 被引量：5
10孟庆云.基于交叉点缓存的点对点网络数据流权值分配研究[J].新一代信息技术,2019,2(13):49-53.

二级引证文献29

1黄东,陈光,李海滨,杨朔.Spark个性化地点推荐系统[J].辽宁工程技术大学学报（自然科学版）,2020(6):533-540. 被引量：1
2孙明.基于大数据技术的精准扶贫管理系统建设研究[J].电脑知识与技术,2020,0(4):298-300.
3赵卓峰,陈元,梅宇生.面向数据湖存取性能优化的数据并行处理技术研究[J].北方工业大学学报,2024,36(3):1-10.
4吴良.基于云计算的信令数据监测系统架构研究[J].电子设计工程,2019,27(15):170-174. 被引量：2
5龙嫔.LTE核心网架构下的手机信令数据采集技术研究[J].电子科技,2019,32(12):80-83. 被引量：3
6江佳原.实时大数据平台的设计与实现[J].金融科技时代,2020,28(2):75-78. 被引量：3
7唐未香,吴学杨,刘科峰.Spark分布式集群的搭建[J].福建电脑,2020,36(2):102-104. 被引量：2
8王庆桦.动态数据处理平台分布式缓存替换算法仿真[J].计算机仿真,2020,37(2):294-298. 被引量：3
9王玉.大数据时代Hadoop和Spark技术研究[J].品牌研究,2020,0(4):88-90. 被引量：4
10刘皎,曹荣荣,武立.信令监控系统中数据存储检索功能的设计[J].微型电脑应用,2020,36(6):37-39. 被引量：3

1王锴,张伟,周志远,董明新,施帅,刘世隆,丁冬生,史保森.Optical storage of orbital angular momentum via Rydberg electromagnetically induced transparency[J].Chinese Optics Letters,2017,15(6):7-10. 被引量：1
2闫梦洁,罗军,刘建英,侯传旺.IABS:一个基于Spark的Apriori改进算法[J].计算机应用研究,2017,34(8):2274-2277. 被引量：12
3段志国,赵岩,李军,周剑波.基于嵌入式的伺服综合测控平台的设计[J].计算机测量与控制,2017,25(7):51-54.
4杨胜哲,于俊清,唐九飞.数据流程序动态调度与优化[J].计算机工程与科学,2017,39(7):1201-1210. 被引量：3

计算机科学

2017年第6期

浏览历史

内容加载中请稍等...

Spark内存管理及缓存策略研究被引量：13

同被引文献66

引证文献13

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

Spark内存管理及缓存策略研究 被引量：13

同被引文献66

引证文献13

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

Spark内存管理及缓存策略研究被引量：13