基于收益模型的Spark SQL数据重用机制被引量：2

A Benefit Model Based Data Reuse Mechanism for Spark SQL

下载PDF

导出

摘要通过数据分析发现海量数据中的潜在价值,能够带来巨大的收益.Spark具有良好的系统扩展性与处理性能,因而被广泛运用于大数据分析.Spark SQL是Spark最常用的编程接口.在数据分析应用中存在着大量的重复计算,这些重复计算不仅浪费系统资源,而且导致查询运行效率低.但是Spark SQL无法感知查询语句之间的重复计算.为此,提出了基于收益模型的、细粒度的自动数据重用机制Criss以减少重复计算.针对混合介质,提出了感知异构I O性能的收益模型用于自动识别重用收益最大的算子计算结果,并采用Partition粒度的数据重用和缓存管理,以提高查询效率和缓存空间的利用率,充分发挥数据重用的优势.基于Spark SQL和TachyonFS,实现了Criss系统.实验结果表明:Criss的查询性能比原始Spark SQL提升了46%~68%. Analyzing massive data to discover the potential values in them can bring great benefits.Spark is a widely used data analytics engine for large-scale data processing due to its good scalability and high performance.Spark SQL is the most commonly used programming interface for Spark.There are a lot of redundant computations in data analytic applications.Such redundancies not only waste system resources but also prolong the execution time of queries.However,current implementation of Spark SQL is not aware of redundant computations among data analytic queries,and hence cannot remove them.To address this issue,we present a benefit model based,fine-grained,automatic data reuse mechanism called Criss in this paper.Criss automatically identifies redundant computations among queries.Then it uses an I O performance aware benefit model to automatically choose the operator results with the biggest benefit and cache these results using a hybrid storage consisting of both memory and HDD.Moreover,cache management and data reuse in Criss are partition-based instead of the whole result of an operator.Such fine-grained mechanism greatly improves query performance and storage utilization.We implement Criss in Spark SQL using modified TachyonFS for data caching.Our experiment results show that Criss outperforms Spark SQL by 40%to 68%.

作者申毅杰曾丹熊劲 Shen Yijie;Zeng Dan;Xiong Jin(State Key Laboratory of Computer Architecture(Institute of Computing Technology,Chinese Academy of Sciences),Beijing 100190;University of Chinese Academy of Sciences,Beijing 100049)

机构地区计算机体系结构国家重点实验室(中国科学院计算技术研究所) 中国科学院大学

出处《计算机研究与发展》 EI CSCD 北大核心 2020年第2期318-332,共15页 Journal of Computer Research and Development

基金国家重点研发计划项目(2016YFB1000202) 国家自然科学基金项目(61379042)~~

关键词数据分析大数据 Spark SQL 重复计算数据重用收益模型 data analytics big data Spark SQL redundant computation data reuse benefit model

分类号 TP316.81.2 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

同被引文献23

1刘张,李坚,王超,蔡世民,唐明,黄琦,陈照辉.基于复杂城市道路网络的交通拥堵预测模型[J].电子科技大学学报,2016,45(1):17-25. 被引量：12
2韦清波,何兆成,郑喜双,陈昶佳,杨敬锋.考虑多因素的城市道路交通拥堵指数预测研究[J].交通运输系统工程与信息,2017,17(1):74-81. 被引量：31
3程山英.交通拥堵汽车流量准确预测仿真研究[J].计算机仿真,2017,34(10):123-126. 被引量：4
4顾荣,王善永,郭晨,袁春风,黄宜华.基于Spark的大规模语义规则后向链推理系统[J].中文信息学报,2018,32(3):120-134. 被引量：6
5陈忠辉,凌献尧,冯心欣,郑海峰,徐艺文.基于模糊C均值聚类和随机森林的短时交通状态预测方法[J].电子与信息学报,2018,40(8):1879-1886. 被引量：29
6曹洁,张丽君,侯亮,陈作汉,张红.基于信息熵加权的FCM交通状态识别研究[J].计算机应用与软件,2018,35(10):68-73. 被引量：8
7杨桢,从传锋.基于大数据的网络教育方向选取方法研究[J].现代电子技术,2018,41(15):87-91. 被引量：2
8崔光范,许利杰,刘杰,叶丹,钟华.基于Spark SQL的分布式全文检索框架的设计与实现[J].计算机科学,2018,45(9):104-112. 被引量：5
9王聪,徐琪,程耀东,陈刚.高能物理事例级数据管理与传输系统的研究[J].计算机工程与应用,2018,54(23):230-237. 被引量：3
10马菁,李力.RDD上扩展索引层优化的分布式K-means算法[J].计算机工程与应用,2019,55(1):161-167. 被引量：11

引证文献2

1白小曼,冯永祥,李雷孝,张利平,马志强,王永生,王慧.针对城市道路拥堵的优化随机森林预测模型[J].科学技术与工程,2021,21(26):11205-11211. 被引量：10
2秦慧娟.基于SQL的教育资源数据库索引自动推荐模型[J].自动化技术与应用,2022,41(10):117-120.

二级引证文献10

1庄燕.轴承故障的全视角特征提取与模式诊断方法[J].机电工程,2022,39(3):344-349. 被引量：1
2王森,蔡小莉,鲍云飞,詹邦成.基于NPP/VIIRS夜间灯光图像的GDP智能预测模型研究[J].科学技术与工程,2022,22(8):3191-3201. 被引量：6
3吴苹,钟仪华,雍雪,张茜.数据挖掘方法在汽油辛烷值损失计算中的应用[J].科学技术与工程,2022,22(10):4046-4054.
4周丽,路雪鹏,尚娇,李亚坤.随机存储下多人拣选系统拥堵率研究[J].科学技术与工程,2023,23(14):5875-5886.
5秦绯.面向拥堵筛查决策应用的物联网云平台模型[J].山西交通科技,2023(3):132-134.
6龚晓岚,于孝美.实时交通大数据分析和可视化地理信息平台研究[J].贵州警察学院学报,2023,35(4):77-83.
7田佳,王德勇,师文喜.基于集合经验模态分解和随机森林的短时交通流预测[J].科学技术与工程,2023,23(29):12612-12619.
8汪孝之,牟凤云,张用川,王俊秀.利用出租车GPS轨迹数据进行短时交通流量预测:以重庆市解放碑街区为例[J].科学技术与工程,2023,23(28):12265-12274. 被引量：1
9何觅,杨发宇,苟源芳,蒋羽鹏.基于随机森林算法的电压暂降特征量预测研究[J].电工技术,2023(20):82-85.
10郭明娟,徐哈宁,肖慧,范凌峰,胡佳超,游丝露.基于双采样随机森林的临滑阶段的预测算法:以湖北黄石5号铁矿石治理地块为例[J].科学技术与工程,2024,24(14):5733-5741.

1魏亚亚,赵雅妮,乐峥辉,白昕玮.高校学科竞赛综合管理平台系统设计[J].信息周刊,2019,0(45):0172-0172.
2舒嘉明,安虹,武铮,陈俊仕.一种面向神威·太湖之光的通用并行卷积算法[J].计算机工程,2019,45(12):153-159. 被引量：1
3贺洁颖,唐伟,周勇,沈文海.人工智能在气象科学中应用的机遇和挑战[J].中国信息化,2019,0(12):79-81. 被引量：9
4陈文娅.工程项目管理系统电仪专业方案设计研究[J].中国设备工程,2019,0(22):163-164. 被引量：1
5彭进香.大数据背景下高校学生心理健康数据分析及反馈体系构建研究[J].数字技术与应用,2019,37(11):216-217. 被引量：4
6左鹏玉,王士同.无逆矩阵在线序列极限学习机[J].计算机科学与探索,2020,14(1):117-124. 被引量：4
7王瀚,李杰,雷文彬,张波.智能弹药飞参数据高速回读系统关键技术研究[J].电子技术应用,2019,45(11):55-58. 被引量：5
8张韬,王洪兴,李幼子,赵清芳,马绍壮.全科医生心理契约破坏、组织支持感与离职倾向关系的时滞研究——以上海市浦东新区为例[J].中国初级卫生保健,2019,33(12):89-92. 被引量：8
9陈志峰.能源消费税与用能权交易制度的协调使用[J].资源科学,2019,41(12):2205-2215. 被引量：9
10冯磊,李申章,杨天纯,关亮.基于云电智云开发图形化的主配网规划管理工具应用[J].电力系统装备,2019,0(23):137-138.

计算机研究与发展

2020年第2期

浏览历史

内容加载中请稍等...

基于收益模型的Spark SQL数据重用机制被引量：2

同被引文献23

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于收益模型的Spark SQL数据重用机制 被引量：2

同被引文献23

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于收益模型的Spark SQL数据重用机制被引量：2