期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于收益模型的Spark SQL数据重用机制
被引量:
3
1
作者
申毅杰
曾丹
熊劲
《计算机研究与发展》
EI
CSCD
北大核心
2020年第2期318-332,共15页
通过数据分析发现海量数据中的潜在价值,能够带来巨大的收益.Spark具有良好的系统扩展性与处理性能,因而被广泛运用于大数据分析.Spark SQL是Spark最常用的编程接口.在数据分析应用中存在着大量的重复计算,这些重复计算不仅浪费系统资源...
通过数据分析发现海量数据中的潜在价值,能够带来巨大的收益.Spark具有良好的系统扩展性与处理性能,因而被广泛运用于大数据分析.Spark SQL是Spark最常用的编程接口.在数据分析应用中存在着大量的重复计算,这些重复计算不仅浪费系统资源,而且导致查询运行效率低.但是Spark SQL无法感知查询语句之间的重复计算.为此,提出了基于收益模型的、细粒度的自动数据重用机制Criss以减少重复计算.针对混合介质,提出了感知异构I O性能的收益模型用于自动识别重用收益最大的算子计算结果,并采用Partition粒度的数据重用和缓存管理,以提高查询效率和缓存空间的利用率,充分发挥数据重用的优势.基于Spark SQL和TachyonFS,实现了Criss系统.实验结果表明:Criss的查询性能比原始Spark SQL提升了46%~68%.
展开更多
关键词
数据分析
大数据
Spark
SQL
重复计算
数据重用
收益模型
下载PDF
职称材料
NV-Shuffle:基于非易失内存的Shuffle机制
被引量:
1
2
作者
潘锋烽
熊劲
《计算机研究与发展》
EI
CSCD
北大核心
2018年第2期229-245,共17页
Shuffle是大数据处理过程中一个极为重要的阶段.不同类型的Task(或者Stage)之间通过Shuffle进行数据交换.在Shuffle过程中数据需要进行持久化,以达到避免重计算和容错的目的.因此Shuffle的性能是决定大数据处理性能的关键因素之一.由于...
Shuffle是大数据处理过程中一个极为重要的阶段.不同类型的Task(或者Stage)之间通过Shuffle进行数据交换.在Shuffle过程中数据需要进行持久化,以达到避免重计算和容错的目的.因此Shuffle的性能是决定大数据处理性能的关键因素之一.由于传统Shuffle阶段的数据通过磁盘文件系统进行持久化,所以影响Shuffle性能的一个重要因素是I/O开销,尤其是对基于内存计算的大数据处理平台,例如Spark,Shuffle阶段的磁盘I/O可能拖延数据处理的时间.而非易失内存(NVM)具有读写速度快、非易失性以及高密度性等诸多优点,它们为改变大数据处理过程中对磁盘I/O的依赖、克服目前基于内存计算的大数据处理中的I/O性能瓶颈提供了新机会.提出一种基于NVM的Shuffle优化策略——NV-Shuffle.NV-Shuffle摒弃了传统Shuffle阶段采用文件系统的存储方式,而使用类似于Memory访问的方式进行Shuffle数据的存储与管理,避免了文件系统的开销,并充分发挥NVM的优势,从而减少Shuffle阶段的耗时.在Spark平台上实现了NV-Shuffle,实验结果显示,对于Shuffleheavy类型的负载,NV-Shuffle可节省大约10%~40%的执行时间.
展开更多
关键词
大数据处理
SHUFFLE
非易失内存
非易失缓冲区
容错
下载PDF
职称材料
题名
基于收益模型的Spark SQL数据重用机制
被引量:
3
1
作者
申毅杰
曾丹
熊劲
机构
计算机体系结构国家重点实验室(中国科学院计算技术研究所)
中国科学院大学
出处
《计算机研究与发展》
EI
CSCD
北大核心
2020年第2期318-332,共15页
基金
国家重点研发计划项目(2016YFB1000202)
国家自然科学基金项目(61379042)~~
文摘
通过数据分析发现海量数据中的潜在价值,能够带来巨大的收益.Spark具有良好的系统扩展性与处理性能,因而被广泛运用于大数据分析.Spark SQL是Spark最常用的编程接口.在数据分析应用中存在着大量的重复计算,这些重复计算不仅浪费系统资源,而且导致查询运行效率低.但是Spark SQL无法感知查询语句之间的重复计算.为此,提出了基于收益模型的、细粒度的自动数据重用机制Criss以减少重复计算.针对混合介质,提出了感知异构I O性能的收益模型用于自动识别重用收益最大的算子计算结果,并采用Partition粒度的数据重用和缓存管理,以提高查询效率和缓存空间的利用率,充分发挥数据重用的优势.基于Spark SQL和TachyonFS,实现了Criss系统.实验结果表明:Criss的查询性能比原始Spark SQL提升了46%~68%.
关键词
数据分析
大数据
Spark
SQL
重复计算
数据重用
收益模型
Keywords
data analytics
big data
Spark SQL
redundant computation
data reuse
benefit model
分类号
TP316.81.2 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
NV-Shuffle:基于非易失内存的Shuffle机制
被引量:
1
2
作者
潘锋烽
熊劲
机构
计算机体系结构国家重点实验室(中国科学院计算技术研究所)
中国科学院大学
出处
《计算机研究与发展》
EI
CSCD
北大核心
2018年第2期229-245,共17页
基金
国家重点研发计划项目(2016YFB1000202)
国家自然科学基金项目(61379042)
文摘
Shuffle是大数据处理过程中一个极为重要的阶段.不同类型的Task(或者Stage)之间通过Shuffle进行数据交换.在Shuffle过程中数据需要进行持久化,以达到避免重计算和容错的目的.因此Shuffle的性能是决定大数据处理性能的关键因素之一.由于传统Shuffle阶段的数据通过磁盘文件系统进行持久化,所以影响Shuffle性能的一个重要因素是I/O开销,尤其是对基于内存计算的大数据处理平台,例如Spark,Shuffle阶段的磁盘I/O可能拖延数据处理的时间.而非易失内存(NVM)具有读写速度快、非易失性以及高密度性等诸多优点,它们为改变大数据处理过程中对磁盘I/O的依赖、克服目前基于内存计算的大数据处理中的I/O性能瓶颈提供了新机会.提出一种基于NVM的Shuffle优化策略——NV-Shuffle.NV-Shuffle摒弃了传统Shuffle阶段采用文件系统的存储方式,而使用类似于Memory访问的方式进行Shuffle数据的存储与管理,避免了文件系统的开销,并充分发挥NVM的优势,从而减少Shuffle阶段的耗时.在Spark平台上实现了NV-Shuffle,实验结果显示,对于Shuffleheavy类型的负载,NV-Shuffle可节省大约10%~40%的执行时间.
关键词
大数据处理
SHUFFLE
非易失内存
非易失缓冲区
容错
Keywords
big data processing
Shuffle
NVM(non-volatile memory)
non-volatile buffer
fault tolerance
分类号
TP316.81.2 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于收益模型的Spark SQL数据重用机制
申毅杰
曾丹
熊劲
《计算机研究与发展》
EI
CSCD
北大核心
2020
3
下载PDF
职称材料
2
NV-Shuffle:基于非易失内存的Shuffle机制
潘锋烽
熊劲
《计算机研究与发展》
EI
CSCD
北大核心
2018
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部