期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
大数据处理系统中面向GPU加速DNN推理的模型共享
被引量:
5
1
作者
丁光耀
陈启航
+2 位作者
徐辰
钱卫宁
周傲英
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2022年第9期1435-1441,共7页
近年来,学术和工业界广泛利用大数据处理系统来处理视频分析等领域基于深度神经网络(deep neural networks, DNN)的推理负载。在这种场景下,因大数据系统中多个并行推理任务重复加载相同且只读的DNN模型,导致系统无法充分利用GPU资源,...
近年来,学术和工业界广泛利用大数据处理系统来处理视频分析等领域基于深度神经网络(deep neural networks, DNN)的推理负载。在这种场景下,因大数据系统中多个并行推理任务重复加载相同且只读的DNN模型,导致系统无法充分利用GPU资源,成为了推理性能提升的瓶颈。针对该问题,该文提出了一个面向单GPU卡的模型共享技术,在DNN推理任务之间共享同一份模型数据。在此基础上,为了使模型共享技术作用于分布式环境下的每一块GPU,该文还设计了支持多GPU卡模型共享的分配器。将上述优化技术集成到在GPU平台上运行的Spark中,实现了一个支持大规模推理负载的分布式原型系统。实验结果表明,针对基于YOLO-v3的交通视频处理负载,相对于未采用模型共享技术的系统,模型共享技术能够提升系统吞吐量达136%。
展开更多
关键词
大数据处理系统
dnn推理
GPU
显存
模型共享
原文传递
题名
大数据处理系统中面向GPU加速DNN推理的模型共享
被引量:
5
1
作者
丁光耀
陈启航
徐辰
钱卫宁
周傲英
机构
华东师范大学数据科学与工程学院
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2022年第9期1435-1441,共7页
基金
国家自然科学基金资助项目(61902128)。
文摘
近年来,学术和工业界广泛利用大数据处理系统来处理视频分析等领域基于深度神经网络(deep neural networks, DNN)的推理负载。在这种场景下,因大数据系统中多个并行推理任务重复加载相同且只读的DNN模型,导致系统无法充分利用GPU资源,成为了推理性能提升的瓶颈。针对该问题,该文提出了一个面向单GPU卡的模型共享技术,在DNN推理任务之间共享同一份模型数据。在此基础上,为了使模型共享技术作用于分布式环境下的每一块GPU,该文还设计了支持多GPU卡模型共享的分配器。将上述优化技术集成到在GPU平台上运行的Spark中,实现了一个支持大规模推理负载的分布式原型系统。实验结果表明,针对基于YOLO-v3的交通视频处理负载,相对于未采用模型共享技术的系统,模型共享技术能够提升系统吞吐量达136%。
关键词
大数据处理系统
dnn推理
GPU
显存
模型共享
Keywords
big data processing system
dnn
inference
GPU
GPU memory
model sharing
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
原文传递
题名
作者
出处
发文年
被引量
操作
1
大数据处理系统中面向GPU加速DNN推理的模型共享
丁光耀
陈启航
徐辰
钱卫宁
周傲英
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2022
5
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部