基于虚拟化的多GPU深度神经网络训练框架被引量：10

Training Framework of Multi-GPU Deep Neural Network Based on Virtualization

下载PDF

导出

摘要针对深度神经网络在分布式多机多GPU上的加速训练问题,提出一种基于虚拟化的远程多GPU调用的实现方法。利用远程GPU调用部署的分布式GPU集群改进传统一对一的虚拟化技术,同时改变深度神经网络在分布式多GPU训练过程中的参数交换的位置,达到两者兼容的目的。该方法利用分布式环境中的远程GPU资源实现深度神经网络的加速训练,且达到单机多GPU和多机多GPU在CUDA编程模式上的统一。以手写数字识别为例,利用通用网络环境中深度神经网络的多机多GPU数据并行的训练进行实验,结果验证了该方法的有效性和可行性。 Aiming at the problem of deep neural network speeding up training on distributed multi-machine and multi-GPU,this paper proposes an implementation method of remote multi-GPUs calls based on virtualization.The distributed GPU clusters deployed by remote GPU calls improve the traditional one-to-one virtualization technology and change the location of the deep neural network for parameter exchange during distributed multi-GPU training,achieve the compatibility between the two.The method utilizes the remote GPU resources in a distributed environment to speed up the training of deep neural networks,and reaches the unification of CUDA programming modes of single GPU and multi-GPU.Taking handwritten numeral recognition as an example,experiments are carried out on the parallel training of multi-GPU and multi-GPU data in the deep network of general network environment,results verify the effectiveness and feasibility of the method.

作者杨志刚吴俊敏徐恒尹燕

机构地区中国科学技术大学计算机科学与技术学院中国科学技术大学苏州研究院中国科学技术大学软件学院

出处《计算机工程》 CAS CSCD 北大核心 2018年第2期68-74,83,共8页 Computer Engineering

基金国家重点研发计划项目"面向异构融合数据流加速器的运行时系统"(2016YFB1000403)

关键词虚拟化深度神经网络分布式多机多GPU 数据并行手写数字识别 virtualization deep neural network distributed multi-machine and multi-GPU data parallel handwritten numeral recognition

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1张玉洁,吕相文,张云洲.GPU虚拟化环境下的数据通信策略研究[J].计算机技术与发展,2015,25(8):24-28. 被引量：4
2杨经纬,马凯,龙翔.面向集群环境的虚拟化GPU计算平台[J].北京航空航天大学学报,2016,42(11):2340-2348. 被引量：7
3盛冲冲,胡新明,李佳佳,吴百锋.面向节点异构GPU集群的编程框架[J].计算机工程,2015,41(2):292-297. 被引量：3
4王刚,唐杰,武港山.基于多GPU集群的编程框架[J].计算机技术与发展,2014,24(1):9-13. 被引量：3
5闵芳,张志先,张玉洁.虚拟化环境下多GPU并行计算研究[J].微电子学与计算机,2016,33(3):69-75. 被引量：5

二级参考文献43

1吴恩华,柳有权.基于图形处理器(GPU)的通用计算[J].计算机辅助设计与图形学学报,2004,16(5):601-612. 被引量：227
2陈勇,陈国良,李春生,何家华.SMP机群混合编程模型研究[J].小型微型计算机系统,2004,25(10):1763-1767. 被引量：19
3刘兆春,李光辉,王庆国,柴守海.并行文件系统PVFS[J].信息技术,2005,29(4):108-109. 被引量：2
4刘天华,朱宏峰,杜梅,常桂然.RDMA技术的研究与应用[J].沈阳师范大学学报（自然科学版）,2006,24(2):185-188. 被引量：5
5张舒,褚艳丽.GPU高性能运算之CUDA[M].北京:中国水利水电出版社,2010,124-137.
6Diamos G,Yalamanchili S.Harmony:An Execution Model and Runtime for Heterogeneous Many Core Systems[C]//Proceedings of the 17th International Symposium on High Performance Distributed Com-puting.[S.l.]:ACM Press,2008:197-200.
7Whiting P G,Pascoe R S V.A History of Data-flow Languages[J].IEEE Annals of the History of Computing,1994,16(4):38-59.
8Keller R M.Data Flow Program Graphs[J].Computer,1982,15(2):26-41.
9Dokulil J,Bajrovic E,Benkner S,et al.High-level Support for Hybrid Parallel Execution of C++Applications Targeting Intel Xeon Phi Coproc-essors[C]//Proceedings of International Conference on Computational Science.[S.l.]:Springer,2013.
10Wu Yongwen,Song Junqiang,Lu Fengshun,et al.Communication and Memory Access Latency Character-istics of CPU/GPU Heterogeneous Cluster[C]//Proc-eedings of International Conference on Computational and Information Sciences.Chongqing,China:[s.n.],2012:958-961.

共引文献14

1金野,高珏,王磊,许华虎.基于邻域光流路径插帧算法的改进[J].计算机技术与发展,2015,25(3):11-14.
2苏朋程.云计算研究虚拟化技术的研究[J].计算机技术与发展,2017,27(4):29-33. 被引量：13
3江慧芳,蔡达,王晓蕊.基于CPU-GPU异构环境的运算代价评估模型[J].计算机工程,2017,43(9):12-16. 被引量：1
4吴俊锋,许桂明,黄鑫.基于云架构的统一视音频服务平台[J].指挥信息系统与技术,2017,8(5):93-98. 被引量：5
5徐恒,吴俊敏,杨志刚,尹燕.基于虚拟化环境的多GPU并行通用计算平台研究[J].计算机应用与软件,2017,34(11):74-80. 被引量：3
6范海巍,李雪春,张迎冬.云计算助力科教模式创新[J].科研信息化技术与应用,2018,9(2):31-39. 被引量：1
7常存宝,张晶,耿楠,张志毅,胡少军.L系统的并行化关键技术[J].计算机工程与设计,2019,40(5):1349-1354. 被引量：2
8姜大闯,潘鸣,俞旭辉,王静,桂小刚,汪瑞,江兆凤,於景暽.基于GPU的振动光纤入侵探测数据预处理算法[J].太赫兹科学与电子信息学报,2019,17(5):898-903. 被引量：1
9缪静文,王召,俞俊,朱广新,杨云飞,程聪.桌面云环境下的高性能vGPU计算性能分析[J].计算机技术与发展,2019,29(11):184-189. 被引量：4
10王立文,王友祥,唐雄燕,杨文聪,张雪贝,李沸乐.5G核心网UPF硬件加速技术[J].移动通信,2020,44(1):19-23. 被引量：10

同被引文献92

1张保会.加强继电保护与紧急控制系统的研究提高互联电网安全防御能力[J].中国电机工程学报,2004,24(7):1-6. 被引量：227
2周东华,胡艳艳.动态系统的故障诊断技术[J].自动化学报,2009,35(6):748-758. 被引量：307
3张文亮,刘壮志,王明俊,杨旭升.智能电网的研究进展及发展趋势[J].电网技术,2009,33(13):1-11. 被引量：628
4王德文,宋亚奇,朱永利.基于云计算的智能电网信息平台[J].电力系统自动化,2010,34(22):7-12. 被引量：194
5李晗,萧德云.基于数据驱动的故障诊断方法综述[J].控制与决策,2011,26(1):1-9. 被引量：262
6杨鑫,许端清,赵磊.基于多核架构的大图像实时浏览技术[J].中国图象图形学报,2011,16(2):152-160. 被引量：3
7蒲亮,叶玉堂,宋昀岑,刘莉,陈东明,潘明.基于优化K-D树的大面积高密度PCB快速AOI[J].仪器仪表学报,2011,32(4):955-960. 被引量：6
8沐连顺,崔立忠,安宁.电力系统云计算中心的研究与实践[J].电网技术,2011,35(6):171-175. 被引量：82
9朱征,顾中坚,吴金龙,桂胜.云计算在电力系统数据灾备业务中的应用研究[J].电网技术,2012,36(9):43-50. 被引量：50
10李小夏,李孝安.一种改进的神经网络相关性剪枝算法[J].电子设计工程,2013,21(8):65-67. 被引量：3

引证文献10

1胡挺,祝永新,田犁,封松林,汪辉.面向移动平台的轻量级卷积神经网络架构[J].计算机工程,2019,45(1):17-22. 被引量：13
2刘文超,潘峰,杨晓元,周潭平,涂广升.基于cuFHE的同态比较运算器[J].计算机工程,2019,45(9):143-146.
3柏涛涛.基于深度神经网络与MPI并行计算的人脸识别算法研究[J].西安文理学院学报（自然科学版）,2020,23(2):62-67. 被引量：2
4姜洋洋.基于卷积神经网络与CUDA加速计算的手势识别算法应用研究[J].系统仿真技术,2020,16(1):22-26. 被引量：3
5柏涛涛.基于图像质量分析与多角点融合的车道线识别算法[J].重庆科技学院学报（自然科学版）,2020,22(3):72-75. 被引量：1
6吴鹃.基于深度学习与板卡控制的AOI识别算法应用研究[J].信息技术,2020,44(9):74-78.
7黄莉雅,倪凡,舒彧,杨耀.基于边缘计算的异常用电检测算法研究[J].电子技术与软件工程,2021(15):217-221. 被引量：1
8孟庆德,张春霞.基于虚拟化平台的档案实时更新系统设计[J].电子设计工程,2021,29(24):89-92. 被引量：4
9许琦.基于KVM架构的云桌面GPU虚拟化技术研究[J].自动化与仪器仪表,2023(3):138-142. 被引量：1
10李玉荣,梁桂才.基于GPU虚拟化的人工智能教学平台的实现[J].信息技术,2024,48(8):71-78.

二级引证文献25

1解修亮,徐晓光,丁理.一种轻量化手写数字的识别算法[J].钦州学院学报,2019,34(7):46-53. 被引量：1
2张旭,陈绪君,刘瑞康,张才裕.基于OpenVINO模型优化的智能道路裂缝检测系统[J].信息技术,2020,44(7):62-68. 被引量：9
3董小龙,赵斯衎.基于手势识别的人机交互技术的研究[J].电子制作,2020,28(19):73-74. 被引量：5
4杨磊,赵红东.基于轻量级深度神经网络的环境声音识别[J].计算机应用,2020,40(11):3172-3177. 被引量：5
5张怡,赵珠蒙,王校常,冯海强,林杰.基于ResNet卷积神经网络的绿茶种类识别模型构建[J].茶叶科学,2021,41(2):261-271. 被引量：17
6高见.TensorFlow框架下的人脸识别系统优化设计[J].电子元器件与信息技术,2021,5(1):142-143. 被引量：8
7徐光柱,朱泽群,尹思璐,刘高飞,雷帮军.基于轻量级深层卷积神经网络的花卉图像分类系统[J].数据采集与处理,2021,36(4):756-768. 被引量：5
8付丽君,张齐鹏,姜宇宏,杨青.SSA和DSC-ResNet的TE过程故障诊断方法[J].沈阳理工大学学报,2021,40(3):14-18. 被引量：3
9黄靖淞,左颢睿,张建林.轻量化目标检测算法研究及应用[J].计算机工程,2021,47(10):236-241. 被引量：6
10储萍,倪伟.基于FPGA的SqueezeNet推断加速器设计[J].电子科技,2022,35(2):20-26.

1邓长银,张杰.基于改进LeNet-5模型的手写数字识别[J].信息通信,2018,31(1):109-112. 被引量：19
2张宁静.关于钢琴演奏的心理训练问题[J].中国民族博览,2017,0(12):146-147.
3颜宪鑫.强化问题导向端正训风演风[J].政工导刊,2017,0(11):30-31.
4黄志强.多传感器通道多点数据并行高速采集器设计[J].计算机测量与控制,2017,25(12):307-310. 被引量：2
5叶珂.“我从Facebook上看到这篇报道” 浅析分布式环境中获取新闻对媒体品牌认知的影响[J].传媒评论,2017,0(11):57-61.
6施恩,李骞,顾大权,赵章明.基于局部特征的卷积神经网络模型[J].计算机工程,2018,44(2):282-286. 被引量：13
7赵卫东,刘永红,鄢涛,于曦.基于KNN算法的手写数字识别研究[J].成都大学学报（自然科学版）,2017,36(4):382-384. 被引量：2
8李传伦,黄擎.电力电缆表面温度的监测[J].东北电力学院学报,1995,15(1):73-80.
9王椭,肖庆宪.基于随机旋转集成的降维方法[J].上海理工大学学报,2017,39(5):450-458. 被引量：1
10许建国,张佳.物联网数据并行传输路径预测仿真[J].计算机仿真,2018,35(1):172-175. 被引量：5

计算机工程

2018年第2期

浏览历史

内容加载中请稍等...

基于虚拟化的多GPU深度神经网络训练框架被引量：10

参考文献5

二级参考文献43

共引文献14

同被引文献92

引证文献10

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于虚拟化的多GPU深度神经网络训练框架 被引量：10

参考文献5

二级参考文献43

共引文献14

同被引文献92

引证文献10

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于虚拟化的多GPU深度神经网络训练框架被引量：10