基于张量虚拟机的快速卷积自动性能优化被引量：1

Fast Convolution Automatic Performance Optimization Based on Tensor Virtual Machine

下载PDF

导出

摘要卷积神经网络作为深度学习的典型代表,是计算机视觉等任务中最常用的神经网络,然而,卷积运算通常占整个卷积神经网络运行时的90%以上,成为卷积神经网络的性能瓶颈。此外,由于当下硬件的复杂性及工作负载的多样性,之前工作中的一些特定优化往往缺乏性能可移植性。对此,作者提出BlazerML,一个基于张量虚拟机(TVM)模板代码自动生成的开源卷积计算库,可为任何输入形状自动生成高性能的卷积实现。BlazerML是基于Winograd算法实现的,因为该算法是快速卷积算法中性能最高的算法。实验结果表明:BlazerML显著优于当下最先进的开源库。在x86 CPU上运行常见的深度学习网络前向推理分别比OnnxRuntime、MNN和TVM社区版本快1.18~2.47倍、1.18~2.27倍和1.01~1.66倍。在ARMCPU上运行常见深度学习网络的单层推理分别比ACL和FastConv快1.26~6.11倍、1.04~4.28倍。 Convolutional Neural Networks(CNNs)as a quintessential representation of deep learning,are the most commonly used neural networks in tasks such as computer vision.However,convolution operations typically account for over 90%of the runtime in CNNs,becoming a bottleneck for performance.Additionally,due to the complexity of current hardware and the diversity of workloads,specific optimizations in previous work often lack performance portability.To address this problem,the author introduces BlazerML,an open-source convolution computation library based on auto-generated code templates from TVM,capable of automatically generating high-performance convolution implementations for any input shape.BlazerML is implemented based on the Winograd algorithm,known for its high performance in fast convolution algorithms.Experimental results demonstrate that BlazerML significantly outperforms current state-of-the-art open-source libraries.On x86 CPUs,running common deep learning network forward inferences,it is faster by 1.18—2.47 times,1.18—2.27 times,and 1.01—1.66 times compared to OnnxRuntime,MNN,and the TVM community version,respectively.On ARM CPUs,for single-layer inference of common deep learning networks,it surpasses ACL and FastConv by 1.26—6.11 times and 1.04—4.28 times,respectively.

作者陈疆朱泓霖孟金涛魏彦杰 CHEN Jiang;ZHU Honglin;MENG Jintao;WEI Yanjie(Southern University of Science and Technology,Shenzhen 518055,China;Shenzhen Institute of Advanced Technology,Chinese Academy of Sciences,Shenzhen 518055,China;Shenzhen Tencent Computer System Co.Ltd.,Shenzhen 518063,China)

机构地区南方科技大学中国科学院深圳先进技术研究院深圳市腾讯计算机系统有限公司

出处《集成技术》 2024年第5期3-18,共16页 Journal of Integration Technology

基金广东省重点领域研发计划资助项目(2021B0101310002) 国家自然科学基金项目(62272449) 深圳市基础研究项目(RCYX20200714114734194,KQTD20200820113106007,ZDSYS20220422103800001) 中国科学院青年创新促进会项目(Y2021101)。

关键词深度学习卷积神经网络快速卷积算法 Winograd算法 TVM 自动性能优化 deep learning convolutional neural networks fast convolution algorithms Winograd algorithm TVM automatic performance optimization

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献7

1乐鑫,吴桦,杨骏,程光,胡晓艳.基于复合特征的高速网络视频流量识别方法[J].集成技术,2024,13(5):19-29. 被引量：1
2冯天任,陈世峰.基于深度度量学习的强泛化开关仪表识别算法[J].集成技术,2024,13(5):30-39. 被引量：1
3张莉,谭静文,苘大鹏,韩帅,马书磊.单向加密流量的移动应用程序分类技术研究[J].集成技术,2024,13(5):40-52. 被引量：1
4张竞文,崔诗尧,张兴华,苏涛宇,柳厅文.动态查询窗口引导的回复关系发现方法[J].集成技术,2024,13(5):53-63. 被引量：1
5夏冰,杨瑞楠,董玉,楚世豪,唐崇俊,葛云翔,尹家斌.一种多模态隐喻数据集的构建和验证方法[J].集成技术,2024,13(5):64-73. 被引量：1
6仝鑫,杨莹,索奇伟,王志宏.基于机器学习的加密流量分析方法综述[J].集成技术,2024,13(5):74-92. 被引量：1
7郭海凤,杜心童,张羽兮.区块链智能合约应用与安全问题研究[J].集成技术,2024,13(5):93-102. 被引量：1

引证文献1

1熊刚,苟高鹏.序言:网络公害治理技术与应用[J].集成技术,2024,13(5):1-2.

1杨志渊,罗亮,吴天阳,于博向.改进YOLOv8的轻量级光学遥感图像船舶目标检测算法[J].计算机工程与应用,2024,60(16):248-257.
2余运俊,张鹏飞,龚汉城,陈敏.面向边缘计算的轻量级网络硬件加速设计[J].计算机科学,2023,50(S02):820-826.
3童敢,黄立波,吕雅帅.面向现代GPU的Winograd卷积加速研究[J].电子学报,2024,52(1):244-257.
4崔海荣,梁晨.基于区域相关哈希编码的面板螺钉装配质量机器视觉检测系统[J].自动化与仪器仪表,2024(6):89-93.
5李淇,石艳,范桃.改进YOLOv8n的O型密封圈表面缺陷检测算法研究[J].计算机工程与应用,2024,60(18):126-135.
6陈俊英,席月芸,李朝阳.多尺度局部特征和Transformer全局学习融合的发动机剩余寿命预测[J].自动化学报,2024,50(9):1818-1830.
7王艳.基于LNMP的WordPress搭建与性能优化研究[J].移动信息,2024,46(8):264-266.
8徐振宇,李征,张飞絮,王竹,唐先勇,帅仁策.基于指令集映射的汇编语言教学探索[J].实验室科学,2024,27(4):1-6.
9李泽锴,钟佳卿,冯绍骏,陈娟,邓荣宇,徐涛,谭政源,周柯杏,朱鹏志,马兆阳.基于训练集聚类选择优化的CPU功耗建模精度提升方法[J].计算机科学,2024,51(9):59-70.
10赵雯欣,陈艳,李阳兵,王清荣,邵景安.三峡库区乡村坡耕地长时间序列动态演变与转型[J].生态学报,2024,44(16):6907-6922.

集成技术

2024年第5期

浏览历史

内容加载中请稍等...

基于张量虚拟机的快速卷积自动性能优化被引量：1

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于张量虚拟机的快速卷积自动性能优化 被引量：1

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于张量虚拟机的快速卷积自动性能优化被引量：1