摘要
针对卷积神经网络推理阶段的高性能需求与边缘设备的性能限制导致的推理实时性问题,利用软硬件协同设计的思想,采用DPU实现了CNN的推理加速,提高计算性能的同时降低了推理时间。首先搭建了基于DPU加速器的硬件与软件平台,其次为了降低CNN模型的存储体积和计算量,对模型的数据进行量化与预编译处理,最后使用DPU对ResNet50进行了加速测试。在单次推理测试中,DPU的运算性能为76.43GOPS,平均负载为73%,耗时100.88ms,与CPU相比推理速度提升了40.48倍。在多次推理过程中,两次推理之间间隔最长为746.343ms,最短为418.776ms,DPU的平均调度效率为21.88%。经过数据定点处理的模型Top1加Top2的精度为92.61%,与未处理的模型相比,精度丢失仅为1.9%。
出处
《电脑编程技巧与维护》
2021年第6期13-16,48,共5页
Computer Programming Skills & Maintenance