摘要
人脸检测作为机器人研究领域中一项重要的研究课题,机器人的实际应用环境对其检测的实时性提出了更为严苛的要求。针对卷积神经网络计算量大而嵌入式设备资源有限的矛盾,为了提高卷积神经网络的运算速度,建立卷积神经网络模型,开展测试和对比试验,确定人脸检测识别技术的识别效果。利用软硬件协同设计的思想,采用Xilinx深度学习处理单元(Deep Learning Processing Unit, DPU)实现了CNN硬件加速的人脸检测系统。在Zynq UltraScale+MPSoC ZCU102上搭建基于DPU加速器的硬件与软件平台。通过对CNN模型剪枝量化、采用并行结构和多级流水来降低资源占用与计算量,提高硬件加速效果。实验结果表明,单帧视频图像人脸检测平均检测时间为2.7ms, 本设计加速效果提升明显并具有良好的可扩展性。