利用离散余弦变换(DCT)能量分布的特性,提出一种精度可配置的DCT及其VLSI结构.根据不同的变换精度需求,通过选择DCT基向量局部最优的分布式算法展开精度,实现了变换精度损失与功耗减少的优化处理;同时对DCT基向量采用正则有符号数(canon...利用离散余弦变换(DCT)能量分布的特性,提出一种精度可配置的DCT及其VLSI结构.根据不同的变换精度需求,通过选择DCT基向量局部最优的分布式算法展开精度,实现了变换精度损失与功耗减少的优化处理;同时对DCT基向量采用正则有符号数(canonical signed digit,CSD)编码,减少了整体电路的硬件资源开销.模拟和综合后的结果表明,该结构适合图像视频等要求低功耗、实时处理领域的可配置性应用.展开更多
针对特定应用场景下,Tiny-YOLOv3(You Only Look Once v3)网络在嵌入式平台部署时存在资源开销大、运行速度慢的问题,文中提出了一种结合剪枝与量化的结构化压缩方案,并搭建了针对压缩后网络的卷积层加速系统。结构化压缩方案使用稀疏...针对特定应用场景下,Tiny-YOLOv3(You Only Look Once v3)网络在嵌入式平台部署时存在资源开销大、运行速度慢的问题,文中提出了一种结合剪枝与量化的结构化压缩方案,并搭建了针对压缩后网络的卷积层加速系统。结构化压缩方案使用稀疏化训练与通道剪枝来减少网络中的计算量,使用激活值定点数量化和权重二的整数次幂量化来减少网络卷积层中的参数存储量。在卷积层加速系统中,可编程逻辑部分按照并行加流水线方法设计了一个卷积层加速器核,处理系统部分负责卷积层加速系统调度。实验结果表明,Tiny-YOLOv3经过结构化压缩后的网络平均准确度为0.46,参数压缩率达到了5%。卷积层加速系统在Xilinx的ZYNQ芯片进行部署时,硬件可以稳定运行在250 MHz时钟频率下,卷积运算单元的算力为36 GOPS。此外,加速平台整体功耗为2.6 W,且硬件设计节约了硬件资源。展开更多
文摘利用离散余弦变换(DCT)能量分布的特性,提出一种精度可配置的DCT及其VLSI结构.根据不同的变换精度需求,通过选择DCT基向量局部最优的分布式算法展开精度,实现了变换精度损失与功耗减少的优化处理;同时对DCT基向量采用正则有符号数(canonical signed digit,CSD)编码,减少了整体电路的硬件资源开销.模拟和综合后的结果表明,该结构适合图像视频等要求低功耗、实时处理领域的可配置性应用.
文摘针对特定应用场景下,Tiny-YOLOv3(You Only Look Once v3)网络在嵌入式平台部署时存在资源开销大、运行速度慢的问题,文中提出了一种结合剪枝与量化的结构化压缩方案,并搭建了针对压缩后网络的卷积层加速系统。结构化压缩方案使用稀疏化训练与通道剪枝来减少网络中的计算量,使用激活值定点数量化和权重二的整数次幂量化来减少网络卷积层中的参数存储量。在卷积层加速系统中,可编程逻辑部分按照并行加流水线方法设计了一个卷积层加速器核,处理系统部分负责卷积层加速系统调度。实验结果表明,Tiny-YOLOv3经过结构化压缩后的网络平均准确度为0.46,参数压缩率达到了5%。卷积层加速系统在Xilinx的ZYNQ芯片进行部署时,硬件可以稳定运行在250 MHz时钟频率下,卷积运算单元的算力为36 GOPS。此外,加速平台整体功耗为2.6 W,且硬件设计节约了硬件资源。