矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强...矩阵转置是矩阵运算的基本操作,广泛应用于信号处理、科学计算以及深度学习等各种领域。随着国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor, DSP)在各种领域中的推广应用,对高性能矩阵转置实现提出了强烈需求。针对飞腾异构多核DSP的体系结构特征与矩阵转置操作的特点,提出了一种适配不同数据位宽(8 B、4 B以及2 B)矩阵的并行矩阵转置算法ftmMT。该算法基于DSP中向量处理单元的Load/Store部件实现了向量化,同时基于矩阵分块实现了多个DSP核的并行处理,通过隐式乒乓设计实现了片上向量化转置与片外访存的重叠以及访存性能的大幅提升。实验结果表明,ftmMT能够显著加快矩阵转置操作,与CPU上的开源转置库HPTT相比,可获得高达8.99倍的性能加速。展开更多
设计了基于GPS(Global Position System)车辆安全监测系统,监测系统分别采用压力温度传感器、倾角传感器对轮胎压力温度、车辆与水平面的夹角进行测量,并通过GPS定位系统对车辆的速度、位置、事故发生地点进行监测;传感器采集的信号,经...设计了基于GPS(Global Position System)车辆安全监测系统,监测系统分别采用压力温度传感器、倾角传感器对轮胎压力温度、车辆与水平面的夹角进行测量,并通过GPS定位系统对车辆的速度、位置、事故发生地点进行监测;传感器采集的信号,经过相关函数和模糊综合函数处理,通过无线通信模块传输到车载终端,车载终端的控制单元可以通过GPRS网络与远程中央控制中心进行实时通讯;实验证明,倾角监测误差最高为0.48%,GPS定位模块能实时监测车辆的经度、纬度、速度。展开更多
矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择。针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor,DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提...矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择。针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor,DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提出了一种面向多核DSP架构的高性能并行矩阵乘卷积实现算法ftmEConv。该算法由输入特征图转换、卷积核转换、矩阵乘以及输出特征图转换这四个均运行在通用多核DSP上的并行化部分构成,通过有效挖掘通用DSP核中功能单元的潜力来提升各个部分的性能。实验结果表明,ftmEConv实现了高达42.90%的计算效率,与芯片上的其他矩阵乘卷积算法实现相比,获得了高达7.79倍的性能加速。展开更多
文摘设计了基于GPS(Global Position System)车辆安全监测系统,监测系统分别采用压力温度传感器、倾角传感器对轮胎压力温度、车辆与水平面的夹角进行测量,并通过GPS定位系统对车辆的速度、位置、事故发生地点进行监测;传感器采集的信号,经过相关函数和模糊综合函数处理,通过无线通信模块传输到车载终端,车载终端的控制单元可以通过GPRS网络与远程中央控制中心进行实时通讯;实验证明,倾角监测误差最高为0.48%,GPS定位模块能实时监测车辆的经度、纬度、速度。
文摘矩阵乘卷积算法能够为各种卷积配置提供高性能基础实现,是面向给定芯片进行卷积性能优化的首要选择。针对国防科技大学自主研制的飞腾异构多核数字信号处理器(digital signal processor,DSP)芯片的特征以及矩阵乘卷积算法自身的特点,提出了一种面向多核DSP架构的高性能并行矩阵乘卷积实现算法ftmEConv。该算法由输入特征图转换、卷积核转换、矩阵乘以及输出特征图转换这四个均运行在通用多核DSP上的并行化部分构成,通过有效挖掘通用DSP核中功能单元的潜力来提升各个部分的性能。实验结果表明,ftmEConv实现了高达42.90%的计算效率,与芯片上的其他矩阵乘卷积算法实现相比,获得了高达7.79倍的性能加速。