-
题名面向深度学习的批处理矩阵乘法设计与实现
被引量:5
- 1
-
-
作者
黄春
姜浩
全哲
左克
何楠
刘文超
-
机构
国防科技大学计算机学院
湖南大学信息科学与工程学院
-
出处
《计算机学报》
EI
CAS
CSCD
北大核心
2022年第2期225-239,共15页
-
基金
国家重点研究发展项目(2020YFA0709803)
国防科技173计划项目(2020-JCJQ-ZD-029)
+2 种基金
科学挑战专题资助项目(TZ2016002)
湖南省自然科学基金项目(2018JJ3616)
国家自然科学基金项目(61907034)资助。
-
文摘
本文设计并实现了面向深度学习的统一框架批处理矩阵乘法.我们细致地分析了利用矩阵乘法实现卷积的过程中卷积核、输入特征图和输出特征图在NCHW和NHWC两类存储格式下的矩阵数据排列特点,指出了其和矩阵行列主序的关系.在此基础上,为了更好复用共享的卷积核数据,我们提出将批量输入特征图转化为一个矩阵整体进行计算的方法.我们设计了统一框架的批处理分块矩阵乘法,该框架计算同一矩阵和多个不同矩阵的乘法,可以处理并输出任意存储格式的矩阵数据.我们优化了分块矩阵乘法实现,根据输入参数特征规划计算顺序,利用矩阵转置技巧复用核心计算模块,没有增加额外的数据组织操作.数值试验表明:本文设计实现的批处理单精度矩阵乘法的计算速度比循环调用原始单精度矩阵乘法的计算速度在处理中小尺度矩阵时在四款不同处理器平台上性能最高分别提高4.80%、26.57%、29.27%和25.55%,平均分别提升2.37%、14.37%、9.89%和15.72%.
-
关键词
批处理矩阵乘法
卷积
分块算法
深度学习
数据排列
-
Keywords
batch gemm
convolution
block algorithm
deep learning
data layout
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-