-
题名一种支持优化分块策略的矩阵乘加速器设计
被引量:4
- 1
-
-
作者
沈俊忠
肖涛
乔寓然
杨乾明
文梅
-
机构
国防科学技术大学计算机学院
-
出处
《计算机工程与科学》
CSCD
北大核心
2016年第9期1748-1754,共7页
-
基金
国家863计划(2012AA012706)
国家自然科学基金(61272145)
-
文摘
在许多应用领域中,大规模浮点矩阵乘法往往是最耗时的计算核心之一。在新兴的应用中经常存在至少有一个维度很小的大规模矩阵,我们把具备这种特性的矩阵称为非均匀矩阵。由于FPGA上用以存储中间结果的片上存储器容量十分有限,计算大规模矩阵乘法时往往需要将矩阵划分成细粒度的子块计算任务。当加速非均匀矩阵乘法时,由于只支持固定分块大小,大多数现有的线性阵列结构的硬件矩阵乘法器将遭受很大的性能下降。为了解决这个问题,提出了一种有效的优化分块策略。在此基础上,在Xilinx公司的Zynq XC7Z045FPGA芯片上实现了一个支持可变分块的矩阵乘法器。通过集成224个处理单元,该矩阵乘法器在150 MHz的时钟频率下对于实际应用中的非均匀矩乘达到了48GFLOPS的实测性能,而所需带宽仅为4.8GB/s。实验结果表明,我们提出的分块策略相比于传统的分块算法实现了高达12%的性能提升。
-
关键词
FPGA
非均匀矩阵
矩阵乘法
分块策略
-
Keywords
FPGA
non-uniform matrix
matrix multiplication
blocking strategy
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-