一种支持优化分块策略的矩阵乘加速器设计被引量：4

A matrix multiplication accelerator design for optimization blocking strategy

下载PDF

导出

摘要在许多应用领域中,大规模浮点矩阵乘法往往是最耗时的计算核心之一。在新兴的应用中经常存在至少有一个维度很小的大规模矩阵,我们把具备这种特性的矩阵称为非均匀矩阵。由于FPGA上用以存储中间结果的片上存储器容量十分有限,计算大规模矩阵乘法时往往需要将矩阵划分成细粒度的子块计算任务。当加速非均匀矩阵乘法时,由于只支持固定分块大小,大多数现有的线性阵列结构的硬件矩阵乘法器将遭受很大的性能下降。为了解决这个问题,提出了一种有效的优化分块策略。在此基础上,在Xilinx公司的Zynq XC7Z045FPGA芯片上实现了一个支持可变分块的矩阵乘法器。通过集成224个处理单元,该矩阵乘法器在150 MHz的时钟频率下对于实际应用中的非均匀矩乘达到了48GFLOPS的实测性能,而所需带宽仅为4.8GB/s。实验结果表明,我们提出的分块策略相比于传统的分块算法实现了高达12%的性能提升。 Large-scale floating-point matrix multiplication is one of the most time consuming compu- tational kernels in many applications. There is a feature in emerging applications that matrices usually own at least one small dimension, which is called non-uniform large-scale matrix multiplication. Due to the limited amount of on-chip memory for storing intermediate results on FPGA, partitioning large-scale matrix multiplication into fine grained sub-block computational tasks is needed. When accelerating non- uniform matrix multiplications, most of the existing hardware matrix multipliers with a linear array ar- chitecture can suffer great performance reduction due to the fixed sub-block size support. To solve this problem, we propose an efficient optimization blocking strategy. Based on it, we implement a novel ma- trix muhiplier to support variable sub-block operations on a Xilinx Zynq XCTZ045 FPGA. By integrating 224 processing elements （PEs）, the multiplier achieves up to 48 GFI.OPS for non-uniform matrix multi- plication in real application at 150 MHz with requirement of 4.8 GB/s of memory bandwidth. Res show that our proposed blocking strategy can improve up to 12% of performance in comparison with ditional blocking algorithms

作者沈俊忠肖涛乔寓然杨乾明文梅

机构地区国防科学技术大学计算机学院

出处《计算机工程与科学》 CSCD 北大核心 2016年第9期1748-1754,共7页 Computer Engineering & Science

基金国家863计划(2012AA012706) 国家自然科学基金(61272145)

关键词 FPGA 非均匀矩阵矩阵乘法分块策略 FPGA non-uniform matrix matrix multiplication blocking strategy

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Zhang Ting. Research on key technology of accelerating float- ing-point matrix multiplication based on FPGA in embedded environment[D]. Changsha: Hunan University, 2013: 361- 367. (in Chinese).
2Jang J-W,Choi S, Prasanna V K. Area and time efficient im plementation of matrix multiplication on FPGAs[C]//Proc of the International Conference on Field-Programmable Tech- nology(FPT~ 02), 2002 : 93 -100.
3Zhuo L, Prasanna V. Scalable and modular algorithms for floating point matrix multiplication on FPGAs[C]//Proe of the 18th International Parallel and Distributed Processing Symposium,2004:92. doi: 10. ll09/IPDPS. 2004. 1303036.
4Jang J-W,Choi S, Prasanna V K. Energy- and time-efficient matrix multiplication on FPGAs[C]//Proc of the Interna tional Conference on VLSI Design ( VLSI' 2005), 2005 : 1305 -1319.
5Dou Y, Vassiliadis S, Kuzmanov G K. 64-bit floating-point FPGA matrix multiplieation[C]//Proc of the International Symposium on Field-Programmable Gate Arrays (FPGA' 05) ,2005:86- 95.
6Zhuo I,, Prasanna V K. Scalable and modular algorithms for floating-point matrix multiplication on reeonfigurable compu- ting systems [J].IEEE Transactions on Parallel and Distrib- uted Systems, 2007,18(4) : 433-448.
7Kumar V, Joshi S, Patkar S, et al. FPGA based high per formanee Double precision matrixe multiplication[C]//Proc of the International Conference on VLSI Design (VLSI' 2009) :341-346.
8Jovanovic Z, Milutinovic V. FPGA accelerator for floating- point matrix multiplication[J]. IET Computers g>- Digital Techniques, 2012,6 (4) : 249-256.
9Krizhevsky A,Sutskever I, Hinton G E. Imagenet classifica- tion with deep convolutional neural networks[J]. Advanced in Neural Information Processing Systems, 2012, 25 (2): 1097- 1105.

同被引文献15

1王金波,张文科.大数模乘硬件设计与FPGA高速实现[J].信息安全与通信保密,2005,27(7):349-353. 被引量：1
2田翔,周凡,陈耀武,刘莉,陈耀.基于FPGA的实时双精度浮点矩阵乘法器设计[J].浙江大学学报（工学版）,2008,42(9):1611-1615. 被引量：21
3丁顺全,杨永福.一种快速大数乘法器的设计方法——大数乘法的高速实现[J].红河学院学报,2009,7(2):51-55. 被引量：2
4朱海涛,陈云霁,钱诚,王玲,胡伟武.基于向量扩展多核处理器的矩阵乘法算法优化研究[J].中国科学技术大学学报,2011,41(2):173-182. 被引量：4
5商丽卫,刘耀军.并行行旁路乘法器的设计与实现[J].微电子学与计算机,2012,29(8):134-137. 被引量：1
6刘刚,张恒,毛睿,陆克中.面向龙芯3B1500体系结构的DGEMM函数优化[J].小型微型计算机系统,2014,35(7):1523-1527. 被引量：3
7周磊涛,陶耀东,刘生,李锁.基于FPGA的Systolic乘法技术研究[J].计算机工程与科学,2015,37(9):1632-1636. 被引量：6
8高向强,冯春阳,闫鑫,杨靓,曹辉.一种面向64位DSP处理器的可重构ALU研究及设计[J].微电子学与计算机,2015,32(10):1-6. 被引量：2
9廖望,万美琳,戴葵,邹雪城.可扩展双域模乘器设计与研究[J].华中科技大学学报（自然科学版）,2015,43(9):51-54. 被引量：2
10谢天艺,黄凯,修思文,唐从学,严晓浪.素数域椭圆曲线密码加速器的VLSI实现[J].计算机工程与应用,2016,52(1):89-94. 被引量：4

引证文献4

1张晓楠,高献伟,董秀则.基于FPGA的进位存储大数乘法器的改进与实现[J].计算机工程与应用,2017,53(21):58-61. 被引量：1
2刘余福,郎文辉,贾光帅.HXDSP平台上矩阵乘法的实现与性能分析[J].计算机工程,2019,45(4):25-29. 被引量：4
3宋宇鲲,郑强强,王泽中,张多利.一种极低IO带宽需求的大维度矩阵链式矩阵乘法器设计[J].电子技术应用,2019,45(9):32-38.
4秦文强,吴仲城,张俊,李芳.基于异构平台的卷积神经网络加速系统设计[J].计算机工程与科学,2024,46(1):12-20. 被引量：2

二级引证文献7

1杨湲.一种改进乘法器的设计与实现[J].绵阳师范学院学报,2019,38(2):37-41.
2叶鸿,顾乃杰,林传文,张孝慈,陈瑞.一种基于HXDSP的移位器查找表技术[J].北京航空航天大学学报,2019,45(10):2044-2050. 被引量：1
3张露维,顾荣斌,李静,李科心.FSD:增量压缩中局部特征表决的快速相似性检测[J].小型微型计算机系统,2021,42(5):977-983. 被引量：1
4蔺丽华,张美春,王佳仪,李敏,门浩.基于BWDSP1042的复数矩阵向量乘的优化与实现[J].计算机应用与软件,2023,40(3):298-301.
5吴海燕.一种解决魂芯HX1041并口与限制区域数据传输的方法[J].单片机与嵌入式系统应用,2023,23(8):57-58.
6杨念.港口风速风向预警系统[J].港口科技,2024(9):24-34.
7谭会生,严舒琪,杨威.时空图卷积网络的骨架识别硬件加速器设计[J].电子测量技术,2024,47(11):36-43.

1赵晓永,杨扬,孙莉莉.一种采用声学指纹去重的海量MP3文件存储架构[J].计算机应用研究,2013,30(2):472-475. 被引量：1
2宗胜,姜丽红.推荐系统中遗漏值解决方法的研究[J].计算机应用与软件,2008,25(6):193-195. 被引量：2
3我国研制成功超千万亿次高性能计算机“星云”[J].广东科技,2010,19(13):12-12.
4“天河一号”组装完毕[J].少儿科技,2010(9):43-43.
5我国第一台超千万亿次超级计算机系统研制成功[J].中国科技产业,2010(6):84-84.
6中国成功研制千万亿次超级计算机“天河一号”[J].电力信息化,2009(11):15-15.
7我成功研制千万亿次超级计算机[J].少儿科技,2009(12):41-41.
8我国研制成功超千万亿次高性能计算机"星云"[J].企业技术开发,2010,29(6):129-129.
9“天河一号”有多“超级”[J].科学24小时,2010(2):12-12.
10“天河一号”超级计算机[J].泰州科技,2009(12):35-36.

计算机工程与科学

2016年第9期

浏览历史

内容加载中请稍等...

一种支持优化分块策略的矩阵乘加速器设计被引量：4

参考文献9

同被引文献15

引证文献4

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种支持优化分块策略的矩阵乘加速器设计 被引量：4

参考文献9

同被引文献15

引证文献4

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

一种支持优化分块策略的矩阵乘加速器设计被引量：4