基于向量扩展多核处理器的矩阵乘法算法优化研究被引量：4

Optimization of matrix multiplication based on a multi-core architecture extended with vector units

下载PDF

导出

摘要在GODSON-3B八核处理器平台上,对矩阵乘法算法进行了优化和评估,针对矩阵乘法中A,B,C三个矩阵各自的访存特点,采用不同的方法对其访存行为进行优化,隐藏访存时间,使矩阵乘法性能达到122Gflops,效率为95.3%. Based on the GODSON-3B ＆core processor, an optimized implementation and evaluation of matrix multiplication was proposed. For the memory access characteristic of each matrix in matrix multiplication, different methods were used to optimize the memory access behavior, hiding memory access time. The performance of optimized matrix multiplication achieves 122 Gflops, and an efficiency of 95.3 %.

作者朱海涛陈云霁钱诚王玲胡伟武

机构地区中国科学技术大学计算机科学与技术学院中国科学院计算技术研究所微处理器中心

出处《中国科学技术大学学报》 CAS CSCD 北大核心 2011年第2期173-182,共10页 JUSTC

基金国家自然科学基金(60736012 60921002) 国家重点基础研究发展(973)计划(2005CB321600) 中国高技术研究发展(863)计划(2008AA110901)资助

关键词多核向量扩展寄存器堆矩阵乘法 multi-core vector expansion register file matrix multiplication

分类号 TP332 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献13

1Vangal S R, Howard J, Ruhl G, et al. An 80-tile sub- 100-W teraFLOPS processor in 65-nm CMOS [J]. IEEE Journal of Solid-State Circuits, 2008, 43(1) : 29- 41.
2Kahle J A, Day M N, Hofstee H P, et al. Introduction to the cell multiprocessor[J]. IBM Journal of Research and Development, 2005, 49 (4/5) 589-604:.
3Kapasi U, Dally W J, Rixner S, et al. The imagine stream processor [C]// Proceedings of the 2002 International Confernce on Computer Design. Freiburg, Germany: IEEE Press, 2002: 282-288.
4Waingold E, Taylor M, Sarkar V, et al. Baring it all to software., raw maehines[J]. IEEE Computer, 1997, 30(9) : 86-93.
5Sankaralingam K, Nagarajan R, McDonald R, et al. Distributed microarchitectural protocols in the TRIPS prototype processor [C]// Proceedings of the 39th Annual IEEE/ACM International Symposium on Microarchitecture. Washington, USA: IEEE Computer Society, 2006: 480-491.
6Gunnels J A, Henry G M, van de Geijn R A. A family of high performance matrix multiplication algorithms [C]// Proceedings of the International Conference on Computational Science - Part I. London, UK: Springer, 2001: 51-60.
7Goto K. van de Geijn R A. On reducing TLB misses in matrix multiplication[R]. CS-TR-02-55, Department of Computer Scienees, The University of Texas at Austin, 2002.
8Goto K. van de Geijn R A. Anatomy of high- performance matrix multiplication [ J ]. ACM Transactions on Mathematical Software, 2008, 34(3): Article 12(1-25).
9Gunnels J, Lin C, Morrow G, et al. A flexible class of parallel matrix multiplication algorithms [C]// First Merged International Parallel Processing Symposium and Symposium on Parallel and Distributed Processing. Washington, USA: IEEE Computer Society, 1998, 12: 110-116.
10Marker B, van Zee F G, Goto K, et al. Toward sealable matrix multiply on multithreaded architectures [C]// Proceedings of the 13th International European Conference on Parallel and Distributed Computing. Rennes, France: ACM Press, 2007: 748-757.

同被引文献11

1李文龙,刘利,汤志忠.软件流水中的循环展开优化[J].北京航空航天大学学报,2004,30(11):1111-1115. 被引量：16
2张文力,陈明宇,樊建平.HPL测试性能仿真与预测[J].计算机研究与发展,2006,43(3):557-562. 被引量：13
3顾乃杰,李凯,陈国良,吴超.基于龙芯2F体系结构的BLAS库优化[J].中国科学技术大学学报,2008,38(7):854-859. 被引量：13
4陈国良,蔡晔,罗秋明.国产个人高性能计算机系统研制[J].深圳大学学报（理工版）,2011,28(6):471-477. 被引量：4
5何颂颂,顾乃杰,朱海涛,刘燕君.面向龙芯3A体系结构的BLAS库优化[J].小型微型计算机系统,2012,33(3):571-575. 被引量：8
6蔡晔,刘刚,毛睿,罗秋明,陈国良.KD-90普及型个人高性能计算机系统设计与性能优化[J].深圳大学学报（理工版）,2013,30(2):138-143. 被引量：8
7刘刚,张恒,毛睿,陆克中.面向龙芯3B1500体系结构的DGEMM函数优化[J].小型微型计算机系统,2014,35(7):1523-1527. 被引量：3
8沈俊忠,肖涛,乔寓然,杨乾明,文梅.一种支持优化分块策略的矩阵乘加速器设计[J].计算机工程与科学,2016,38(9):1748-1754. 被引量：4
9龙卓群,王晓瑜,王昌明.基于DCT预测编码的Epiphany-OpenCL大矩阵乘并行计算[J].自动化与仪表,2017,32(7):16-21. 被引量：3
10杨飞,马昱春,侯金,徐宁.基于MPSoC并行调度的矩阵乘法加速算法研究[J].计算机科学,2017,44(8):36-41. 被引量：4

引证文献4

1刘刚,张恒,张滇,毛睿.基于龙芯3B处理器的Linpack优化实现[J].深圳大学学报（理工版）,2014,31(3):286-292. 被引量：3
2刘刚,张恒,毛睿,陆克中.面向龙芯3B1500体系结构的DGEMM函数优化[J].小型微型计算机系统,2014,35(7):1523-1527. 被引量：3
3刘余福,郎文辉,贾光帅.HXDSP平台上矩阵乘法的实现与性能分析[J].计算机工程,2019,45(4):25-29. 被引量：4
4段苓丽,郎文辉,刘余福,贾光帅.HXDSP上IDCT变换的数据压缩式向量化设计及实现[J].合肥工业大学学报（自然科学版）,2020,43(4):474-479. 被引量：3

二级引证文献12

1甘新标,孙燎原,刘杰,雄成伟,黄嘉昆.面向国产异构系统的HPL异构协同设计[J].计算机工程与科学,2018,40(1):10-14.
2贾迅,邬贵明,钱磊,谢向辉,吴东.大规模三角线性方程的高效求解[J].计算机工程与科学,2019,41(2):240-245.
3刘余福,郎文辉,贾光帅.HXDSP平台上矩阵乘法的实现与性能分析[J].计算机工程,2019,45(4):25-29. 被引量：4
4叶鸿,顾乃杰,林传文,张孝慈,陈瑞.一种基于HXDSP的移位器查找表技术[J].北京航空航天大学学报,2019,45(10):2044-2050. 被引量：1
5段苓丽,郎文辉,刘余福,贾光帅.HXDSP上IDCT变换的数据压缩式向量化设计及实现[J].合肥工业大学学报（自然科学版）,2020,43(4):474-479. 被引量：3
6张露维,顾荣斌,李静,李科心.FSD:增量压缩中局部特征表决的快速相似性检测[J].小型微型计算机系统,2021,42(5):977-983. 被引量：1
7王博漾,庞建民,徐金龙,赵捷,陶小涵,朱雨.基于多面体模型的矩阵乘法向量代码生成[J].计算机科学,2022,49(10):44-51. 被引量：2
8赵泊宁.通信网络数据自适应快速压缩算法[J].长江信息通信,2023,36(2):54-56.
9蔺丽华,张美春,王佳仪,李敏,门浩.基于BWDSP1042的复数矩阵向量乘的优化与实现[J].计算机应用与软件,2023,40(3):298-301.
10刘鑫昌.国产地面处理器软硬件协同应用验证研究[J].办公自动化,2023,28(12):55-57.

1徐倩,何建农.遥感图像分类的LMBP核函数改进算法[J].中国图象图形学报,2011,16(12):2206-2210.
2关琦,闻江,孙丽婷,庞凤兰,刘瑞芝,王菽裕,宋焕生.基于阴影向量扩展的阴影检测方法[J].电视技术,2015,39(19):92-94.
3孙远帅,陈垚,官新均,林琛.基于Hadoop的大矩阵乘法处理方法[J].计算机应用,2013,33(12):3339-3344. 被引量：8
4孙宏纲,陆余良,刘金红,龚笔宏.基于HowNet的VSM模型扩展在文本分类中的应用研究[J].中文信息学报,2007,21(6):101-108. 被引量：8
5蔡建兵,王晓东.矩阵乘法的高速缓存复杂性分析[J].福建电脑,2003,19(12):22-22.
6刘云霞,钟麦英.基于等价空间的网络控制系统故障检测问题研究[J].系统工程与电子技术,2006,28(10):1553-1555. 被引量：8
7石莹莹,李涛.基于MPI的Strassen矩阵乘法算法的并行计算研究与实现[J].电脑知识与技术（过刊）,2007(22):1082-1084. 被引量：1
8张雄美,易昭湘,宋建社,李俊山.基于矩阵形式的否定选择算法研究[J].电子与信息学报,2010,32(11):2701-2706. 被引量：6
9陈亚静,蔡如华,吴孙勇,桂丛楠.基于粒子滤波的股价预测方法[J].统计与决策,2017,33(3):84-87. 被引量：2
10侯永生,赵荣彩,黄磊,韩林.面向SIMD扩展部件的循环优化研究[J].计算机科学,2014,41(5):27-32. 被引量：1

中国科学技术大学学报

2011年第2期

浏览历史

内容加载中请稍等...

基于向量扩展多核处理器的矩阵乘法算法优化研究被引量：4

参考文献13

同被引文献11

引证文献4

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于向量扩展多核处理器的矩阵乘法算法优化研究 被引量：4

参考文献13

同被引文献11

引证文献4

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于向量扩展多核处理器的矩阵乘法算法优化研究被引量：4