基于软硬件的协同支持在众核上对1-DFFT算法的优化研究被引量：9

Software/Hardware Co-Design for 1-D FFT Optimization on Many-Core Architecture

下载PDF

导出

摘要随着高性能计算需求的日益增加,片上众核(many-core)处理器成为未来处理器架构的发展方向.快速傅立叶变换(FFT)作为高性能计算中的重要应用,对计算能力和通信带宽都有较高的要求.因此基于众核处理器平台,实现高效、可扩展的FFT算法是算法和体系结构设计者共同面临的挑战.文中在众核处理器Godson-T平台上对1-D FFT算法进行了优化和评估,在节省几乎三分之一L2 Cache存储开销的情况下,通过隐藏矩阵转置,计算与通信重叠等优化策略,使得优化后的1-D FFT算法达到3倍以上的性能提升.并通过片上网络拥塞状况的实验分析,发现对于像FFT这样访存带宽受限的应用,增加L2 Cache的访问带宽,可以缓解因为爆发式读写带给片上网络和L2 Cache的压力,进一步提高程序的性能和扩展性. As the increasing demand of high performance computing,many-core architecture becomes to the trend of future processor architecture.Fast Fourier Transform（FFT）,both computing intensive and bandwidth intensive,is one of the most important applications of the high performance computing.For both software and hardware developers,it is a challenge to implement high efficiency and scalable FFT algorithm on many-core processor.Based on Godson-T processor,the authors developed an optimized implementation of 1-D FFT through implicitly matrix transpose hidden as well as overlapping computation and communication.The performance of optimized 1-D FFT algorithm achieves more than 3 times better and reduces almost 1/3 L2 Cache consumption.After the analysis of on-chip network congestion problem,the authors suggest that increasing the access bandwidth of L2 cache can alleviate the negative impact on on-chip network and L2 Cache which is brought by burst L2 Cache access.As a result,the performance and scalability of memory bandwidth limited applications,such as FFT,can be further improved.

作者周永彬张军超张帅张浩

机构地区中国科学院计算技术研究所系统结构重点实验室

出处《计算机学报》 EI CSCD 北大核心 2008年第11期2005-2014,共10页 Chinese Journal of Computers

基金国家"九七三"重点基础研究发展规划项目基金(2005CB321600) 国家自然科学基金重点项目(60736012)资助.

关键词众核 Godson-T 快速傅立叶变换计算与通信重叠 many-core Godson-T fast Fourier transform computation/communication overlapping

分类号 TP302 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献8

1Cooley J W, Tukey J W. An algorithm for the machine computation of the complex fourier series. Mathematics of Computation, 1965, 19(90): 297-301
2Frigo M, Johson S G. The design and implementation of FFTW3. Proceedings of the IEEE, 2005, 93(2): 216-231
3Williams Samuel, Shall John, Oliker Leonid, Kamil Shoaib, Husbands Parry, Yelick Katherine. Scientific computing kernels on the Cell processor. International Journal of Parallel Programming, 2007, 35(3): 263-298
4Govindaraiu Naga K, Larsen Scott, Gray Jim, Manocha Dinesh. A memory model for scientific algorithms on graphics processors//Proceedings of the 2006 ACM/IEEE Conference on Supereomputing. Tampa, Florida, 2006
5Chen Long, Hu Ziang, Lin Jun-Min, Gao Guang R. Optimizing fast fourier transform on a multi-core architecture//Proceedings of the IEEE International Parallel and Distributed Processing Symposium. California, USA, 2007: 499
6Bailey D H. FFTs in external or hierarchical memory. Journal of Supercomputing, 1990, 4(1): 23-35
7Woo Steven Cameron, Ohara Moriyoshi, Torrie Evan, Singh Jaswinder Pal, Gupta Anoop. The SPLASH-2 programs: Characterization and methodological considerations//Proceedings of the 22nd International Symposium on Computer Architecture. S. Marghenta Ligure, Italy, 19951 24-36
8Iftode Liviu, Singh Jaswinder Pal, Li Kai. Scope consistency: A bridge between release consistency and entry consistency// Proceedings of the 8th Annual ACM Symposium on Parallel Algorithms and Architectures. Padua, Italy, 1996:277-287

同被引文献81

1李浩,谢伦国.片上多处理器末级Cache优化技术研究[J].计算机研究与发展,2012,49(S1):172-179. 被引量：6
2吴恩华.图形处理器用于通用计算的技术、现状及其挑战[J].软件学报,2004,15(10):1493-1504. 被引量：141
3苏涛,庄德靖.大点数FFT算法的改进及其实现[J].现代雷达,2005,27(7):23-26. 被引量：8
4王志刚,李曦,周学海,余洁.可重定向的定制指令集处理器(ASIP)仿真技术研究[J].系统仿真学报,2007,19(6):1249-1255. 被引量：1
5NVIDIA Corporation. NVIDIA CUDA programming guide [EB/OL][2010-07-15]. http://www, nvidia. com/object/euda_ homenew. html.
6YANG Yang, RAART K V, CASANOVA H. Multi round algorithms for scheduling divisible loads [J].IEEE Transactions on Parallel and Distributed Sys tems, 2005,16(11): 1092-1102.
7TAO Yongcai,JIN Hai,WU Song,et al.Adaptive multi-round scheduling strategy for divisible workloads in grid environments[C] // Proceedings of the 23rd International Conference on Information Networking.New York,USA:ACM,2009:260-264.
8SHET G A,SADAYAPPAN P,BERNHOLDT E D,et al.A framework for characterizing overlap of communication and computation in parallel applications[J].Cluster Computing,2008,11(1):75-90.
9ANTHONY D,LORI P,MARTIN S.MPI-aware compiler optimizations for improving communicationcomputation overlap[C] //Proceedings of the 23th International Conference on Supercomputing New York,USA:ACM,2009:316-325.
10Asanovic K, Bodik R, Catanzam B C. The landscape of parallel computing research*, a view from Berkeley. http:// www. eecs. berkeley, edu/Pubs/TechRpts/2006/EECS-2006- 183. html, 2006.

引证文献9

1余磊,刘志勇,马宜科,宋风龙,徐卫志,叶笑春.众核结构上分块LU分解算法的研究[J].高技术通讯,2011,21(3):248-253.
2张保,曹海军,董小社,李丹,胡雷钧.面向图形处理器重叠通信与计算的数据划分方法[J].西安交通大学学报,2011,45(4):1-5. 被引量：5
3余磊,刘志勇,宋风龙,叶笑春.LU分解在众核结构仿真器上的指令级调度研究[J].系统仿真学报,2011,23(12):2603-2610. 被引量：5
4马潇,高立宁,刘腾飞,金烨.基于Cache优化的大点数FFT在TS201上的实现[J].电子与信息学报,2013,35(7):1774-1778. 被引量：8
5刘培林,张晟,李锋.数据采集系统中信号滤波分析方法的优化[J].计算机工程与设计,2013,34(11):4051-4056. 被引量：2
6高立宁,马潇,刘腾飞,吴金.基于超大点数FFT优化算法的研究与实现[J].电子与信息学报,2014,36(4):998-1002. 被引量：5
7吴志海.面向图形处理器重叠通信与计算的数据划分方法[J].黑龙江科技信息,2014(17):145-145.
8高剑刚.众核处理器研究现状及关键技术[J].高性能计算技术,2013,0(3):1-8.
9李宏亮,郑方,郝子宇,高红光,过锋,唐勇,吕晖,刘鑫,陈芳园.面向智能计算的国产众核处理器架构研究[J].中国科学：信息科学,2019,49(3):247-255. 被引量：2

二级引证文献26

1张保,董小社,白秀秀,曹海军,刘超,梅一多.CPU-GPU系统中基于剖分的全局性能优化方法[J].西安交通大学学报,2012,46(2):17-23. 被引量：10
2张德好,刘青昆.一种Cholesky分解重叠算法[J].计算机工程,2012,38(18):262-264.
3崔阳,吕志平,陈正生,王宇谱,吕浩.多核环境下的GNSS网平差数据并行处理研究[J].测绘学报,2013,42(5):661-667. 被引量：13
4陈正生,吕志平,崔阳,吕浩.基于BPE的GNSS数据并行快速解算[J].大地测量与地球动力学,2013,33(5):79-82. 被引量：11
5许瑾晨,郭绍忠,黄永忠,王磊.面向异构众核从核的数学函数库访存优化方法[J].计算机科学,2014,41(6):12-17. 被引量：6
6陈家瑞,朱文兴.一种用于并行电路仿真的电路划分算法[J].福州大学学报（自然科学版）,2014,42(4):531-536. 被引量：1
7巨涛,朱正东,董小社.异构众核系统及其编程模型与性能优化技术研究综述[J].电子学报,2015,43(1):111-119. 被引量：13
8张杰,顾乃杰,张明.龙芯3B处理器上FFT算法向量化研究[J].小型微型计算机系统,2015,36(7):1639-1643. 被引量：7
9王向前,郑启龙,王昊,洪一,张磊.面向高数据并行架构的原位 FFT 算法[J].中国科学技术大学学报,2015,45(7):608-613.
10吕浩,张友阳,吕志平,崔阳,李中全,周海涛.基于Bernese非差的GNSS大网分布式解算[J].测绘科学技术学报,2015,32(5):469-472. 被引量：3

1尹九阳,方滨兴,张宏莉.基于单程序多数据流并行软件的性能预测法[J].清华大学学报（自然科学版）,2005,45(4):509-512. 被引量：1
2尚展垒,刘海燕.协同工作中数据管理方法探讨[J].科技信息,2007(13):67-67.
3Yuehua DAI Yi SHI Yong QI Jianbao REN Peijian WANG.Design and verification of a lightweight reliable virtual machine monitor for a many-core architecture[J].Frontiers of Computer Science,2013,7(1):34-43. 被引量：4
4高剑刚.众核处理器研究现状及关键技术[J].高性能计算技术,2013,0(3):1-8.
5巫茜,周庆.制造业中基于UDDI的协同支持平台构建[J].计算机科学,2011,38(9):139-141.
6温璞,范洁,杨学军.计算与通信重叠的V-Parcel Splitting机制[J].微电子学与计算机,2006,23(9):29-31.
7颜小洋,张伟文,布社辉,邓辉舫.计算与通信重叠和并行I/O在粒子模拟中的应用[J].计算机应用,2011,31(A01):33-36. 被引量：2
8王敏.基于压缩存储的稀疏矩阵转置算法研究[J].科学技术与工程,2010,10(4):1041-1044. 被引量：3
9孟祥杰,张理论,曾泳泓.分布式存储环境下矩阵转置并行算法研究[J].计算机工程与科学,1999,21(5):67-71. 被引量：2
10龚雪容,陆林生,赵荣彩.并行识别中的依赖关系与通信优化研究[J].计算机应用,2007,27(B12):9-11. 被引量：2

计算机学报

2008年第11期

浏览历史

内容加载中请稍等...

基于软硬件的协同支持在众核上对1-DFFT算法的优化研究被引量：9

参考文献8

同被引文献81

引证文献9

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于软硬件的协同支持在众核上对1-DFFT算法的优化研究 被引量：9

参考文献8

同被引文献81

引证文献9

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于软硬件的协同支持在众核上对1-DFFT算法的优化研究被引量：9