大点数一维FFT的GPU设计实现被引量：4

Design and implementation of large-point 1D FFT on GPU

下载PDF

导出

摘要鉴于GPU强大的计算性能以及先进的并行处理器架构,主要研究一种将FFT的并行算法映射到CUDA模型的并行设计方法。该设计方法遵循如减少内核函数中的全局存储器访问、全局存储器合并访问、高效利用共享存储器、高密集度计算等GPU平台下主要的设计准则进行优化设计,并在基于NVIDIA Fermi处理架构的Tesla C2075GPU平台上进行了大点数一维FFT设计实现。实验结果表明了该方法的可行性及高效性,在256K点范围内性能优于CUFFT库,加速比最高达到CUFFT 4.0库的2.1倍。 Considering the GPU＇s powerful computing performance and advanced parallel processor architecture, a kind of concurrent design method is studied, which maps the FFT parallel algorithm onto CUDA architecture. This method follows optimized design principles for GPU platforms, such as, re- ducing global memory access, global memory access coalescing, efficient usage of shared memory, and intensive computing. Then, a large Point 1D FFT is implemented on NVIDIA Tesla C2075 GPU based on the architecture of NVIDIA Fermi. Experimental results show that this method is superior to the CUFFT library when the number of points is not larger than 256K, and it runs two times faster than the CUFFT 4.0 library, which shows that the new method is feasible and effective.

作者何涛朱岱寅

机构地区南京航空航天大学电子信息工程学院中航工业雷达与电子设备研究院

出处《计算机工程与科学》 CSCD 北大核心 2013年第11期34-41,共8页 Computer Engineering & Science

关键词 CUDA 4 0 快速傅里叶变换 GPU 高性能计算 CUDA 4.0 fast fourier transform GPU high performance computing

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

同被引文献47

1付昕乐,王晏民,黄明.基于GPU的点云拾取[J].测绘通报,2013(S1):54-57. 被引量：4
2李广鑫,丁振国,詹海生,周利华.一种面向虚拟环境的真实感水波面建模算法[J].计算机研究与发展,2004,41(9):1580-1585. 被引量：22
3WANG Qiang,ZHENG Yao,CHEN Chun,FUJIMOTO Tadahiro,CHIBA Norishige.Efficient rendering of breaking waves using MPS method[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2006,7(6):1018-1025. 被引量：9
4朱红斌,刘学慧,柳有权,吴恩华.基于Lattice Boltzmann模型的液-液混合流模拟[J].计算机学报,2006,29(12):2071-2079. 被引量：19
5Pease M C. An adaptation of the fast Fourier transform for parallel processing[J]. Journal of the ACM, 1968, 15 (2) : 252 - 264.
6Linzer E N, Feig E. Implementation of efficient FFT algorithms on fused multiply-add architectures[ J ]. IEEE Transactions on Signal Processing, 1993, 41 ( 1 ) : 93 - 107.
7Goedeeker S. Fast radix 2, 3,4, and 5 kernels for fast Fourier transformations on computers with overlapping multiply-add instructions[J]. SIAM Journal on Scientific Computing, 1997, 18(6) : 1605 -1611.
8Kamer H, Auer M, Ueberhuber C W. Multiply-add optimized FFT kernels[ J]. Mathematical Models and Methods in Applied Sciences, 2001, 11 ( 1 ) : 105 - 117.
9Voronenko Y, Puschel M. Mechanical derivation of fused multiply-add algorithms for linear transforms [ J ]. IEEE Transactions on Signal Processing, 2007, 55 ( 9 ) : 4458 - 4473.
10Frigo M, Johnson S G. BenchFFT[EB/OL]. [2014 -03 - 15 ]. http ://www. fftw. org/benchfft/.

引证文献4

1刘仲,陈海燕,向宏卫.使用融合乘加加速快速傅里叶变换计算的向量化方法[J].国防科技大学学报,2015,37(2):72-78. 被引量：3
2杨瑛,刘文文,吴方贵.基于GPU的可视化测量仪器软件设计[J].计算机测量与控制,2016,24(8):150-153. 被引量：4
3陈丽宁,金一丞,尹勇,唐强荣.流体与海浪绘制综述[J].小型微型计算机系统,2017,38(2):363-370. 被引量：3
4王江,吴佳.可扩展架构的超大点数FFT处理器设计[J].现代雷达,2024,46(5):54-59.

二级引证文献10

1张春燕,于丽.基于Open VG云电子书系统的多级优化框架设计[J].计算机测量与控制,2017,25(8):162-165.
2沈军彩.无线局域网下数据实时自组织推送系统设计[J].科学技术与工程,2017,17(30):246-251.
3刘大庆,林浩然,陈树越.快速傅里叶变换中计算倒序的新思路[J].电子与信息学报,2018,40(3):758-762. 被引量：3
4甘屹,李平阳,孙福佳.基于EMD+FFT联合滤波方法在机床主轴非平稳信号分析中的应用[J].农业装备与车辆工程,2019,57(8):82-85.
5柴兴华,胡炎,雷耀麟,刘厦.无人机智能测控技术研究综述[J].无线电工程,2019,49(10):855-860. 被引量：6
6唐勇,赵伟,宛月茶,赵静,吴德阳.一种用于实时模拟布料与流体交互的算法研究[J].小型微型计算机系统,2020,41(2):406-409.
7夏栋,高伟亮,李大龙,马玲.基于GPU底层渲染的海量采集数据参数曲线显示研究[J].舰船电子工程,2021,41(4):95-98. 被引量：1
8尹春燕,冉鑫.基于JONSWAP谱的改进Gerstner海浪模型[J].上海海事大学学报,2023,44(2):38-44. 被引量：1
9金一杲,胡翰.海量点云通用图形处理器缓存机制与并行编辑方法[J].测绘科学,2023,48(7):200-207.
10陈丽宁,唐强荣,雷虎.海事管理专业创新创业课程建设初探[J].航海教育研究,2019,36(1):88-90. 被引量：1

1李焱,张云泉,王可,赵美超.异构平台上基于OpenCL的FFT实现与优化[J].计算机科学,2011,38(8):284-286. 被引量：8
2林青.云架构下网络高清视频监控的数据管理[J].中国公共安全,2012(17):134-136. 被引量：1
3夏际金,梁之勇,崔留争.多核并行的大点数FFT、IFFT设计[J].火控雷达技术,2016,45(1):64-68. 被引量：5
4曾庆怡,张明武,张金霜.基于GPU的域乘法并行算法的改进研究[J].信息网络安全,2013(1):22-26.
5吴高.基于Vault的Inventor并行设计方法[J].CAD/CAM与制造业信息化,2010(2):58-60. 被引量：1
6骆岩红,万国峰,王建华.基于CUDA架构的FFT并行计算研究[J].自动化与仪器仪表,2014(12):25-28. 被引量：4
7王璐,梁涛,王文义.FFT算法的并行化性能分析[J].中原工学院学报,2010,21(5):30-32.
8郭琳.论柔性制造控制系统的并行设计方法[J].科技创新导报,2015,12(19):57-57.
9田盼,华蓓,陆李.基于GPU的K-近邻算法实现[J].计算机工程,2015,41(2):189-192. 被引量：3
10华硕ESC1000成就桌面超算[J].CAD/CAM与制造业信息化,2010(1):91-91.

计算机工程与科学

2013年第11期

浏览历史

内容加载中请稍等...

大点数一维FFT的GPU设计实现被引量：4

同被引文献47

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

大点数一维FFT的GPU设计实现 被引量：4

同被引文献47

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

大点数一维FFT的GPU设计实现被引量：4