期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
面向龙芯3B体系结构的FFTW库优化 被引量:1
1
作者 王小乐 顾乃杰 张明 《小型微型计算机系统》 CSCD 北大核心 2016年第3期622-626,共5页
龙芯3B处理器是首款国产商用8核处理器,主要用于高性能计算机、高性能服务器和数字信号处理等领域.因此充分利用龙芯3B体系结构,开发一套高效的FFT库则尤为重要.FFTW库是基于通用CPU开发的软件包,很难充分利用龙芯3B处理器的硬件特性,... 龙芯3B处理器是首款国产商用8核处理器,主要用于高性能计算机、高性能服务器和数字信号处理等领域.因此充分利用龙芯3B体系结构,开发一套高效的FFT库则尤为重要.FFTW库是基于通用CPU开发的软件包,很难充分利用龙芯3B处理器的硬件特性,从而在龙芯3B处理器上未能取得令人满意的性能.针对该问题本文采用MIPS汇编、乘加指令、向量化计算、Cooley-Tukey算法和实数类型实部虚部分开计算等多种优化方法对FFTW库进行优化.使用离散傅里叶通用的benchmark测试工具benchfft进行性能测试,实验结果表明,优化后比优化前性能平均提升45%左右,部分甚至超过100%,使FFTW在龙芯3B处理器上具有较高的性能. 展开更多
关键词 fftw 龙芯3B MIPS 向量化
下载PDF
采用FFTW的Retinex及其在扫描地形图匀光中的应用 被引量:2
2
作者 付仲良 童春芽 邵世维 《应用科学学报》 EI CAS CSCD 北大核心 2010年第3期297-300,共4页
针对扫描地形图存在折痕和光照不均的现象,研究了Retinex理论在扫描地形图中的应用,提出一种基于西方快速傅里叶变换(faster Fourier transform in the west,FFTW)的单尺度Retinex匀光方法,并给出了匀光处理流程.实验表明该方法可克服... 针对扫描地形图存在折痕和光照不均的现象,研究了Retinex理论在扫描地形图中的应用,提出一种基于西方快速傅里叶变换(faster Fourier transform in the west,FFTW)的单尺度Retinex匀光方法,并给出了匀光处理流程.实验表明该方法可克服数学模型法的不足,适用性较强,在消除扫描地形图的折痕和光照不均方面能取得满意的效果,可有效解决单张扫描地形图的色彩平衡问题. 展开更多
关键词 扫描地形图 单尺度Retinex 色彩平衡 西方快速傅里叶变换
下载PDF
基于FFTW算法的M-Z周界防护系统 被引量:2
3
作者 廖俊 张志勇 +3 位作者 邵理阳 闫连山 王鹏翔 喻劼 《光通信研究》 北大核心 2015年第4期37-38,75,共3页
采用FFTW(西方快速傅里叶变换)算法实现了两路接收信号的快速互相关计算,提高了M-Z(马赫-曾德)周界防护系统定位的实时性。搭建了M-Z周界防护实验装置,在6km光缆上进行了振动信号定位测试。在20 MHz采样率条件下实现了21m的定位精度,定... 采用FFTW(西方快速傅里叶变换)算法实现了两路接收信号的快速互相关计算,提高了M-Z(马赫-曾德)周界防护系统定位的实时性。搭建了M-Z周界防护实验装置,在6km光缆上进行了振动信号定位测试。在20 MHz采样率条件下实现了21m的定位精度,定位计算时间小于0.5s。实验结果表明,此算法与传统FFT(快速傅里叶变换)算法相比,计算速度显著提高。 展开更多
关键词 西方快速傅里叶变换 周界防护 马赫-曾德 互相关算法
下载PDF
基于FFTW库分步傅里叶变换算法并行方案研究 被引量:3
4
作者 刘帅 李智 王晶 《装备学院学报》 2013年第2期97-99,共3页
介绍了求解抛物型波动方程的分步傅里叶变换(split step Fouriertransform,SSFT)算法计算过程,分析了算法的并行性,并基于西方快速傅里叶变换(fastest Fourier transform in the West,FFTW)函数库研究了2种分步傅里叶变换算法并行方案... 介绍了求解抛物型波动方程的分步傅里叶变换(split step Fouriertransform,SSFT)算法计算过程,分析了算法的并行性,并基于西方快速傅里叶变换(fastest Fourier transform in the West,FFTW)函数库研究了2种分步傅里叶变换算法并行方案。所做测试结果表明,文中所提方案尤其是分布式模式方案,对于实现波动方程的快速求解是有效的,且所做工作对于以波动方程为基础的电波传播、电磁环境数据生成等问题的研究具有一定的指导意义。 展开更多
关键词 抛物方程 分步傅里叶变换 并行方案 西方快速傅里叶变换
下载PDF
傅立叶变换与流体数值计算的耦合并行算法 被引量:4
5
作者 胡晓燕 曹小林 +1 位作者 郭红 陈军 《计算物理》 EI CSCD 北大核心 2012年第4期484-488,共5页
针对傅立叶变换和流体数值计算耦合并行存在的问题,采用两种方式解决:多物理耦合通信方法和二维并行FFTW方法;并对这两种方法进行性能比较,结果表明:当处理器数目少时,采用多物理耦合通信方法计算效率高,当处理器上千时,采用二维并行FFT... 针对傅立叶变换和流体数值计算耦合并行存在的问题,采用两种方式解决:多物理耦合通信方法和二维并行FFTW方法;并对这两种方法进行性能比较,结果表明:当处理器数目少时,采用多物理耦合通信方法计算效率高,当处理器上千时,采用二维并行FFTW方法可扩展性更好;最后,在上万处理机上采用上亿网格测试,并行效率达到50%,并给出数值模拟结果,验证了激光成丝现象. 展开更多
关键词 并行 激光成丝 多物理耦合通信方法 fftw
下载PDF
可扩展的旋转因子表及FFT算法 被引量:3
6
作者 李青 王能超 郑楚光 《计算机学报》 EI CSCD 北大核心 2002年第4期392-396,共5页
该文提出了一个用于快速 Fourier变换计算的反写码序的旋转因子表 ,这种旋转因子表具有可扩展性 :本质上 ,这种旋转因子表的分量与变换的点数无关 .当点数改变时 ,这种旋转因子表无须重新计算或者容易扩展 ;根据这种旋转因子表 ,该文设... 该文提出了一个用于快速 Fourier变换计算的反写码序的旋转因子表 ,这种旋转因子表具有可扩展性 :本质上 ,这种旋转因子表的分量与变换的点数无关 .当点数改变时 ,这种旋转因子表无须重新计算或者容易扩展 ;根据这种旋转因子表 ,该文设计了一个结构规整的基于基 4计算 2 n 点 FFT的算法及软件程序 ,该程序与 FFTW软件包进行了对比实验 .文中还以蛋白质序列相似性分析计算为例 ,对作者的算法与 FFTW软件包中的相应算法进行了对比实验 ,结果表明 ,采用该文的算法可节省计算时间约 31.7% . 展开更多
关键词 快速FOURIER变换 旋转因子 fftw软件包 FFT算法 计算机
下载PDF
基于快速傅立叶变换实现点云的表面重构 被引量:1
7
作者 刘金玲 唐棣 《计算机应用与软件》 CSCD 2010年第3期260-261,271,共3页
根据微分几何斯托克斯定理的散度理论,利用面积分和体积分之间的转换关系,将表面重构问题用求隐函数的特征函数问题实现。调用快速傅立叶变换FFTW(The Fastest Fourier Transform in the West)软件包,根据点的位置和法向量计算傅立叶系... 根据微分几何斯托克斯定理的散度理论,利用面积分和体积分之间的转换关系,将表面重构问题用求隐函数的特征函数问题实现。调用快速傅立叶变换FFTW(The Fastest Fourier Transform in the West)软件包,根据点的位置和法向量计算傅立叶系数,通过逆变换求出特征函数,选择合适的阈值提取表面的等值面,对于非均匀采样通过采样密度的加权系数进一步计算合理的阈值。实验表明这种通过隐函数方式实现点云的表面重构取得了良好的结果。 展开更多
关键词 隐函数 fftw 表面重构 特征函数
下载PDF
一种新的基于正态截取高斯带阻滤波的扫描图匀色方法
8
作者 付仲良 童春芽 邵世维 《测绘通报》 CSCD 北大核心 2010年第10期14-16,34,共4页
针对扫描地形图存在的亮度分布不均、有折痕等问题,提出引入西方快速傅里叶变换(FFTW)的基于正态截取线性拉伸高斯带阻滤波的匀色方法。该方法不仅处理速度快,而且处理后的扫描地形图的折痕和光照不均现象能够得以很好的消除,并能较好... 针对扫描地形图存在的亮度分布不均、有折痕等问题,提出引入西方快速傅里叶变换(FFTW)的基于正态截取线性拉伸高斯带阻滤波的匀色方法。该方法不仅处理速度快,而且处理后的扫描地形图的折痕和光照不均现象能够得以很好的消除,并能较好地保持图像的原始面貌。 展开更多
关键词 匀色 带阻滤波 fftw 正态截取线性拉伸
下载PDF
FFT算法的并行化性能分析
9
作者 王璐 梁涛 王文义 《中原工学院学报》 CAS 2010年第5期30-32,41,共4页
以串行FFTW为基准,从程序运行时间、通信开销两方面分析了基于消息传递型(MPI-FFT)和共享内存型(CUFFT)并行FFT实现的性能.实验表明,并行FFT都可以提升计算速度至FFTW的30~80倍,对于中等规模的数据,CUFFT的计算速度略优于MPI-FFT,且其... 以串行FFTW为基准,从程序运行时间、通信开销两方面分析了基于消息传递型(MPI-FFT)和共享内存型(CUFFT)并行FFT实现的性能.实验表明,并行FFT都可以提升计算速度至FFTW的30~80倍,对于中等规模的数据,CUFFT的计算速度略优于MPI-FFT,且其通信开销明显较低,具有较高性价比和较好的应用前景. 展开更多
关键词 并行性能 CUFFT MPI fftw
下载PDF
基于ARMv8平台的多维FFT实现与优化研究 被引量:10
10
作者 陈暾 李志豪 +1 位作者 贾海鹏 张云泉 《计算机学报》 EI CSCD 北大核心 2019年第11期2384-2402,共19页
FFT(快速傅里叶变换)是用于计算离散傅里叶变换(DFT)或其逆运算的快速算法,它广泛应用于工程、科学和数学计算.到目前为止,鲜有基于ARM平台的高性能FFT算法的实现和优化,然而,随着ARMv8处理器应用的日益广泛,研究FFT算法在ARM平台上高... FFT(快速傅里叶变换)是用于计算离散傅里叶变换(DFT)或其逆运算的快速算法,它广泛应用于工程、科学和数学计算.到目前为止,鲜有基于ARM平台的高性能FFT算法的实现和优化,然而,随着ARMv8处理器应用的日益广泛,研究FFT算法在ARM平台上高性能实现日益重要.该文在ARMv8平台上实现和优化了一个高性能的多维FFT算法库:PerfFFT,通过FFT蝶形网络优化、蝶形计算优化、蝶形自动生成、SIMD优化、内存对齐、cache-aware的分块算法和高效转置等优化方法的应用,显著提升了FFT算法的性能.实验结果表明,PerfFFT相比目前应用最为广泛的开源FFT库FFTW实现了10%~591%的性能提升,而相比ARM高性能商业库ARM Performance Library实现了13%~44%的性能提升. 展开更多
关键词 ARMv8 FFT算法 fftw ARMPL SIMD优化 CACHE优化 矩阵分块
下载PDF
FFT在飞机电源频谱分析中的应用
11
作者 韩璐 彭国金 赵鸿森 《信息与电脑》 2016年第5期64-65,共2页
快速傅里叶变换(FFT)属于数字信号处理中的基本算法,已广泛应用到各个领域。笔者主要讲述如何使用基数为2的FFT算法,分析电源的直流畸变频谱,并分析采样数据长度不是2的整数次幂时,在采样序列末尾补零对快速傅里叶变换(FFT)的影响,以及... 快速傅里叶变换(FFT)属于数字信号处理中的基本算法,已广泛应用到各个领域。笔者主要讲述如何使用基数为2的FFT算法,分析电源的直流畸变频谱,并分析采样数据长度不是2的整数次幂时,在采样序列末尾补零对快速傅里叶变换(FFT)的影响,以及如何使用FFTW程序库分析电源的直流畸变频谱。 展开更多
关键词 频谱 快速傅里叶变换(FFT) 补零 fftw
下载PDF
Cooley-Tukey FFT算法高性能实现与优化研究 被引量:4
12
作者 郭金鑫 张广婷 +2 位作者 张云泉 陈泽华 贾海鹏 《计算机科学与探索》 CSCD 北大核心 2022年第6期1304-1315,共12页
快速傅里叶变换(FFT)算法是处理器基础软件生态的重要组成部分,在工程、科学、物理和数学等领域的应用十分广泛,且这些领域对FFT算法的性能也提出了越来越高的要求。研究FFT算法在ARMv8和X86-64上的高性能实现特别是大基高性能的实现,提... 快速傅里叶变换(FFT)算法是处理器基础软件生态的重要组成部分,在工程、科学、物理和数学等领域的应用十分广泛,且这些领域对FFT算法的性能也提出了越来越高的要求。研究FFT算法在ARMv8和X86-64上的高性能实现特别是大基高性能的实现,提高FFT算法的计算性能日益重要。针对ARMv8和X86-64计算平台的架构特征,研究FFT算法的高性能实现和优化方法。通过蝶形网络优化、大基网络级数降低、大基蝶形计算优化、SIMD汇编优化以及寄存器使用策略优化等方法的应用,有效提升了FFT算法的性能,特别是提升了FFT大基的计算性能,解决了寄存器不够用的性能瓶颈,并最终总结了一套Cooley-Tukey FFT算法的高性能实现策略和优化方案。实验结果表明,在ARM、X86-64处理器上,实现的FFT算法,较ARMPL、Intel MKL和FFTW性能有明显提升,较中小基性能也有明显提升。 展开更多
关键词 快速傅里叶变换(FFT) ARMv8 X86-64 fftw SIMD优化
下载PDF
基于ARMv8处理器的实数FFT实现与性能优化研究 被引量:1
13
作者 赵翔 贾海鹏 +3 位作者 张云泉 邓明森 张广婷 郭金鑫 《计算机学报》 EI CAS CSCD 北大核心 2023年第5期1003-1018,共16页
FFT(快速傅里叶变换)是离散傅里叶变换或其逆变换的一种常见快速算法,是高性能计算领域最重要的基础核心算法之一,在科学、工程和数学等领域的应用十分广泛.实数FFT算法,即输入或者输出为实数的FFT算法,其中包括R2C(Real-to-Complex)、C... FFT(快速傅里叶变换)是离散傅里叶变换或其逆变换的一种常见快速算法,是高性能计算领域最重要的基础核心算法之一,在科学、工程和数学等领域的应用十分广泛.实数FFT算法,即输入或者输出为实数的FFT算法,其中包括R2C(Real-to-Complex)、C2R(Complex-to-Real)等变换类型.相比复数FFT算法,实数FFT算法在图形图像处理、数据压缩等领域有着不可替代的作用.传统实数FFT实现针对的是输入规模为偶数,一般转变为复数FFT进行运算.然而当前鲜有针对输入规模为奇数的实数FFT高效实现.对此,本文提出了一种实数FFT高效算法(DRFFT),并采用蝶形网络优化、蝶形计算优化、访存优化、SIMD优化以及数据转置等方法进行优化,大幅提升了实数FFT算法性能,最终构建了一种针对实数FFT的高性能算法库.实验结果表明,本文实现的DRFFT R2C变换在单双精度浮点数处理方面较FFTW库性能分别平均提升了37.6%和4.6%,较ARMPL库性能分别平均提升了67.6%和28.1%.DRFFT C2R变换在单双精度浮点数处理方面则较FFTW库性能分别平均提升了58.6%和10.8%,较ARMPL库性能分别平均提升了121.8%和85.2%. 展开更多
关键词 ARMv8 FFT算法 R2C C2R fftw
下载PDF
龙芯3A上三个自适应FFT包的对比与分析
14
作者 赵美超 张云泉 +2 位作者 刘益群 李焱 颜深根 《计算机科学》 CSCD 北大核心 2012年第12期281-285,共5页
FFT算法在计算机科学中具有广泛的应用,自适应FFT软件包以其良好的可移植性而备受研究人员和用户的青睐,龙芯3A是中科院计算所自主研发的四核CPU,采用RISC架构,兼容MIPS指令。主要对FFTW,UHFFT,SPIRAL这3类FFT自适应软件包进行研究。首... FFT算法在计算机科学中具有广泛的应用,自适应FFT软件包以其良好的可移植性而备受研究人员和用户的青睐,龙芯3A是中科院计算所自主研发的四核CPU,采用RISC架构,兼容MIPS指令。主要对FFTW,UHFFT,SPIRAL这3类FFT自适应软件包进行研究。首先从搜索框架和代码产生器两方面总结了FFTW和UHFFT的异同,接着阐述了SPIRAL自动产生优化代码的三层架构实现原理,之后在国产CPU龙芯3A上对这3个软件包进行了性能测试,并结合龙芯的体系结构特点对结果作了分析对比。在最后总结了目前自适应FFT软件包的一般方法,为下一步开发自适应FFT软件包提供了思路。 展开更多
关键词 fftw UHFFT SPIRAL LOONGSON 3A FFT
下载PDF
MIC异构直线加速器束流动力学模拟并行软件开发
15
作者 董晓彤 杜克伟 +1 位作者 赵瑞峰 徐进 《计算机系统应用》 2016年第9期124-130,共7页
现代高能物理研究需要使用高能量的粒子加速器,加速器束流动力学模拟软件具有重要的实用意义.介绍了一个3维基于MIC的异构直线加速器并行束流动力学模拟软件NEWBEAM-MIC的开发进展.目的是使用最新的超级异构计算机提高束流动力学模拟软... 现代高能物理研究需要使用高能量的粒子加速器,加速器束流动力学模拟软件具有重要的实用意义.介绍了一个3维基于MIC的异构直线加速器并行束流动力学模拟软件NEWBEAM-MIC的开发进展.目的是使用最新的超级异构计算机提高束流动力学模拟软件的性能,更好地完成加速器的设计和优化工作.这个软件模拟了DTL和SOLENOID加速器装置中粒子的运动过程.NEWBEAM-MIC是在NEWBEAM-CPU软件基础上,将粒子推进部分分配到MIC卡上运行,从而利用MIC多线程的优势使计算加速的.通过实际测试,这个软件在天河二号上使用100 CPUs和100 MICs可以模拟109个粒子,其中DTL场力计算、SOLENOID场力计算和粒子推进三个部分均可以比仅使用100 CPUs的NEWBEAM软件有100倍以上的加速效果.再考虑MIC卡上的多线程,对同样规模的粒子,使用100 CPUs和100 MICs,当MIC线程数开到最大(224)时,NEWBEAM-MIC可以比单线程串行计算方式加速10000倍以上.这表明本文开发的基于MIC的异构软件可以很好地加速原有的CPU软件,发挥现有MIC异构超级计算机的潜在性能. 展开更多
关键词 粒子追踪 异构并行计算 直线加速器 集成众核 fftw
下载PDF
大气数值模式中FFT算法的设计与实现
16
作者 王玉柱 姜金荣 +1 位作者 迟学斌 岳天祥 《数值计算与计算机应用》 CSCD 2013年第4期312-322,共11页
大气数值模式中常用到的FFT软件包FFT99由于没有考虑硬件配置和FFT算法的变换参数影响,造成计算效率不高.因此,本文基于FFTW3,根据大气数值模式的特殊需求,设计实现了新的FFT99软件包SC_FFT99.数值试验表明,在FFT计算速度方面,根据新算... 大气数值模式中常用到的FFT软件包FFT99由于没有考虑硬件配置和FFT算法的变换参数影响,造成计算效率不高.因此,本文基于FFTW3,根据大气数值模式的特殊需求,设计实现了新的FFT99软件包SC_FFT99.数值试验表明,在FFT计算速度方面,根据新算法设计的SC_FFT99软件包比FFT99有较大的提高.理想情况下,SC_FFT99计算速度比FFT99快2.5到3.5倍.并且SC_FFT99已应用于中国科学院大气物理研究所开发的大气环流模式IAP AGCM4.0的数值模拟,测试结果显示:计算速度比原来的FFT99快0.39倍. 展开更多
关键词 大气数值模式 FFT fftw FFT99
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部