期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
大点数FFT在“申威26010”上的并行优化
被引量:
1
1
作者
郭俊
刘鹏
+2 位作者
杨昕遥
张鲁飞
吴东
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2024年第1期78-86,共9页
根据“神威·太湖之光”超级计算机所用国产“申威26010”处理器的架构特点和编程规范,提出针对大点数FFT的众核并行优化方案.该方案源自经典的Cooley-Tukey FFT算法,通过将一维大点数数据迭代分解为二维小规模矩阵进行并行加速.为...
根据“神威·太湖之光”超级计算机所用国产“申威26010”处理器的架构特点和编程规范,提出针对大点数FFT的众核并行优化方案.该方案源自经典的Cooley-Tukey FFT算法,通过将一维大点数数据迭代分解为二维小规模矩阵进行并行加速.为了解决矩阵“列FFT”的读写、转置和计算问题,提出“列均分-行连续”的读写策略,通过对数据进行合理的分配、重排、交换,结合SIMD向量化、旋转因子优化、双缓冲、寄存器通信、跨步传输等优化手段,充分利用了众核处理器的计算资源和传输带宽.实验结果显示,单核组64从核并行程序较主核运行FFTW库,可以达到最高65x、平均48x以上的加速比.
展开更多
关键词
神威·太湖之光
申威26010
快速傅里叶变换
Cooley-Tukey算法
众核并行
下载PDF
职称材料
题名
大点数FFT在“申威26010”上的并行优化
被引量:
1
1
作者
郭俊
刘鹏
杨昕遥
张鲁飞
吴东
机构
湖州
职业
技术
学院
信息工程与
物
联网
学院
湖州职业技术学院湖州市物联网智能系统集成技术重点实验室
浙江大学信息与电子工程
学院
蚂蚁科技集团股份有限公司
数学工程与先进计算国家
重点
实验室
出处
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2024年第1期78-86,共9页
基金
数学工程与先进计算国家重点实验室开放基金资助项目(2019A10)。
文摘
根据“神威·太湖之光”超级计算机所用国产“申威26010”处理器的架构特点和编程规范,提出针对大点数FFT的众核并行优化方案.该方案源自经典的Cooley-Tukey FFT算法,通过将一维大点数数据迭代分解为二维小规模矩阵进行并行加速.为了解决矩阵“列FFT”的读写、转置和计算问题,提出“列均分-行连续”的读写策略,通过对数据进行合理的分配、重排、交换,结合SIMD向量化、旋转因子优化、双缓冲、寄存器通信、跨步传输等优化手段,充分利用了众核处理器的计算资源和传输带宽.实验结果显示,单核组64从核并行程序较主核运行FFTW库,可以达到最高65x、平均48x以上的加速比.
关键词
神威·太湖之光
申威26010
快速傅里叶变换
Cooley-Tukey算法
众核并行
Keywords
Sunway Taihu Light
Sunway 26010
fast Fourier transform
Cooley-Tukey algorithm
many-core parallelism
分类号
TP338 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
大点数FFT在“申威26010”上的并行优化
郭俊
刘鹏
杨昕遥
张鲁飞
吴东
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2024
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部