期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
利用流SIMD扩展加速3D曲线网格的流线计算 被引量:4
1
作者 张文 李晓梅 《计算机学报》 EI CSCD 北大核心 2001年第8期785-790,共6页
流线是一种基本的流场可视化技术 ,计算流线要耗费大量时间 .Intel○R处理器 (Pentium III,Pentium4)提供流 SIMD扩展 (SSE) ,支持指令级 SIMD操作 .3D曲线网格上的流线计算包含速度插值、数值积分、点定位等主要子过程 ,具有很高的内在... 流线是一种基本的流场可视化技术 ,计算流线要耗费大量时间 .Intel○R处理器 (Pentium III,Pentium4)提供流 SIMD扩展 (SSE) ,支持指令级 SIMD操作 .3D曲线网格上的流线计算包含速度插值、数值积分、点定位等主要子过程 ,具有很高的内在 SIMD并行性 .通过将数据按 SSE数据类型组织以及对主要子过程进行 SIMD并行化 ,设计了流线计算的 SSE算法 .采用向量类库、嵌入汇编两种 SSE编码方式分别实现 SSE算法 ,并依据处理器的体系结构优化代码 .测试结果表明 :SSE大大加速了 3D曲线网格的流线计算 ,向量类库方式比传统计算提高 5 5 %左右的性能 ,嵌入汇编提高 75 %左右 . 展开更多
关键词 simd扩展 3D曲线网格 流线计算 图形处理 可视化
下载PDF
SIMD自动向量化编译优化概述 被引量:31
2
作者 高伟 赵荣彩 +2 位作者 韩林 庞建民 丁锐 《软件学报》 EI CSCD 北大核心 2015年第6期1265-1284,共20页
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研... SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研究成果,最后展望了SIMD编译优化未来的研究方向. 展开更多
关键词 simd扩展部件 自动向量化 数据级并行 编译优化
下载PDF
向量并行度指导的循环SIMD向量化方法 被引量:5
3
作者 高伟 韩林 +2 位作者 赵荣彩 徐金龙 陈超然 《软件学报》 EI CSCD 北大核心 2017年第4期925-939,共15页
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前,两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loopaware方法是对SLP方法的改进,其思想... SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前,两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loopaware方法是对SLP方法的改进,其思想是:首先,通过循环展开将迭代间并行转换为迭代内并行,使循环体内的同构语句条数足够多;再利用SLP方法进行向量发掘.但当循环展开不合法或者并行度低于向量化因子时,Loop-aware方法无法实现程序向量并行性的发掘.因此提出了向量并行度指导的循环向量化方法,依据迭代间并行度、迭代内并行度和向量化因子构建循环向量化方法选择方案,同时提出了不充分向量化方法发掘并行度低于向量化因子的循环向量并行性,最后,依据向量并行度对生成的向量循环进行展开.经过标准测试集测试,向量并行度指导的循环SIMD向量化方法比Loop-aware方法的识别率提升了107.5%,性能提升了12.1%. 展开更多
关键词 simd扩展部件 向量并行度 Loop-aware 循环展开
下载PDF
一种改进的控制流SIMD向量化方法 被引量:3
4
作者 高伟 李颖颖 +2 位作者 孙回回 李雁冰 赵荣彩 《软件学报》 EI CSCD 北大核心 2017年第8期2046-2063,共18页
SIMD扩展部件是近年来集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等程序的数据级并行.控制依赖给发掘程序中的数据级并行带来了阻碍,当前,无论基于loop-based还是SLP的控制流向量化方法都需要if转换,而没有考虑循环内蕴含... SIMD扩展部件是近年来集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等程序的数据级并行.控制依赖给发掘程序中的数据级并行带来了阻碍,当前,无论基于loop-based还是SLP的控制流向量化方法都需要if转换,而没有考虑循环内蕴含的向量并行度,导致生成的向量代码效率较低.此外,不精确的代价模型指导控制流向量化,同样导致生成的向量代码效率较低.为此,提出了改进的控制流SIMD向量化方法.首先,提出了含有控制依赖的循环分布算法,分离循环的可向量化部分和不可向量化部分,同时考虑分布时数据的局部性;其次,提出了一种直接向量化控制流的方法,该方法考虑了基本块间的向量重用;最后,利用精确的代价模型指导超字选择指令和超字条件分支指令的生成.实验结果表明:与现有的控制流向量化方法相比,改进方法生成的向量代码性能提高了24%. 展开更多
关键词 simd扩展部件 控制依赖 数据依赖 循环分布
下载PDF
出口分支语句的向量化方法 被引量:2
5
作者 朱嘉风 赵荣彩 +1 位作者 侯永生 郝云龙 《计算机工程》 CAS CSCD 北大核心 2011年第9期38-40,共3页
传统的向量化方法和超字并行方法依靠数据依赖关系分析确定程序中的并行性,而依赖关系分析无法处理非结构化控制流语句,现有的编译器对该类语句的向量化能力有限。为此,给出一种面向SIMD扩展体系结构的出口分支语句向量化方法,该方法针... 传统的向量化方法和超字并行方法依靠数据依赖关系分析确定程序中的并行性,而依赖关系分析无法处理非结构化控制流语句,现有的编译器对该类语句的向量化能力有限。为此,给出一种面向SIMD扩展体系结构的出口分支语句向量化方法,该方法针对一个向量因子内的出口分支语句,能够有效地进行自动向量化处理。测试结果表明,该方法既充分发掘了程序数据流中的并行性,又保证了控制流语义的正确性。 展开更多
关键词 simd扩展 向量化 出口分支 向量因子 非结构化
下载PDF
自动向量化:近期进展与展望 被引量:6
6
作者 冯竞舸 贺也平 陶秋铭 《通信学报》 EI CSCD 北大核心 2022年第3期180-195,共16页
随着单指令流多数据流(SIMD)技术的迅速发展,近年来许多面向SIMD扩展部件的自动向量化编译方法被提出,有效缓解了程序员手写向量程序的压力,并发挥了SIMD扩展部件的加速效能。基于此,分析总结了自动向量化领域近10年的研究成果,从保义... 随着单指令流多数据流(SIMD)技术的迅速发展,近年来许多面向SIMD扩展部件的自动向量化编译方法被提出,有效缓解了程序员手写向量程序的压力,并发挥了SIMD扩展部件的加速效能。基于此,分析总结了自动向量化领域近10年的研究成果,从保义分析和变换、向量化分组分析和变换、面向处理器支持特性的分析和变换以及性能评估分析这4个方面分类归纳了自动向量化的关键问题和主要突破,进而对4个方面的发展趋势和研究方向进行了展望。 展开更多
关键词 自动向量化 simd扩展 编译技术 数据级并行 性能优化
下载PDF
基于Intel Xeon Phi的激光等离子体粒子模拟研究 被引量:1
7
作者 姚文科 杜云飞 +1 位作者 吴强 杨灿群 《计算机工程与科学》 CSCD 北大核心 2014年第5期809-813,共5页
激光等离子体粒子模拟广泛用于探索极端物质状态下的科学问题。将一种基于粒子云网格方法的三维等离子体粒子模拟程序LARED-P移植到Intel Xeon Phi协处理器上。在移植的过程中,综合运用了Native和Offload两种编程模式:首先运用Native模... 激光等离子体粒子模拟广泛用于探索极端物质状态下的科学问题。将一种基于粒子云网格方法的三维等离子体粒子模拟程序LARED-P移植到Intel Xeon Phi协处理器上。在移植的过程中,综合运用了Native和Offload两种编程模式:首先运用Native模式对LARED-P程序中热点计算任务进行优化研究,通过采用SIMD扩展指令使该计算任务获得了4.61倍的加速;然后运用Offload模式将程序移植到CPU-Intel Xeon Phi异构系统上,并通过使用异步数据传输和双缓冲技术分别提升了程序性能9.8%和21.8%。 展开更多
关键词 LARED-P INTEL XEON PHI Native模式 Offload模式 512位simd扩展指令 异步数据传输 双缓冲
下载PDF
基于多种同构化变换的SLP向量化方法
8
作者 冯竞舸 贺也平 +1 位作者 陶秋铭 马恒太 《计算机研究与发展》 EI CSCD 北大核心 2023年第12期2907-2927,共21页
超字级并行(superword level parallelism,SLP)是一种面向处理器单指令多数据(single instruction multiple data,SIMD)扩展部件实现程序自动向量化的方法,这种方法被广泛应用于主流编译器中.SLP方法有赖于先找到同构指令序列再对之进... 超字级并行(superword level parallelism,SLP)是一种面向处理器单指令多数据(single instruction multiple data,SIMD)扩展部件实现程序自动向量化的方法,这种方法被广泛应用于主流编译器中.SLP方法有赖于先找到同构指令序列再对之进行自动向量化.将非同构指令序列等价转为同构指令序列以扩展SLP方法的适用范围是当前研究趋势之一.提出SLP的一种扩展方法──SLP-M向量化方法,引入二元表达式替换同构转换方式,基于条件判断和收益计算的选择,利用多种指令序列同构化转换,将满足特定条件的非同构指令序列转换为同构指令序列,再进一步实施自动向量化,从而提升SLP的适用范围和收益.在LLVM中实现了SLP-M方法,并利用SPEC CPU 2017等标准测试集进行了测试评估.实验结果表明,SLPM方法相比于已有方法在核心函数测试中性能提升了21.8%,在基准测试程序整体测试中性能提升了4.1%. 展开更多
关键词 simd扩展 自动向量化 超字级并行 非同构指令序列 同构化变换
下载PDF
一种高效的二维提升小波变换方法
9
作者 于雷 李长军 +1 位作者 李云松 吴成柯 《电视技术》 北大核心 2007年第B08期4-6,12,共4页
基于对通用处理器L1 Cache命中机制和二维提升小波变换结构的分析,提出一种在Intel通用处理器平台上,采用Streaming SIMD Extensions 2(SSE2)实现高效快速二维提升小波变换的方法。此法对原始小波系数存储层次进行调整,充分利用SSE2的S... 基于对通用处理器L1 Cache命中机制和二维提升小波变换结构的分析,提出一种在Intel通用处理器平台上,采用Streaming SIMD Extensions 2(SSE2)实现高效快速二维提升小波变换的方法。此法对原始小波系数存储层次进行调整,充分利用SSE2的SIMD并行处理能力,尽量保持列变换时数据读取与Cache命中方向一致,有效缩短了二维提升小波变换的执行时间。 展开更多
关键词 二维提升小波变换 流式simd扩展2 提升结构 Cache命中
下载PDF
GCC非满载SLP向量化
10
作者 刘浩浩 韩林 崔平非 《计算机系统应用》 2022年第9期265-271,共7页
随着向量长度的不断增长, SIMD扩展部件得以处理更为庞大的数据级并行,但程序的并行阈值也随之提高.对于现有的自动向量化编译器,如果在分析阶段不能从串行代码中发掘出足够的数据级并行以完全填充向量寄存器,则不会进入相应的向量代码... 随着向量长度的不断增长, SIMD扩展部件得以处理更为庞大的数据级并行,但程序的并行阈值也随之提高.对于现有的自动向量化编译器,如果在分析阶段不能从串行代码中发掘出足够的数据级并行以完全填充向量寄存器,则不会进入相应的向量代码变换阶段,从而无法向量化.较长的向量长度使得某些并行性不足的程序失去了向量化的机会,造成了性能下降.为了更加充分的利用SIMD部件,介绍了一种面向基本块的非满载向量化方法ISLP.基于开源GCC编译器,从并行性检测、代码生成和代价模型3个方面详细阐述了ISLP的设计与实现.在标准测试集上的实验结果表明,该方法可以有效地对超字级并行性不足的程序进行向量化处理,提高程序执行效率.选取的测试用例在向量化后的平均加速比达到1.14,性能较常规SLP方法提升11.8%. 展开更多
关键词 GCC simd扩展 非满载向量化 超字级并行性 代码生成 SLP
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部