期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
10
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
利用流SIMD扩展加速3D曲线网格的流线计算
被引量:
4
1
作者
张文
李晓梅
《计算机学报》
EI
CSCD
北大核心
2001年第8期785-790,共6页
流线是一种基本的流场可视化技术 ,计算流线要耗费大量时间 .Intel○R处理器 (Pentium III,Pentium4)提供流 SIMD扩展 (SSE) ,支持指令级 SIMD操作 .3D曲线网格上的流线计算包含速度插值、数值积分、点定位等主要子过程 ,具有很高的内在...
流线是一种基本的流场可视化技术 ,计算流线要耗费大量时间 .Intel○R处理器 (Pentium III,Pentium4)提供流 SIMD扩展 (SSE) ,支持指令级 SIMD操作 .3D曲线网格上的流线计算包含速度插值、数值积分、点定位等主要子过程 ,具有很高的内在 SIMD并行性 .通过将数据按 SSE数据类型组织以及对主要子过程进行 SIMD并行化 ,设计了流线计算的 SSE算法 .采用向量类库、嵌入汇编两种 SSE编码方式分别实现 SSE算法 ,并依据处理器的体系结构优化代码 .测试结果表明 :SSE大大加速了 3D曲线网格的流线计算 ,向量类库方式比传统计算提高 5 5 %左右的性能 ,嵌入汇编提高 75 %左右 .
展开更多
关键词
流
simd扩展
3D曲线网格
流线计算
图形处理
可视化
下载PDF
职称材料
SIMD自动向量化编译优化概述
被引量:
31
2
作者
高伟
赵荣彩
+2 位作者
韩林
庞建民
丁锐
《软件学报》
EI
CSCD
北大核心
2015年第6期1265-1284,共20页
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研...
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研究成果,最后展望了SIMD编译优化未来的研究方向.
展开更多
关键词
simd扩展
部件
自动向量化
数据级并行
编译优化
下载PDF
职称材料
向量并行度指导的循环SIMD向量化方法
被引量:
5
3
作者
高伟
韩林
+2 位作者
赵荣彩
徐金龙
陈超然
《软件学报》
EI
CSCD
北大核心
2017年第4期925-939,共15页
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前,两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loopaware方法是对SLP方法的改进,其思想...
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前,两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loopaware方法是对SLP方法的改进,其思想是:首先,通过循环展开将迭代间并行转换为迭代内并行,使循环体内的同构语句条数足够多;再利用SLP方法进行向量发掘.但当循环展开不合法或者并行度低于向量化因子时,Loop-aware方法无法实现程序向量并行性的发掘.因此提出了向量并行度指导的循环向量化方法,依据迭代间并行度、迭代内并行度和向量化因子构建循环向量化方法选择方案,同时提出了不充分向量化方法发掘并行度低于向量化因子的循环向量并行性,最后,依据向量并行度对生成的向量循环进行展开.经过标准测试集测试,向量并行度指导的循环SIMD向量化方法比Loop-aware方法的识别率提升了107.5%,性能提升了12.1%.
展开更多
关键词
simd扩展
部件
向量并行度
Loop-aware
循环展开
下载PDF
职称材料
一种改进的控制流SIMD向量化方法
被引量:
3
4
作者
高伟
李颖颖
+2 位作者
孙回回
李雁冰
赵荣彩
《软件学报》
EI
CSCD
北大核心
2017年第8期2046-2063,共18页
SIMD扩展部件是近年来集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等程序的数据级并行.控制依赖给发掘程序中的数据级并行带来了阻碍,当前,无论基于loop-based还是SLP的控制流向量化方法都需要if转换,而没有考虑循环内蕴含...
SIMD扩展部件是近年来集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等程序的数据级并行.控制依赖给发掘程序中的数据级并行带来了阻碍,当前,无论基于loop-based还是SLP的控制流向量化方法都需要if转换,而没有考虑循环内蕴含的向量并行度,导致生成的向量代码效率较低.此外,不精确的代价模型指导控制流向量化,同样导致生成的向量代码效率较低.为此,提出了改进的控制流SIMD向量化方法.首先,提出了含有控制依赖的循环分布算法,分离循环的可向量化部分和不可向量化部分,同时考虑分布时数据的局部性;其次,提出了一种直接向量化控制流的方法,该方法考虑了基本块间的向量重用;最后,利用精确的代价模型指导超字选择指令和超字条件分支指令的生成.实验结果表明:与现有的控制流向量化方法相比,改进方法生成的向量代码性能提高了24%.
展开更多
关键词
simd扩展
部件
控制依赖
数据依赖
循环分布
下载PDF
职称材料
出口分支语句的向量化方法
被引量:
2
5
作者
朱嘉风
赵荣彩
+1 位作者
侯永生
郝云龙
《计算机工程》
CAS
CSCD
北大核心
2011年第9期38-40,共3页
传统的向量化方法和超字并行方法依靠数据依赖关系分析确定程序中的并行性,而依赖关系分析无法处理非结构化控制流语句,现有的编译器对该类语句的向量化能力有限。为此,给出一种面向SIMD扩展体系结构的出口分支语句向量化方法,该方法针...
传统的向量化方法和超字并行方法依靠数据依赖关系分析确定程序中的并行性,而依赖关系分析无法处理非结构化控制流语句,现有的编译器对该类语句的向量化能力有限。为此,给出一种面向SIMD扩展体系结构的出口分支语句向量化方法,该方法针对一个向量因子内的出口分支语句,能够有效地进行自动向量化处理。测试结果表明,该方法既充分发掘了程序数据流中的并行性,又保证了控制流语义的正确性。
展开更多
关键词
simd扩展
向量化
出口分支
向量因子
非结构化
下载PDF
职称材料
自动向量化:近期进展与展望
被引量:
6
6
作者
冯竞舸
贺也平
陶秋铭
《通信学报》
EI
CSCD
北大核心
2022年第3期180-195,共16页
随着单指令流多数据流(SIMD)技术的迅速发展,近年来许多面向SIMD扩展部件的自动向量化编译方法被提出,有效缓解了程序员手写向量程序的压力,并发挥了SIMD扩展部件的加速效能。基于此,分析总结了自动向量化领域近10年的研究成果,从保义...
随着单指令流多数据流(SIMD)技术的迅速发展,近年来许多面向SIMD扩展部件的自动向量化编译方法被提出,有效缓解了程序员手写向量程序的压力,并发挥了SIMD扩展部件的加速效能。基于此,分析总结了自动向量化领域近10年的研究成果,从保义分析和变换、向量化分组分析和变换、面向处理器支持特性的分析和变换以及性能评估分析这4个方面分类归纳了自动向量化的关键问题和主要突破,进而对4个方面的发展趋势和研究方向进行了展望。
展开更多
关键词
自动向量化
simd扩展
编译技术
数据级并行
性能优化
下载PDF
职称材料
基于Intel Xeon Phi的激光等离子体粒子模拟研究
被引量:
1
7
作者
姚文科
杜云飞
+1 位作者
吴强
杨灿群
《计算机工程与科学》
CSCD
北大核心
2014年第5期809-813,共5页
激光等离子体粒子模拟广泛用于探索极端物质状态下的科学问题。将一种基于粒子云网格方法的三维等离子体粒子模拟程序LARED-P移植到Intel Xeon Phi协处理器上。在移植的过程中,综合运用了Native和Offload两种编程模式:首先运用Native模...
激光等离子体粒子模拟广泛用于探索极端物质状态下的科学问题。将一种基于粒子云网格方法的三维等离子体粒子模拟程序LARED-P移植到Intel Xeon Phi协处理器上。在移植的过程中,综合运用了Native和Offload两种编程模式:首先运用Native模式对LARED-P程序中热点计算任务进行优化研究,通过采用SIMD扩展指令使该计算任务获得了4.61倍的加速;然后运用Offload模式将程序移植到CPU-Intel Xeon Phi异构系统上,并通过使用异步数据传输和双缓冲技术分别提升了程序性能9.8%和21.8%。
展开更多
关键词
LARED-P
INTEL
XEON
PHI
Native模式
Offload模式
512位
simd扩展
指令
异步数据传输
双缓冲
下载PDF
职称材料
基于多种同构化变换的SLP向量化方法
8
作者
冯竞舸
贺也平
+1 位作者
陶秋铭
马恒太
《计算机研究与发展》
EI
CSCD
北大核心
2023年第12期2907-2927,共21页
超字级并行(superword level parallelism,SLP)是一种面向处理器单指令多数据(single instruction multiple data,SIMD)扩展部件实现程序自动向量化的方法,这种方法被广泛应用于主流编译器中.SLP方法有赖于先找到同构指令序列再对之进...
超字级并行(superword level parallelism,SLP)是一种面向处理器单指令多数据(single instruction multiple data,SIMD)扩展部件实现程序自动向量化的方法,这种方法被广泛应用于主流编译器中.SLP方法有赖于先找到同构指令序列再对之进行自动向量化.将非同构指令序列等价转为同构指令序列以扩展SLP方法的适用范围是当前研究趋势之一.提出SLP的一种扩展方法──SLP-M向量化方法,引入二元表达式替换同构转换方式,基于条件判断和收益计算的选择,利用多种指令序列同构化转换,将满足特定条件的非同构指令序列转换为同构指令序列,再进一步实施自动向量化,从而提升SLP的适用范围和收益.在LLVM中实现了SLP-M方法,并利用SPEC CPU 2017等标准测试集进行了测试评估.实验结果表明,SLPM方法相比于已有方法在核心函数测试中性能提升了21.8%,在基准测试程序整体测试中性能提升了4.1%.
展开更多
关键词
simd扩展
自动向量化
超字级并行
非同构指令序列
同构化变换
下载PDF
职称材料
一种高效的二维提升小波变换方法
9
作者
于雷
李长军
+1 位作者
李云松
吴成柯
《电视技术》
北大核心
2007年第B08期4-6,12,共4页
基于对通用处理器L1 Cache命中机制和二维提升小波变换结构的分析,提出一种在Intel通用处理器平台上,采用Streaming SIMD Extensions 2(SSE2)实现高效快速二维提升小波变换的方法。此法对原始小波系数存储层次进行调整,充分利用SSE2的S...
基于对通用处理器L1 Cache命中机制和二维提升小波变换结构的分析,提出一种在Intel通用处理器平台上,采用Streaming SIMD Extensions 2(SSE2)实现高效快速二维提升小波变换的方法。此法对原始小波系数存储层次进行调整,充分利用SSE2的SIMD并行处理能力,尽量保持列变换时数据读取与Cache命中方向一致,有效缩短了二维提升小波变换的执行时间。
展开更多
关键词
二维提升小波变换
流式
simd扩展
2
提升结构
Cache命中
下载PDF
职称材料
GCC非满载SLP向量化
10
作者
刘浩浩
韩林
崔平非
《计算机系统应用》
2022年第9期265-271,共7页
随着向量长度的不断增长, SIMD扩展部件得以处理更为庞大的数据级并行,但程序的并行阈值也随之提高.对于现有的自动向量化编译器,如果在分析阶段不能从串行代码中发掘出足够的数据级并行以完全填充向量寄存器,则不会进入相应的向量代码...
随着向量长度的不断增长, SIMD扩展部件得以处理更为庞大的数据级并行,但程序的并行阈值也随之提高.对于现有的自动向量化编译器,如果在分析阶段不能从串行代码中发掘出足够的数据级并行以完全填充向量寄存器,则不会进入相应的向量代码变换阶段,从而无法向量化.较长的向量长度使得某些并行性不足的程序失去了向量化的机会,造成了性能下降.为了更加充分的利用SIMD部件,介绍了一种面向基本块的非满载向量化方法ISLP.基于开源GCC编译器,从并行性检测、代码生成和代价模型3个方面详细阐述了ISLP的设计与实现.在标准测试集上的实验结果表明,该方法可以有效地对超字级并行性不足的程序进行向量化处理,提高程序执行效率.选取的测试用例在向量化后的平均加速比达到1.14,性能较常规SLP方法提升11.8%.
展开更多
关键词
GCC
simd扩展
非满载向量化
超字级并行性
代码生成
SLP
下载PDF
职称材料
题名
利用流SIMD扩展加速3D曲线网格的流线计算
被引量:
4
1
作者
张文
李晓梅
机构
国防科学技术大学计算机学院
装备指挥技术学院
出处
《计算机学报》
EI
CSCD
北大核心
2001年第8期785-790,共6页
文摘
流线是一种基本的流场可视化技术 ,计算流线要耗费大量时间 .Intel○R处理器 (Pentium III,Pentium4)提供流 SIMD扩展 (SSE) ,支持指令级 SIMD操作 .3D曲线网格上的流线计算包含速度插值、数值积分、点定位等主要子过程 ,具有很高的内在 SIMD并行性 .通过将数据按 SSE数据类型组织以及对主要子过程进行 SIMD并行化 ,设计了流线计算的 SSE算法 .采用向量类库、嵌入汇编两种 SSE编码方式分别实现 SSE算法 ,并依据处理器的体系结构优化代码 .测试结果表明 :SSE大大加速了 3D曲线网格的流线计算 ,向量类库方式比传统计算提高 5 5 %左右的性能 ,嵌入汇编提高 75 %左右 .
关键词
流
simd扩展
3D曲线网格
流线计算
图形处理
可视化
Keywords
Stream flow
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
SIMD自动向量化编译优化概述
被引量:
31
2
作者
高伟
赵荣彩
韩林
庞建民
丁锐
机构
数学工程与先进计算国家重点实验室(解放军信息工程大学)
出处
《软件学报》
EI
CSCD
北大核心
2015年第6期1265-1284,共20页
基金
"核高基"国家科技重大专项(2009ZX01036-001-001-2)
文摘
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研究成果,最后展望了SIMD编译优化未来的研究方向.
关键词
simd扩展
部件
自动向量化
数据级并行
编译优化
Keywords
simd
extension
auto-veetorization
data level parallelism
compiling optimization
分类号
TP312 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
向量并行度指导的循环SIMD向量化方法
被引量:
5
3
作者
高伟
韩林
赵荣彩
徐金龙
陈超然
机构
数学工程与先进计算国家重点实验室(解放军信息工程大学)
防空兵指挥学院
出处
《软件学报》
EI
CSCD
北大核心
2017年第4期925-939,共15页
基金
"核高基"国家科技重大专项(2009ZX01036)~~
文摘
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前,两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loopaware方法是对SLP方法的改进,其思想是:首先,通过循环展开将迭代间并行转换为迭代内并行,使循环体内的同构语句条数足够多;再利用SLP方法进行向量发掘.但当循环展开不合法或者并行度低于向量化因子时,Loop-aware方法无法实现程序向量并行性的发掘.因此提出了向量并行度指导的循环向量化方法,依据迭代间并行度、迭代内并行度和向量化因子构建循环向量化方法选择方案,同时提出了不充分向量化方法发掘并行度低于向量化因子的循环向量并行性,最后,依据向量并行度对生成的向量循环进行展开.经过标准测试集测试,向量并行度指导的循环SIMD向量化方法比Loop-aware方法的识别率提升了107.5%,性能提升了12.1%.
关键词
simd扩展
部件
向量并行度
Loop-aware
循环展开
Keywords
simd
extension
degree of
simd
parallelism
Loop-aware
loop unrolling
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
一种改进的控制流SIMD向量化方法
被引量:
3
4
作者
高伟
李颖颖
孙回回
李雁冰
赵荣彩
机构
数学工程与先进计算国家重点实验室(解放军信息工程大学)
出处
《软件学报》
EI
CSCD
北大核心
2017年第8期2046-2063,共18页
基金
"核高基"国家科技重大专项(2009ZX01036)~~
文摘
SIMD扩展部件是近年来集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等程序的数据级并行.控制依赖给发掘程序中的数据级并行带来了阻碍,当前,无论基于loop-based还是SLP的控制流向量化方法都需要if转换,而没有考虑循环内蕴含的向量并行度,导致生成的向量代码效率较低.此外,不精确的代价模型指导控制流向量化,同样导致生成的向量代码效率较低.为此,提出了改进的控制流SIMD向量化方法.首先,提出了含有控制依赖的循环分布算法,分离循环的可向量化部分和不可向量化部分,同时考虑分布时数据的局部性;其次,提出了一种直接向量化控制流的方法,该方法考虑了基本块间的向量重用;最后,利用精确的代价模型指导超字选择指令和超字条件分支指令的生成.实验结果表明:与现有的控制流向量化方法相比,改进方法生成的向量代码性能提高了24%.
关键词
simd扩展
部件
控制依赖
数据依赖
循环分布
Keywords
simd
extension
control dependence
data dependence
loop distribution
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
出口分支语句的向量化方法
被引量:
2
5
作者
朱嘉风
赵荣彩
侯永生
郝云龙
机构
解放军信息工程大学信息工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第9期38-40,共3页
基金
"核高基"重大专项(2009ZX01036-001-001-2)
文摘
传统的向量化方法和超字并行方法依靠数据依赖关系分析确定程序中的并行性,而依赖关系分析无法处理非结构化控制流语句,现有的编译器对该类语句的向量化能力有限。为此,给出一种面向SIMD扩展体系结构的出口分支语句向量化方法,该方法针对一个向量因子内的出口分支语句,能够有效地进行自动向量化处理。测试结果表明,该方法既充分发掘了程序数据流中的并行性,又保证了控制流语义的正确性。
关键词
simd扩展
向量化
出口分支
向量因子
非结构化
Keywords
simd
extension
vectorization
export branch
vector factor
non-structured
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
自动向量化:近期进展与展望
被引量:
6
6
作者
冯竞舸
贺也平
陶秋铭
机构
中国科学院软件研究所基础软件国家工程研究中心
中国科学院大学研究生院
中国科学院软件研究所计算机科学国家重点实验室
出处
《通信学报》
EI
CSCD
北大核心
2022年第3期180-195,共16页
基金
中国科学院战略性先导科技专项基金资助项目(No.XDA-Y01-01,No.XDC02010600)。
文摘
随着单指令流多数据流(SIMD)技术的迅速发展,近年来许多面向SIMD扩展部件的自动向量化编译方法被提出,有效缓解了程序员手写向量程序的压力,并发挥了SIMD扩展部件的加速效能。基于此,分析总结了自动向量化领域近10年的研究成果,从保义分析和变换、向量化分组分析和变换、面向处理器支持特性的分析和变换以及性能评估分析这4个方面分类归纳了自动向量化的关键问题和主要突破,进而对4个方面的发展趋势和研究方向进行了展望。
关键词
自动向量化
simd扩展
编译技术
数据级并行
性能优化
Keywords
auto-vectorization
simd
extension
compiling technology
data level parallelism
performance optimization
分类号
TP312 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于Intel Xeon Phi的激光等离子体粒子模拟研究
被引量:
1
7
作者
姚文科
杜云飞
吴强
杨灿群
机构
国防科学技术大学并行与分布处理国家重点实验室
国防科学技术大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2014年第5期809-813,共5页
基金
国家863计划资助项目(2012AA010903)
国家自然科学基金资助项目(61170049)
文摘
激光等离子体粒子模拟广泛用于探索极端物质状态下的科学问题。将一种基于粒子云网格方法的三维等离子体粒子模拟程序LARED-P移植到Intel Xeon Phi协处理器上。在移植的过程中,综合运用了Native和Offload两种编程模式:首先运用Native模式对LARED-P程序中热点计算任务进行优化研究,通过采用SIMD扩展指令使该计算任务获得了4.61倍的加速;然后运用Offload模式将程序移植到CPU-Intel Xeon Phi异构系统上,并通过使用异步数据传输和双缓冲技术分别提升了程序性能9.8%和21.8%。
关键词
LARED-P
INTEL
XEON
PHI
Native模式
Offload模式
512位
simd扩展
指令
异步数据传输
双缓冲
Keywords
LARED-P
Intel Xeon Phi
native mode
offload mode
512bit
simd
extension
asyn-chronous data transferring
double buffer
分类号
TP311.56 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于多种同构化变换的SLP向量化方法
8
作者
冯竞舸
贺也平
陶秋铭
马恒太
机构
基础软件国家工程研究中心(中国科学院软件研究所)
计算机科学国家重点实验室(中国科学院软件研究所)
出处
《计算机研究与发展》
EI
CSCD
北大核心
2023年第12期2907-2927,共21页
基金
中国科学院战略性先导科技专项(XDA-Y01-01,XDC02010600)。
文摘
超字级并行(superword level parallelism,SLP)是一种面向处理器单指令多数据(single instruction multiple data,SIMD)扩展部件实现程序自动向量化的方法,这种方法被广泛应用于主流编译器中.SLP方法有赖于先找到同构指令序列再对之进行自动向量化.将非同构指令序列等价转为同构指令序列以扩展SLP方法的适用范围是当前研究趋势之一.提出SLP的一种扩展方法──SLP-M向量化方法,引入二元表达式替换同构转换方式,基于条件判断和收益计算的选择,利用多种指令序列同构化转换,将满足特定条件的非同构指令序列转换为同构指令序列,再进一步实施自动向量化,从而提升SLP的适用范围和收益.在LLVM中实现了SLP-M方法,并利用SPEC CPU 2017等标准测试集进行了测试评估.实验结果表明,SLPM方法相比于已有方法在核心函数测试中性能提升了21.8%,在基准测试程序整体测试中性能提升了4.1%.
关键词
simd扩展
自动向量化
超字级并行
非同构指令序列
同构化变换
Keywords
simd
extension
auto-vectorization
superword level parallelism(SLP)
sequence of non-isomorphism instructions
isomorphic transformation
分类号
TP312 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
一种高效的二维提升小波变换方法
9
作者
于雷
李长军
李云松
吴成柯
机构
西安电子科技大学 ISN 国家重点实验室
出处
《电视技术》
北大核心
2007年第B08期4-6,12,共4页
基金
国家自然科研基金项目(60532060
60507012)
文摘
基于对通用处理器L1 Cache命中机制和二维提升小波变换结构的分析,提出一种在Intel通用处理器平台上,采用Streaming SIMD Extensions 2(SSE2)实现高效快速二维提升小波变换的方法。此法对原始小波系数存储层次进行调整,充分利用SSE2的SIMD并行处理能力,尽量保持列变换时数据读取与Cache命中方向一致,有效缩短了二维提升小波变换的执行时间。
关键词
二维提升小波变换
流式
simd扩展
2
提升结构
Cache命中
Keywords
2-D wavelet lifting transform
SSE2
lifting scheme
cache hit
分类号
TN911.73 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
GCC非满载SLP向量化
10
作者
刘浩浩
韩林
崔平非
机构
中原工学院前沿信息技术研究院
出处
《计算机系统应用》
2022年第9期265-271,共7页
文摘
随着向量长度的不断增长, SIMD扩展部件得以处理更为庞大的数据级并行,但程序的并行阈值也随之提高.对于现有的自动向量化编译器,如果在分析阶段不能从串行代码中发掘出足够的数据级并行以完全填充向量寄存器,则不会进入相应的向量代码变换阶段,从而无法向量化.较长的向量长度使得某些并行性不足的程序失去了向量化的机会,造成了性能下降.为了更加充分的利用SIMD部件,介绍了一种面向基本块的非满载向量化方法ISLP.基于开源GCC编译器,从并行性检测、代码生成和代价模型3个方面详细阐述了ISLP的设计与实现.在标准测试集上的实验结果表明,该方法可以有效地对超字级并行性不足的程序进行向量化处理,提高程序执行效率.选取的测试用例在向量化后的平均加速比达到1.14,性能较常规SLP方法提升11.8%.
关键词
GCC
simd扩展
非满载向量化
超字级并行性
代码生成
SLP
Keywords
GNU compiler collection(GCC)
simd
extension
insufficient vectorization
superword level parallelism
code generation
SLP
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
利用流SIMD扩展加速3D曲线网格的流线计算
张文
李晓梅
《计算机学报》
EI
CSCD
北大核心
2001
4
下载PDF
职称材料
2
SIMD自动向量化编译优化概述
高伟
赵荣彩
韩林
庞建民
丁锐
《软件学报》
EI
CSCD
北大核心
2015
31
下载PDF
职称材料
3
向量并行度指导的循环SIMD向量化方法
高伟
韩林
赵荣彩
徐金龙
陈超然
《软件学报》
EI
CSCD
北大核心
2017
5
下载PDF
职称材料
4
一种改进的控制流SIMD向量化方法
高伟
李颖颖
孙回回
李雁冰
赵荣彩
《软件学报》
EI
CSCD
北大核心
2017
3
下载PDF
职称材料
5
出口分支语句的向量化方法
朱嘉风
赵荣彩
侯永生
郝云龙
《计算机工程》
CAS
CSCD
北大核心
2011
2
下载PDF
职称材料
6
自动向量化:近期进展与展望
冯竞舸
贺也平
陶秋铭
《通信学报》
EI
CSCD
北大核心
2022
6
下载PDF
职称材料
7
基于Intel Xeon Phi的激光等离子体粒子模拟研究
姚文科
杜云飞
吴强
杨灿群
《计算机工程与科学》
CSCD
北大核心
2014
1
下载PDF
职称材料
8
基于多种同构化变换的SLP向量化方法
冯竞舸
贺也平
陶秋铭
马恒太
《计算机研究与发展》
EI
CSCD
北大核心
2023
0
下载PDF
职称材料
9
一种高效的二维提升小波变换方法
于雷
李长军
李云松
吴成柯
《电视技术》
北大核心
2007
0
下载PDF
职称材料
10
GCC非满载SLP向量化
刘浩浩
韩林
崔平非
《计算机系统应用》
2022
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部