期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
477
篇文章
<
1
2
…
24
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向SIMD指令集的SM4算法比特切片优化
1
作者
王闯
丁滟
+1 位作者
黄辰林
宋连涛
《计算机研究与发展》
EI
CSCD
北大核心
2024年第8期2097-2109,共13页
SM4算法是中国自主设计的商用分组密码算法,其加解密计算性能成为影响信息系统数据机密性保障的重要因素之一.现有SM4算法优化主要面向硬件设计和软件查表等方向展开研究,分别存在依赖特定硬件环境、效率低下且易遭受侧信道攻击等问题....
SM4算法是中国自主设计的商用分组密码算法,其加解密计算性能成为影响信息系统数据机密性保障的重要因素之一.现有SM4算法优化主要面向硬件设计和软件查表等方向展开研究,分别存在依赖特定硬件环境、效率低下且易遭受侧信道攻击等问题.比特切片技术通过对输入数据重组实现了并行化高效分组密码处理,可以抵御针对缓存的侧信道攻击.然而现有切片分组密码研究对硬件平台相关性强、处理器架构支持单一,并且并行化处理流水启动较慢,面向小规模数据的加解密操作难以充分发挥单指令多数据(single instruction multiple data,SIMD)等先进指令集的优势.针对上述问题,首先提出了一种跨平台的通用切片分组密码算法模型,支持面向不同的处理器指令字长提供一致化的通用数据切片方法.在此基础上,提出了一种面向SIMD指令集的细粒度切片并行处理SM4优化算法,通过细粒度明文切片重组与线性处理优化有效缩短算法启动时间.实验结果表明,相比通用SM4算法,优化的SM4比特切片算法加密速率最高可达438.0 MBps,加密每字节所需的时钟周期最快高达7.0 CPB(cycle/B),加密性能平均提升80.4%~430.3%.
展开更多
关键词
SM4算法
性能优化
比特切片
侧信道攻击
simd
指令集
下载PDF
职称材料
基于QEMU的SIMD指令替换浮点指令框架
2
作者
刘登峰
李东亚
+2 位作者
柴志雷
周浩杰
丁海峰
《湖南大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2024年第8期70-77,共8页
现在,几乎每个处理器架构都已经加入了对SIMD(single instruction multiple data)指令的支持,SIMD指令能同时对一组数据执行相同的操作,通过数据并行来提高处理器的处理性能.但是大部分动态二进制翻译器忽略了本地SIMD指令的利用,而是...
现在,几乎每个处理器架构都已经加入了对SIMD(single instruction multiple data)指令的支持,SIMD指令能同时对一组数据执行相同的操作,通过数据并行来提高处理器的处理性能.但是大部分动态二进制翻译器忽略了本地SIMD指令的利用,而是以软件语言实现来模拟浮点计算.本文提出了一种基于QEMU翻译系统的FP-QEMU框架,FP-QEMU框架采用SIMD指令来优化替换浮点计算指令,并在X86和ARM平台上完成了完整的浮点实现.该框架可以识别动态二进制翻译系统中的浮点计算优化机会并利用SIMD指令来提升系统翻译的性能.采用SPEC 2006作为测试基准,实验表明相比QEMU,FP-QEMU跨平台的ARM应用在X86计算机上运行的最高加速比可达51.5%,平均加速比达到37.42%.
展开更多
关键词
simd
QEMU
动态二进制翻译
浮点计算
下载PDF
职称材料
SIMD指令及其在C++编程语言中的应用
被引量:
1
3
作者
张小丹
杨严硕
+2 位作者
胡婉靖
王亚峰
肖春杨
《科技视界》
2024年第8期15-17,共3页
单指令多数据流指令是一种非常有效的单线程加速方法,通过使用SIMD指令集,计算机可以同时对多个数据执行相同的运算,从而实现程序加速。针对SIMD的具体应用,文章结合目前常用的C++语言进行加速过程讲解与代码编程,介绍了SIMD相关基本概...
单指令多数据流指令是一种非常有效的单线程加速方法,通过使用SIMD指令集,计算机可以同时对多个数据执行相同的运算,从而实现程序加速。针对SIMD的具体应用,文章结合目前常用的C++语言进行加速过程讲解与代码编程,介绍了SIMD相关基本概念和指令集,然后基于C++编程语言测试SIMD的加速性能。实验结果表明,SIMD在单线程情况下可以显著加快代码运行速度。
展开更多
关键词
simd
指令集
程序加速
单线程加速
程序优化
下载PDF
职称材料
基于SIMD的AVS3并行率失真优化量化算法
4
作者
唐毅欣
黄晓峰
+3 位作者
唐然
周洋
崔燕
殷海兵
《电信科学》
北大核心
2024年第6期114-126,共13页
针对第三代音频视频标准(the third generation audio video coding standard,AVS3)中的率失真优化量化(rate-distortion optimization quantization,RDOQ)过程的编码效率问题,提出一种基于单指令多数据(single instruction multiple da...
针对第三代音频视频标准(the third generation audio video coding standard,AVS3)中的率失真优化量化(rate-distortion optimization quantization,RDOQ)过程的编码效率问题,提出一种基于单指令多数据(single instruction multiple data,SIMD)的并行RDOQ算法。首先,在最优系数决策(optimal coefficient decision,OCD)阶段,通过优化,仅保留扫描线内的依赖关系。然后,在最后一个非零位置决策(last non-zero position decision,LNPD)阶段,基于分治策略,通过将Zig-Zag扫描线分解成多个独立扫描线,实现每条扫描线上最优系数位置的并行计算。最后,采用SIMD指令进行并行加速,以提高整个率失真优化量化的计算效率。实验结果表明,该算法在AI配置下,可以降低29.46%的编码时间,而BD-Rate仅损失0.25%。
展开更多
关键词
AVS3
率失真优化量化
单指令多数据
并行加速
下载PDF
职称材料
基于申威SIMD指令的H.264编码优化
被引量:
1
5
作者
黄朴
刘世巍
+1 位作者
张昊
王聪
《现代电子技术》
北大核心
2024年第6期49-54,共6页
国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIM...
国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIMD指令系统,提出一种基于申威架构的SIMD指令集H.264编码优化方法。结合申威处理器的并行结构特点,利用申威适配的Perf、Top指令等系统性能分析工具,采集两种主流视频分辨率下与编码性能强相关的高频热点函数,详细分析其程序并行化可行性,采用手工嵌入申威SIMD和访存扩展等汇编指令进行细粒度优化。实验结果表明,该方法在申威架构下的H.264平均编码性能提升了约30%。相应工作成果已推送到申威社区,增强了基于申威处理器的国产计算机在桌面多媒体应用领域的工作体验。
展开更多
关键词
单指令流多数据流
H.264标准
申威处理器
热点函数
程序并行化
细粒度
下载PDF
职称材料
基于SIMD的VSIPL三角函数向量化技术研究
6
作者
闫妍
李典
+1 位作者
李康
周磊
《航空计算技术》
2024年第5期105-109,共5页
为提高嵌入式信号处理软件中三角函数的计算效率,并满足软件的可移植性需求,发展一种基于单指令多数据(SIMD)技术的三角函数向量化技术,并基于向量、信号与图像处理函数库(VSIPL)标准对向量化后的三角函数进行接口实现;同时,在ARM平台上...
为提高嵌入式信号处理软件中三角函数的计算效率,并满足软件的可移植性需求,发展一种基于单指令多数据(SIMD)技术的三角函数向量化技术,并基于向量、信号与图像处理函数库(VSIPL)标准对向量化后的三角函数进行接口实现;同时,在ARM平台上对VSIPL向量三角函数接口进行性能测试。测试结果显示该方法相比循环遍历的方式具有2倍以上的加速效果,表明方法能够显著提高三角函数的计算效率,在高性能、可移植嵌入式信号处理软件领域具有一定的工程价值。
展开更多
关键词
嵌入式信号处理
向量化技术
向量三角函数
单指令多数据
向量、信号与图像处理函数库
下载PDF
职称材料
利用SIMD向量化的数据流软错误检测算法
被引量:
1
7
作者
张磊
彭飞
+1 位作者
曹子宁
庄毅
《小型微型计算机系统》
CSCD
北大核心
2023年第5期1114-1120,共7页
由于现代处理器不断缩减芯片上元件尺寸、速度不断提高,会导致严重的可靠性问题.针对现有基于冗余的数据流软检错算法效率低下问题,本文提出一种基于SIMD向量化的数据流软错误检测算法VBSED,利用单指令多数据流并行性来提高软件冗余算...
由于现代处理器不断缩减芯片上元件尺寸、速度不断提高,会导致严重的可靠性问题.针对现有基于冗余的数据流软检错算法效率低下问题,本文提出一种基于SIMD向量化的数据流软错误检测算法VBSED,利用单指令多数据流并行性来提高软件冗余算法的效率,将原代码与冗余代码转换为高效率的SIMD代码,生成具有检错能力的加固程序.对比实验结果表明本文提出的算法可降低加固代码的时空开销,该算法还具有现有算法一般不能检测缓存等部件软错误的优点,并通过故障注入实验验证本文算法在寄存器、缓存和主存部件具有更高的错误检错率.
展开更多
关键词
simd
向量化
数据流
错误检测
故障注入
下载PDF
职称材料
基于SIMD指令集的SM2数字签名算法快速实现
被引量:
2
8
作者
韦薇
罗敏
+2 位作者
白野
彭聪
何德彪
《密码学报》
CSCD
2023年第4期720-736,共17页
SM2数字签名算法是国家密码管理局发布的首个数字签名标准,已广泛应用于网上银行、电子政务等领域.本文提出一种基于高级矢量扩展指令集(advanced vector extension 512,AVX512)的SM2数字签名算法实现方案,有效提升了SM2数字签名算法的...
SM2数字签名算法是国家密码管理局发布的首个数字签名标准,已广泛应用于网上银行、电子政务等领域.本文提出一种基于高级矢量扩展指令集(advanced vector extension 512,AVX512)的SM2数字签名算法实现方案,有效提升了SM2数字签名算法的性能.结合单指令多数据集(single instruction multiple data,SIMD)运算特性,设计了一种新的冗余基数表示形式与数据排列方式,利用3比特冗余空间减少进位传播的次数,构建高效的并行素域运算模块.进而提出一种可变基点标量乘法的并行优化算法,在算法分支加入虚拟操作,按需存储点加与倍点的计算结果,结合底层数据表示形式消除8路分支的差异性.利用AVX512指令与分步点加方法加速固定基点标量乘法.签名与验签算法的性能比最新的SIMD实现分别提升了196%和69%.
展开更多
关键词
SM2数字签名算法
simd
指令集
AVX512
软件优化
下载PDF
职称材料
基于SIMD思想的SM4流水线优化设计
被引量:
1
9
作者
陈昆明
王佳慧
+2 位作者
马利民
张伟
梁兆熙
《信息安全研究》
CSCD
2023年第9期832-842,共11页
SM4算法是我国商用密码标准,广泛应用于信息安全领域.由于SM4实现需要多次迭代和循环,所以SM4算法适合用硬件来实现.提出了一种基于ROM的并行S盒设计,面向SM4 ECB模式轮密钥更新的流水线结构,并且在此流水线基础上基于SIMD思想,对流水...
SM4算法是我国商用密码标准,广泛应用于信息安全领域.由于SM4实现需要多次迭代和循环,所以SM4算法适合用硬件来实现.提出了一种基于ROM的并行S盒设计,面向SM4 ECB模式轮密钥更新的流水线结构,并且在此流水线基础上基于SIMD思想,对流水线结构进一步优化,减少了轮密钥生成的任务开销,实现了单轮密钥生成,多加解密数据流同时运算.提出的ROM流水线结构相比LUT流水线结构、BRAM流水线结构,降低了硬件资源使用,吞吐量分别提高了1.33倍和1.46倍;相比BRAM+寄存器流水线结构,节省了大量寄存器资源,而吞吐量没有明显下降.SIMD流水线结构当为1轮密钥生成4路加解密结构时,资源消耗仅为ROM流水线结构的2.5倍,效率提高了4倍.
展开更多
关键词
SM4算法
流水线结构
S盒设计
simd
轮密钥优化
下载PDF
职称材料
基于SIMD技术的图像卷积处理器体系结构研究
被引量:
5
10
作者
佟凤辉
樊晓桠
+1 位作者
王党辉
辛明瑞
《微电子学与计算机》
CSCD
北大核心
2003年第3期13-16,20,共5页
SIMD处理机特别适合于要求大量高速向量或矩阵计算的场合,数据缓存系统和对准网络是它的关键部件。而图像卷积是图像处理技术中最基本也是最重要的一项技术,文章根据数字图像的卷积定理对数字图像的卷积运算进行了分析,在此基础上提出...
SIMD处理机特别适合于要求大量高速向量或矩阵计算的场合,数据缓存系统和对准网络是它的关键部件。而图像卷积是图像处理技术中最基本也是最重要的一项技术,文章根据数字图像的卷积定理对数字图像的卷积运算进行了分析,在此基础上提出了一种基于SIMD处理机的可变卷积模板的图像卷积处理器的体系结构。该处理器内部包含有接口部件、控制部件、数据缓存系统、对准电路和执行部件等。它的极高效率的数据缓存系统和对准电路成为该处理器最有特色的部分,它从根本上解决了图像卷积中的数据复用带来的CPU重复访问主存储器的问题。实现了3×3、5×5、7×7、9×9、11×11、13×13和15×15卷积模板的图像卷积运算的变换而无需另行更改硬件电路的特点。最后,对这个图像卷积处理器体系结构的性能进行了缜密的分析。
展开更多
关键词
simd
技术
图像卷积处理器
体系结构
图像处理
计算机
simd
处理机
数据缓存系统
对准电路
下载PDF
职称材料
SIMD自动向量化编译优化概述
被引量:
30
11
作者
高伟
赵荣彩
+2 位作者
韩林
庞建民
丁锐
《软件学报》
EI
CSCD
北大核心
2015年第6期1265-1284,共20页
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研...
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研究成果,最后展望了SIMD编译优化未来的研究方向.
展开更多
关键词
simd
扩展部件
自动向量化
数据级并行
编译优化
下载PDF
职称材料
SIMD技术与向量数学库研究
被引量:
10
12
作者
解庆春
张云泉
+2 位作者
王可
李焱
许亚武
《计算机科学》
CSCD
北大核心
2011年第7期298-301,共4页
首先,结合Intel,AMD和IBM处理器,介绍了单指令流多数据流(SIMD)向量化技术及其各自的特点。其次,在3种平台上对各自开发的函数库中的部分向量数学函数进行了测试。结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell ...
首先,结合Intel,AMD和IBM处理器,介绍了单指令流多数据流(SIMD)向量化技术及其各自的特点。其次,在3种平台上对各自开发的函数库中的部分向量数学函数进行了测试。结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell SDK函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10。最后,通过测试结果的对比,发现不同数学库中的向量函数之间在性能方面也存在着差异,并对差异原因进行了分析,得出性能差异主要是处理器架构和向量计算单元个数和访存等因素造成的。
展开更多
关键词
向量化
SSE
MMX
3DNow!
simd
下载PDF
职称材料
基于SIMD机制的并行排序算法
被引量:
4
13
作者
明玉瑞
李思泽
《计算机系统应用》
2009年第11期87-90,共4页
探讨了如何利用现代CPU架构中的SIMD机制提高程序性能的途径,以冒泡排序为例设计了并行算法与并进行了代码实现,最后用实验结果论证了其可行性。
关键词
simd
机制
冒泡排序
并行算法
simd
汇编技术
优化
下载PDF
职称材料
龙芯3B的SIMD编译优化及分析
被引量:
9
14
作者
彭飞
顾乃杰
+1 位作者
高翔
孙明明
《小型微型计算机系统》
CSCD
北大核心
2012年第12期2733-2737,共5页
根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了B...
根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了Builtin函数的支持,用户可以根据标准函数接口调用SIMD运算函数,完成向量操作.通过对SPEC-CPU2000、DSPstone等大量benchmark的测试和分析,给出了龙芯3B SIMD运算的各项性能指数.对于性能表现不同的测试函数,均给出了详细分析数据和结论.测试表明,龙芯3B的SIMD运算在实际应用中有着良好的性能表现.
展开更多
关键词
编译优化
simd
自动向量化
Builtin
龙芯3B
下载PDF
职称材料
向量并行度指导的循环SIMD向量化方法
被引量:
5
15
作者
高伟
韩林
+2 位作者
赵荣彩
徐金龙
陈超然
《软件学报》
EI
CSCD
北大核心
2017年第4期925-939,共15页
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前,两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loopaware方法是对SLP方法的改进,其思想...
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前,两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loopaware方法是对SLP方法的改进,其思想是:首先,通过循环展开将迭代间并行转换为迭代内并行,使循环体内的同构语句条数足够多;再利用SLP方法进行向量发掘.但当循环展开不合法或者并行度低于向量化因子时,Loop-aware方法无法实现程序向量并行性的发掘.因此提出了向量并行度指导的循环向量化方法,依据迭代间并行度、迭代内并行度和向量化因子构建循环向量化方法选择方案,同时提出了不充分向量化方法发掘并行度低于向量化因子的循环向量并行性,最后,依据向量并行度对生成的向量循环进行展开.经过标准测试集测试,向量并行度指导的循环SIMD向量化方法比Loop-aware方法的识别率提升了107.5%,性能提升了12.1%.
展开更多
关键词
simd
扩展部件
向量并行度
Loop-aware
循环展开
下载PDF
职称材料
基于SIMD技术的锥束ART算法快速并行图像重建
被引量:
6
16
作者
张顺利
张定华
+1 位作者
李明君
吉军
《仪器仪表学报》
EI
CAS
CSCD
北大核心
2010年第3期630-634,共5页
ART(algebraic reconstruction technique)算法是一种迭代图像重建方法,适合于大型工业构件的无损检测,其缺点是计算量大、重建时间长。为了提高锥束ART算法的重建速度,本文提出一种快速并行图像重建方法。首先根据锥束CT扫描方式下三...
ART(algebraic reconstruction technique)算法是一种迭代图像重建方法,适合于大型工业构件的无损检测,其缺点是计算量大、重建时间长。为了提高锥束ART算法的重建速度,本文提出一种快速并行图像重建方法。首先根据锥束CT扫描方式下三维射线的对称性提出一种权因子和体素索引的并行计算方法,通过一次计算可同时得到两条射线的权因子和体素索引;然后采用Intel处理器的单指令多数据(single instruction multiple data,SIMD)技术,一次性加载多个打包数据,利用SSE(streamingSIMD extension)指令实现了投影、计算图像校正和反投影的并行运算。实验结果表明本文提出的方法非常有效,在保证图像重建精度的同时取得了约1.5倍的重建加速比。
展开更多
关键词
锥束CT
图像重建
ART算法
simd
技术
下载PDF
职称材料
基于Intel SIMD指令的二维FFT优化算法
被引量:
11
17
作者
李成军
周卫峰
朱重光
《计算机工程与应用》
CSCD
北大核心
2007年第5期41-44,共4页
在基于频域的大数据量图像处理算法中,最为耗时的步骤就是对图像数据进行二维FFT变换的过程。论文针对这一问题,提出一种基于Intel SIMD指令的二维FFT优化算法。通过将数据按照便于SIMD指令计算的方式进行组织,利用SSE3指令加速复数乘法...
在基于频域的大数据量图像处理算法中,最为耗时的步骤就是对图像数据进行二维FFT变换的过程。论文针对这一问题,提出一种基于Intel SIMD指令的二维FFT优化算法。通过将数据按照便于SIMD指令计算的方式进行组织,利用SSE3指令加速复数乘法,在二维处理中针对处理器缓存进行优化等方法,实现了很高的性能。实验结果表明:描述的算法比目前使用最广泛的公共域FFT程序包FFTW快30%左右。达到了对大数据量图像进行快速处理的要求,具有较大的工程实用价值。
展开更多
关键词
大数据量图像处理
二维FFT
simd
SSE/SSE3
下载PDF
职称材料
一种改进的控制流SIMD向量化方法
被引量:
3
18
作者
高伟
李颖颖
+2 位作者
孙回回
李雁冰
赵荣彩
《软件学报》
EI
CSCD
北大核心
2017年第8期2046-2063,共18页
SIMD扩展部件是近年来集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等程序的数据级并行.控制依赖给发掘程序中的数据级并行带来了阻碍,当前,无论基于loop-based还是SLP的控制流向量化方法都需要if转换,而没有考虑循环内蕴含...
SIMD扩展部件是近年来集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等程序的数据级并行.控制依赖给发掘程序中的数据级并行带来了阻碍,当前,无论基于loop-based还是SLP的控制流向量化方法都需要if转换,而没有考虑循环内蕴含的向量并行度,导致生成的向量代码效率较低.此外,不精确的代价模型指导控制流向量化,同样导致生成的向量代码效率较低.为此,提出了改进的控制流SIMD向量化方法.首先,提出了含有控制依赖的循环分布算法,分离循环的可向量化部分和不可向量化部分,同时考虑分布时数据的局部性;其次,提出了一种直接向量化控制流的方法,该方法考虑了基本块间的向量重用;最后,利用精确的代价模型指导超字选择指令和超字条件分支指令的生成.实验结果表明:与现有的控制流向量化方法相比,改进方法生成的向量代码性能提高了24%.
展开更多
关键词
simd
扩展部件
控制依赖
数据依赖
循环分布
下载PDF
职称材料
面向非多媒体程序的SIMD向量化算法的研究及改进
被引量:
6
19
作者
李玉祥
施慧
陈莉
《小型微型计算机系统》
CSCD
北大核心
2009年第10期1927-1935,共9页
利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段,然而目前几乎所有的商业编译器对非多媒体程序的向量化的结果,都无法说明其编译器有效的向量能力.本文通过分析典型的非多媒体程序--SPECCPU2000浮点...
利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段,然而目前几乎所有的商业编译器对非多媒体程序的向量化的结果,都无法说明其编译器有效的向量能力.本文通过分析典型的非多媒体程序--SPECCPU2000浮点程序,归纳出非多媒体程序的SIMD向量化特征,并依此提出局部数据重组的向量化方法、针对外层循环的向量化方法、部分语句SLP的向量化方法几种新的向量化方法和相关的向量化优化技术.通过对比Intel编译器对SPECCPU2000的向量化性能测试,可以发现本文提出的改进方法有效的提高了程序的向量化.
展开更多
关键词
向量化
数据重组
simd
外层循环的向量化
下载PDF
职称材料
基于SIMD指令的柔性物体并行碰撞检测
被引量:
13
20
作者
唐敏
MANOCHA Dinesh
童若锋
《计算机学报》
EI
CSCD
北大核心
2009年第10期2042-2051,共10页
复杂场景中柔性物体间的碰撞检测依然难以满足交互设计的要求.为了提高处理速度,文中给出了一种充分利用现代CPU的并行处理能力的碰撞检测算法.算法基于两方面的并行处理:即基于SIMD指令的指令级并行处理和基于多线程的任务级并行处理....
复杂场景中柔性物体间的碰撞检测依然难以满足交互设计的要求.为了提高处理速度,文中给出了一种充分利用现代CPU的并行处理能力的碰撞检测算法.算法基于两方面的并行处理:即基于SIMD指令的指令级并行处理和基于多线程的任务级并行处理.算法给出了一种针对SIMD指令特别优化的k-DOP模型——SIMD-DOP,从理论上分析了该包围盒的高效性,并与常规的16-DOP和24-DOP进行了运行效率对比.通过使用SIMD-DOP同时在多核间进行负载均衡,算法获得了优化的并行加速.文中算法已经在一台16核工作站上针对一组复杂测试场景进行了验证.
展开更多
关键词
连续碰撞检测
柔性物体
simd
指令
并行碰撞检测
包围盒层次结构
下载PDF
职称材料
题名
面向SIMD指令集的SM4算法比特切片优化
1
作者
王闯
丁滟
黄辰林
宋连涛
机构
国防科技大学计算机学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2024年第8期2097-2109,共13页
基金
国家自然科学基金联合基金项目(U19A2060)
国家自然科学基金项目(62172431)
+1 种基金
基础加强计划重点研究基础研究项目(2019-XXX-ZD-188-00)
湖南省研究生科研创新项目(CX20220056)。
文摘
SM4算法是中国自主设计的商用分组密码算法,其加解密计算性能成为影响信息系统数据机密性保障的重要因素之一.现有SM4算法优化主要面向硬件设计和软件查表等方向展开研究,分别存在依赖特定硬件环境、效率低下且易遭受侧信道攻击等问题.比特切片技术通过对输入数据重组实现了并行化高效分组密码处理,可以抵御针对缓存的侧信道攻击.然而现有切片分组密码研究对硬件平台相关性强、处理器架构支持单一,并且并行化处理流水启动较慢,面向小规模数据的加解密操作难以充分发挥单指令多数据(single instruction multiple data,SIMD)等先进指令集的优势.针对上述问题,首先提出了一种跨平台的通用切片分组密码算法模型,支持面向不同的处理器指令字长提供一致化的通用数据切片方法.在此基础上,提出了一种面向SIMD指令集的细粒度切片并行处理SM4优化算法,通过细粒度明文切片重组与线性处理优化有效缩短算法启动时间.实验结果表明,相比通用SM4算法,优化的SM4比特切片算法加密速率最高可达438.0 MBps,加密每字节所需的时钟周期最快高达7.0 CPB(cycle/B),加密性能平均提升80.4%~430.3%.
关键词
SM4算法
性能优化
比特切片
侧信道攻击
simd
指令集
Keywords
SM4 algorithm
performance optimization
bit slice
side-channel attacks
simd
instruction set
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于QEMU的SIMD指令替换浮点指令框架
2
作者
刘登峰
李东亚
柴志雷
周浩杰
丁海峰
机构
江南大学人工智能与计算机学院
出处
《湖南大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2024年第8期70-77,共8页
基金
国家重点研发专项计划项目(2022YFE0112400)
国家自然科学基金资助项目(21706096)
江苏省自然科学基金青年项目(BK20160162)。
文摘
现在,几乎每个处理器架构都已经加入了对SIMD(single instruction multiple data)指令的支持,SIMD指令能同时对一组数据执行相同的操作,通过数据并行来提高处理器的处理性能.但是大部分动态二进制翻译器忽略了本地SIMD指令的利用,而是以软件语言实现来模拟浮点计算.本文提出了一种基于QEMU翻译系统的FP-QEMU框架,FP-QEMU框架采用SIMD指令来优化替换浮点计算指令,并在X86和ARM平台上完成了完整的浮点实现.该框架可以识别动态二进制翻译系统中的浮点计算优化机会并利用SIMD指令来提升系统翻译的性能.采用SPEC 2006作为测试基准,实验表明相比QEMU,FP-QEMU跨平台的ARM应用在X86计算机上运行的最高加速比可达51.5%,平均加速比达到37.42%.
关键词
simd
QEMU
动态二进制翻译
浮点计算
Keywords
simd
QEMU
dynamic binary translation
floating-point arithmetic
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
SIMD指令及其在C++编程语言中的应用
被引量:
1
3
作者
张小丹
杨严硕
胡婉靖
王亚峰
肖春杨
机构
宝鸡文理学院ᅠ物理与光电技术学院
出处
《科技视界》
2024年第8期15-17,共3页
基金
2022年度宝鸡文理学院第十七批校级本科教学改革研究项目(编号:22JGYB37)
陕西省教育厅项目(编号:23JK0287)
+4 种基金
陕西省教育厅项目(22JK0242)
陕西省科技厅重点研发计划一般项目(编号:2024SF-YBXM-134)
2023年教育部产学合作协同育人项目(编号:230705211175618)
宝鸡文理学院2023年大学生创新创业训练计划项目(编号:S202310721033)
宝鸡文理学院教改项目(YJ22JGYB13)。
文摘
单指令多数据流指令是一种非常有效的单线程加速方法,通过使用SIMD指令集,计算机可以同时对多个数据执行相同的运算,从而实现程序加速。针对SIMD的具体应用,文章结合目前常用的C++语言进行加速过程讲解与代码编程,介绍了SIMD相关基本概念和指令集,然后基于C++编程语言测试SIMD的加速性能。实验结果表明,SIMD在单线程情况下可以显著加快代码运行速度。
关键词
simd
指令集
程序加速
单线程加速
程序优化
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
基于SIMD的AVS3并行率失真优化量化算法
4
作者
唐毅欣
黄晓峰
唐然
周洋
崔燕
殷海兵
机构
杭州电子科技大学通信工程学院
浙江省经济信息中心
出处
《电信科学》
北大核心
2024年第6期114-126,共13页
基金
国家科技重大专项(No.2021ZD0109802)
国家自然科学基金资助项目(No.61901150)。
文摘
针对第三代音频视频标准(the third generation audio video coding standard,AVS3)中的率失真优化量化(rate-distortion optimization quantization,RDOQ)过程的编码效率问题,提出一种基于单指令多数据(single instruction multiple data,SIMD)的并行RDOQ算法。首先,在最优系数决策(optimal coefficient decision,OCD)阶段,通过优化,仅保留扫描线内的依赖关系。然后,在最后一个非零位置决策(last non-zero position decision,LNPD)阶段,基于分治策略,通过将Zig-Zag扫描线分解成多个独立扫描线,实现每条扫描线上最优系数位置的并行计算。最后,采用SIMD指令进行并行加速,以提高整个率失真优化量化的计算效率。实验结果表明,该算法在AI配置下,可以降低29.46%的编码时间,而BD-Rate仅损失0.25%。
关键词
AVS3
率失真优化量化
单指令多数据
并行加速
Keywords
AVS3
RDOQ
simd
parallelized acceleration
分类号
TN919.81 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
基于申威SIMD指令的H.264编码优化
被引量:
1
5
作者
黄朴
刘世巍
张昊
王聪
机构
中电科申泰信息科技有限公司
出处
《现代电子技术》
北大核心
2024年第6期49-54,共6页
文摘
国产化申威处理器出现较晚,其在多媒体领域中的性能还不突出,同时通用处理器中的单指令流多数据流(SIMD)因能有效提升并行处理能力而受到处理器厂商的青睐。为提高国产化自主平台申威架构的多媒体处理能力,结合申威架构Core3B体系的SIMD指令系统,提出一种基于申威架构的SIMD指令集H.264编码优化方法。结合申威处理器的并行结构特点,利用申威适配的Perf、Top指令等系统性能分析工具,采集两种主流视频分辨率下与编码性能强相关的高频热点函数,详细分析其程序并行化可行性,采用手工嵌入申威SIMD和访存扩展等汇编指令进行细粒度优化。实验结果表明,该方法在申威架构下的H.264平均编码性能提升了约30%。相应工作成果已推送到申威社区,增强了基于申威处理器的国产计算机在桌面多媒体应用领域的工作体验。
关键词
单指令流多数据流
H.264标准
申威处理器
热点函数
程序并行化
细粒度
Keywords
simd
H.264 standard
Shenwei processor
hotspot function
program parallelization
fine grained
分类号
TN911-34 [电子电信—通信与信息系统]
TP3 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
基于SIMD的VSIPL三角函数向量化技术研究
6
作者
闫妍
李典
李康
周磊
机构
航空工业西安航空计算技术研究所
出处
《航空计算技术》
2024年第5期105-109,共5页
基金
国家重点研发计划项目资助(2017YFB301100)。
文摘
为提高嵌入式信号处理软件中三角函数的计算效率,并满足软件的可移植性需求,发展一种基于单指令多数据(SIMD)技术的三角函数向量化技术,并基于向量、信号与图像处理函数库(VSIPL)标准对向量化后的三角函数进行接口实现;同时,在ARM平台上对VSIPL向量三角函数接口进行性能测试。测试结果显示该方法相比循环遍历的方式具有2倍以上的加速效果,表明方法能够显著提高三角函数的计算效率,在高性能、可移植嵌入式信号处理软件领域具有一定的工程价值。
关键词
嵌入式信号处理
向量化技术
向量三角函数
单指令多数据
向量、信号与图像处理函数库
Keywords
embedded signal processing
vectorization technology
vectortrigonometric function
simd
VSIPL
分类号
TP319 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
利用SIMD向量化的数据流软错误检测算法
被引量:
1
7
作者
张磊
彭飞
曹子宁
庄毅
机构
南京航空航天大学计算机科学与技术学院
出处
《小型微型计算机系统》
CSCD
北大核心
2023年第5期1114-1120,共7页
基金
国家自然科学基金面上项目(61572253)资助
航空科学基金项目(2016ZC52030)资助。
文摘
由于现代处理器不断缩减芯片上元件尺寸、速度不断提高,会导致严重的可靠性问题.针对现有基于冗余的数据流软检错算法效率低下问题,本文提出一种基于SIMD向量化的数据流软错误检测算法VBSED,利用单指令多数据流并行性来提高软件冗余算法的效率,将原代码与冗余代码转换为高效率的SIMD代码,生成具有检错能力的加固程序.对比实验结果表明本文提出的算法可降低加固代码的时空开销,该算法还具有现有算法一般不能检测缓存等部件软错误的优点,并通过故障注入实验验证本文算法在寄存器、缓存和主存部件具有更高的错误检错率.
关键词
simd
向量化
数据流
错误检测
故障注入
Keywords
simd
vectorization
data flow
error detection
fault inject
分类号
TP302 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于SIMD指令集的SM2数字签名算法快速实现
被引量:
2
8
作者
韦薇
罗敏
白野
彭聪
何德彪
机构
武汉大学国家网络安全学院空天信息安全与可信计算教育部重点实验室
出处
《密码学报》
CSCD
2023年第4期720-736,共17页
基金
山东省重点研发计划(2020CXGC010115)
国家自然科学基金(62172307,62202339,U21A20466)。
文摘
SM2数字签名算法是国家密码管理局发布的首个数字签名标准,已广泛应用于网上银行、电子政务等领域.本文提出一种基于高级矢量扩展指令集(advanced vector extension 512,AVX512)的SM2数字签名算法实现方案,有效提升了SM2数字签名算法的性能.结合单指令多数据集(single instruction multiple data,SIMD)运算特性,设计了一种新的冗余基数表示形式与数据排列方式,利用3比特冗余空间减少进位传播的次数,构建高效的并行素域运算模块.进而提出一种可变基点标量乘法的并行优化算法,在算法分支加入虚拟操作,按需存储点加与倍点的计算结果,结合底层数据表示形式消除8路分支的差异性.利用AVX512指令与分步点加方法加速固定基点标量乘法.签名与验签算法的性能比最新的SIMD实现分别提升了196%和69%.
关键词
SM2数字签名算法
simd
指令集
AVX512
软件优化
Keywords
SM2 digital signature algorithm
simd
instructions
AVX512
software optimization
分类号
TP309.7 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于SIMD思想的SM4流水线优化设计
被引量:
1
9
作者
陈昆明
王佳慧
马利民
张伟
梁兆熙
机构
北京信息科技大学计算机学院
国家信息中心信息与网络安全部
国家计算机网络应急技术处理协调中心
出处
《信息安全研究》
CSCD
2023年第9期832-842,共11页
基金
国家重点研发计划项目(2020YFC1522702)
北京材料基因工程高精尖创新中心项目。
文摘
SM4算法是我国商用密码标准,广泛应用于信息安全领域.由于SM4实现需要多次迭代和循环,所以SM4算法适合用硬件来实现.提出了一种基于ROM的并行S盒设计,面向SM4 ECB模式轮密钥更新的流水线结构,并且在此流水线基础上基于SIMD思想,对流水线结构进一步优化,减少了轮密钥生成的任务开销,实现了单轮密钥生成,多加解密数据流同时运算.提出的ROM流水线结构相比LUT流水线结构、BRAM流水线结构,降低了硬件资源使用,吞吐量分别提高了1.33倍和1.46倍;相比BRAM+寄存器流水线结构,节省了大量寄存器资源,而吞吐量没有明显下降.SIMD流水线结构当为1轮密钥生成4路加解密结构时,资源消耗仅为ROM流水线结构的2.5倍,效率提高了4倍.
关键词
SM4算法
流水线结构
S盒设计
simd
轮密钥优化
Keywords
SM4 algorithm
pipeline structure
SBox design
simd
round key optimization
分类号
TP303 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于SIMD技术的图像卷积处理器体系结构研究
被引量:
5
10
作者
佟凤辉
樊晓桠
王党辉
辛明瑞
机构
西北工业大学航空微电子中心
出处
《微电子学与计算机》
CSCD
北大核心
2003年第3期13-16,20,共5页
基金
国家自然科学基金资助项目(60273088)
国防基金资助项目(00F53048)
文摘
SIMD处理机特别适合于要求大量高速向量或矩阵计算的场合,数据缓存系统和对准网络是它的关键部件。而图像卷积是图像处理技术中最基本也是最重要的一项技术,文章根据数字图像的卷积定理对数字图像的卷积运算进行了分析,在此基础上提出了一种基于SIMD处理机的可变卷积模板的图像卷积处理器的体系结构。该处理器内部包含有接口部件、控制部件、数据缓存系统、对准电路和执行部件等。它的极高效率的数据缓存系统和对准电路成为该处理器最有特色的部分,它从根本上解决了图像卷积中的数据复用带来的CPU重复访问主存储器的问题。实现了3×3、5×5、7×7、9×9、11×11、13×13和15×15卷积模板的图像卷积运算的变换而无需另行更改硬件电路的特点。最后,对这个图像卷积处理器体系结构的性能进行了缜密的分析。
关键词
simd
技术
图像卷积处理器
体系结构
图像处理
计算机
simd
处理机
数据缓存系统
对准电路
Keywords
simd
processor,Dat a buffer system,Aligning circuit,Image convolution
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
SIMD自动向量化编译优化概述
被引量:
30
11
作者
高伟
赵荣彩
韩林
庞建民
丁锐
机构
数学工程与先进计算国家重点实验室(解放军信息工程大学)
出处
《软件学报》
EI
CSCD
北大核心
2015年第6期1265-1284,共20页
基金
"核高基"国家科技重大专项(2009ZX01036-001-001-2)
文摘
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体程序和科学计算程序的数据级并行.首先介绍SIMD扩展部件的背景和研究现状,然后从发掘方法、数据布局、多平台向量化这3个角度介绍了SIMD自动向量化的研究问题、困难和最新研究成果,最后展望了SIMD编译优化未来的研究方向.
关键词
simd
扩展部件
自动向量化
数据级并行
编译优化
Keywords
simd
extension
auto-veetorization
data level parallelism
compiling optimization
分类号
TP312 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
SIMD技术与向量数学库研究
被引量:
10
12
作者
解庆春
张云泉
王可
李焱
许亚武
机构
中国科学院软件研究所并行软件与计算科学实验室
中国科学院计算机科学国家重点实验室
中国科学院研究生院
广州大学网络与现代教育技术中心
出处
《计算机科学》
CSCD
北大核心
2011年第7期298-301,共4页
基金
国家863项目(2006AA01A125
2009AA01A129
+2 种基金
2009AA01A134)
国家自然科学基金项目(60303032)
国家自然基金重点项目(60533020)资助
文摘
首先,结合Intel,AMD和IBM处理器,介绍了单指令流多数据流(SIMD)向量化技术及其各自的特点。其次,在3种平台上对各自开发的函数库中的部分向量数学函数进行了测试。结果表明,相对传统的标量计算,向量化技术带来的加速比较高,特别是Cell SDK函数,因其独特的体系结构,多个向量处理单元带来的平均加速比为10。最后,通过测试结果的对比,发现不同数学库中的向量函数之间在性能方面也存在着差异,并对差异原因进行了分析,得出性能差异主要是处理器架构和向量计算单元个数和访存等因素造成的。
关键词
向量化
SSE
MMX
3DNow!
simd
Keywords
Vectorization
SSE
MMX
3DNow!
simd
分类号
TP338.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于SIMD机制的并行排序算法
被引量:
4
13
作者
明玉瑞
李思泽
机构
北京交通大学理学院
出处
《计算机系统应用》
2009年第11期87-90,共4页
基金
国家自然科学基金(10601036)
文摘
探讨了如何利用现代CPU架构中的SIMD机制提高程序性能的途径,以冒泡排序为例设计了并行算法与并进行了代码实现,最后用实验结果论证了其可行性。
关键词
simd
机制
冒泡排序
并行算法
simd
汇编技术
优化
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
TN911.72 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
龙芯3B的SIMD编译优化及分析
被引量:
9
14
作者
彭飞
顾乃杰
高翔
孙明明
机构
中国科学技术大学计算机科学与技术学院
安徽省计算与通信软件重点实验室
中国科学技术大学-中国科学院沈阳计算所网络与通信联合实验室
中国科学院计算技术研究所微处理器研究中心
出处
《小型微型计算机系统》
CSCD
北大核心
2012年第12期2733-2737,共5页
基金
国家"核高基"重大专项课题项目(2009ZX01028-002-003-005)资助
国家自然科学基金项目(60833004)资助
文摘
根据龙芯3B处理器特有的SIMD运算部件和指令集,在GCC编译器中实现了SIMD访存和SIMD运算的自动向量化.针对SIMD访存,给出了现有的访存方法,并详细介绍了适合龙芯3B的SIMD访存方法.对于不能自动向量化的其他SIMD运算,在GCC编译器中增加了Builtin函数的支持,用户可以根据标准函数接口调用SIMD运算函数,完成向量操作.通过对SPEC-CPU2000、DSPstone等大量benchmark的测试和分析,给出了龙芯3B SIMD运算的各项性能指数.对于性能表现不同的测试函数,均给出了详细分析数据和结论.测试表明,龙芯3B的SIMD运算在实际应用中有着良好的性能表现.
关键词
编译优化
simd
自动向量化
Builtin
龙芯3B
Keywords
compiler optimization
simd
auto-vectorization
builtin
Godson-3B
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
向量并行度指导的循环SIMD向量化方法
被引量:
5
15
作者
高伟
韩林
赵荣彩
徐金龙
陈超然
机构
数学工程与先进计算国家重点实验室(解放军信息工程大学)
防空兵指挥学院
出处
《软件学报》
EI
CSCD
北大核心
2017年第4期925-939,共15页
基金
"核高基"国家科技重大专项(2009ZX01036)~~
文摘
SIMD扩展部件是集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等领域程序的数据级并行.当前,两种基本的向量发掘方法分别是发掘迭代间并行的Loop-based方法和发掘迭代内并行的SLP方法.Loopaware方法是对SLP方法的改进,其思想是:首先,通过循环展开将迭代间并行转换为迭代内并行,使循环体内的同构语句条数足够多;再利用SLP方法进行向量发掘.但当循环展开不合法或者并行度低于向量化因子时,Loop-aware方法无法实现程序向量并行性的发掘.因此提出了向量并行度指导的循环向量化方法,依据迭代间并行度、迭代内并行度和向量化因子构建循环向量化方法选择方案,同时提出了不充分向量化方法发掘并行度低于向量化因子的循环向量并行性,最后,依据向量并行度对生成的向量循环进行展开.经过标准测试集测试,向量并行度指导的循环SIMD向量化方法比Loop-aware方法的识别率提升了107.5%,性能提升了12.1%.
关键词
simd
扩展部件
向量并行度
Loop-aware
循环展开
Keywords
simd
extension
degree of
simd
parallelism
Loop-aware
loop unrolling
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于SIMD技术的锥束ART算法快速并行图像重建
被引量:
6
16
作者
张顺利
张定华
李明君
吉军
机构
西北工业大学现代设计与集成制造技术教育部重点实验室
咸阳师范学院图形图像处理研究所
出处
《仪器仪表学报》
EI
CAS
CSCD
北大核心
2010年第3期630-634,共5页
基金
国家自然科学基金(50375126)
陕西省自然科学基金(2009JQ8017)
陕西省教育厅专项基金(09JK810)资助项目
文摘
ART(algebraic reconstruction technique)算法是一种迭代图像重建方法,适合于大型工业构件的无损检测,其缺点是计算量大、重建时间长。为了提高锥束ART算法的重建速度,本文提出一种快速并行图像重建方法。首先根据锥束CT扫描方式下三维射线的对称性提出一种权因子和体素索引的并行计算方法,通过一次计算可同时得到两条射线的权因子和体素索引;然后采用Intel处理器的单指令多数据(single instruction multiple data,SIMD)技术,一次性加载多个打包数据,利用SSE(streamingSIMD extension)指令实现了投影、计算图像校正和反投影的并行运算。实验结果表明本文提出的方法非常有效,在保证图像重建精度的同时取得了约1.5倍的重建加速比。
关键词
锥束CT
图像重建
ART算法
simd
技术
Keywords
cone-beam CT
image reconstruction
algebraic reconstruction technique
simd
technology
分类号
TP391.75 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Intel SIMD指令的二维FFT优化算法
被引量:
11
17
作者
李成军
周卫峰
朱重光
机构
中国科学院研究生院
出处
《计算机工程与应用》
CSCD
北大核心
2007年第5期41-44,共4页
文摘
在基于频域的大数据量图像处理算法中,最为耗时的步骤就是对图像数据进行二维FFT变换的过程。论文针对这一问题,提出一种基于Intel SIMD指令的二维FFT优化算法。通过将数据按照便于SIMD指令计算的方式进行组织,利用SSE3指令加速复数乘法,在二维处理中针对处理器缓存进行优化等方法,实现了很高的性能。实验结果表明:描述的算法比目前使用最广泛的公共域FFT程序包FFTW快30%左右。达到了对大数据量图像进行快速处理的要求,具有较大的工程实用价值。
关键词
大数据量图像处理
二维FFT
simd
SSE/SSE3
Keywords
large-scale image processing
2D FFT
simd
SSE/SSE3
分类号
TP391 [自动化与计算机技术—计算机应用技术]
TP75 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
一种改进的控制流SIMD向量化方法
被引量:
3
18
作者
高伟
李颖颖
孙回回
李雁冰
赵荣彩
机构
数学工程与先进计算国家重点实验室(解放军信息工程大学)
出处
《软件学报》
EI
CSCD
北大核心
2017年第8期2046-2063,共18页
基金
"核高基"国家科技重大专项(2009ZX01036)~~
文摘
SIMD扩展部件是近年来集成到通用处理器中的加速部件,旨在发掘多媒体和科学计算等程序的数据级并行.控制依赖给发掘程序中的数据级并行带来了阻碍,当前,无论基于loop-based还是SLP的控制流向量化方法都需要if转换,而没有考虑循环内蕴含的向量并行度,导致生成的向量代码效率较低.此外,不精确的代价模型指导控制流向量化,同样导致生成的向量代码效率较低.为此,提出了改进的控制流SIMD向量化方法.首先,提出了含有控制依赖的循环分布算法,分离循环的可向量化部分和不可向量化部分,同时考虑分布时数据的局部性;其次,提出了一种直接向量化控制流的方法,该方法考虑了基本块间的向量重用;最后,利用精确的代价模型指导超字选择指令和超字条件分支指令的生成.实验结果表明:与现有的控制流向量化方法相比,改进方法生成的向量代码性能提高了24%.
关键词
simd
扩展部件
控制依赖
数据依赖
循环分布
Keywords
simd
extension
control dependence
data dependence
loop distribution
分类号
TP314 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
面向非多媒体程序的SIMD向量化算法的研究及改进
被引量:
6
19
作者
李玉祥
施慧
陈莉
机构
中国科学技术大学计算机科学技术系
中国科学院计算机系统结构重点实验室
出处
《小型微型计算机系统》
CSCD
北大核心
2009年第10期1927-1935,共9页
基金
国家"八六三"高技术研究发展计划项目(2007AA01Z110)资助
国家"九七三"重点基础研究发展规划(2005CB321602)资助
文摘
利用微处理器的多媒体扩展对非多媒体程序的向量化已成为提高程序性能的一个重要手段,然而目前几乎所有的商业编译器对非多媒体程序的向量化的结果,都无法说明其编译器有效的向量能力.本文通过分析典型的非多媒体程序--SPECCPU2000浮点程序,归纳出非多媒体程序的SIMD向量化特征,并依此提出局部数据重组的向量化方法、针对外层循环的向量化方法、部分语句SLP的向量化方法几种新的向量化方法和相关的向量化优化技术.通过对比Intel编译器对SPECCPU2000的向量化性能测试,可以发现本文提出的改进方法有效的提高了程序的向量化.
关键词
向量化
数据重组
simd
外层循环的向量化
Keywords
vectorization
data regrouping
simd
outer-loop vectorization
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于SIMD指令的柔性物体并行碰撞检测
被引量:
13
20
作者
唐敏
MANOCHA Dinesh
童若锋
机构
浙江大学计算机学院
北卡罗莱纳大学教堂山分校
出处
《计算机学报》
EI
CSCD
北大核心
2009年第10期2042-2051,共10页
基金
国家自然科学基金(60803054)
教育部-英特尔信息技术专项科研基金项目(MOE-INTEL-09-05)资助
文摘
复杂场景中柔性物体间的碰撞检测依然难以满足交互设计的要求.为了提高处理速度,文中给出了一种充分利用现代CPU的并行处理能力的碰撞检测算法.算法基于两方面的并行处理:即基于SIMD指令的指令级并行处理和基于多线程的任务级并行处理.算法给出了一种针对SIMD指令特别优化的k-DOP模型——SIMD-DOP,从理论上分析了该包围盒的高效性,并与常规的16-DOP和24-DOP进行了运行效率对比.通过使用SIMD-DOP同时在多核间进行负载均衡,算法获得了优化的并行加速.文中算法已经在一台16核工作站上针对一组复杂测试场景进行了验证.
关键词
连续碰撞检测
柔性物体
simd
指令
并行碰撞检测
包围盒层次结构
Keywords
continuous collision detection
deformable models
simd
instructions
parallel colli- sion detection
bounding volume hierarchies
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向SIMD指令集的SM4算法比特切片优化
王闯
丁滟
黄辰林
宋连涛
《计算机研究与发展》
EI
CSCD
北大核心
2024
0
下载PDF
职称材料
2
基于QEMU的SIMD指令替换浮点指令框架
刘登峰
李东亚
柴志雷
周浩杰
丁海峰
《湖南大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2024
0
下载PDF
职称材料
3
SIMD指令及其在C++编程语言中的应用
张小丹
杨严硕
胡婉靖
王亚峰
肖春杨
《科技视界》
2024
1
下载PDF
职称材料
4
基于SIMD的AVS3并行率失真优化量化算法
唐毅欣
黄晓峰
唐然
周洋
崔燕
殷海兵
《电信科学》
北大核心
2024
0
下载PDF
职称材料
5
基于申威SIMD指令的H.264编码优化
黄朴
刘世巍
张昊
王聪
《现代电子技术》
北大核心
2024
1
下载PDF
职称材料
6
基于SIMD的VSIPL三角函数向量化技术研究
闫妍
李典
李康
周磊
《航空计算技术》
2024
0
下载PDF
职称材料
7
利用SIMD向量化的数据流软错误检测算法
张磊
彭飞
曹子宁
庄毅
《小型微型计算机系统》
CSCD
北大核心
2023
1
下载PDF
职称材料
8
基于SIMD指令集的SM2数字签名算法快速实现
韦薇
罗敏
白野
彭聪
何德彪
《密码学报》
CSCD
2023
2
下载PDF
职称材料
9
基于SIMD思想的SM4流水线优化设计
陈昆明
王佳慧
马利民
张伟
梁兆熙
《信息安全研究》
CSCD
2023
1
下载PDF
职称材料
10
基于SIMD技术的图像卷积处理器体系结构研究
佟凤辉
樊晓桠
王党辉
辛明瑞
《微电子学与计算机》
CSCD
北大核心
2003
5
下载PDF
职称材料
11
SIMD自动向量化编译优化概述
高伟
赵荣彩
韩林
庞建民
丁锐
《软件学报》
EI
CSCD
北大核心
2015
30
下载PDF
职称材料
12
SIMD技术与向量数学库研究
解庆春
张云泉
王可
李焱
许亚武
《计算机科学》
CSCD
北大核心
2011
10
下载PDF
职称材料
13
基于SIMD机制的并行排序算法
明玉瑞
李思泽
《计算机系统应用》
2009
4
下载PDF
职称材料
14
龙芯3B的SIMD编译优化及分析
彭飞
顾乃杰
高翔
孙明明
《小型微型计算机系统》
CSCD
北大核心
2012
9
下载PDF
职称材料
15
向量并行度指导的循环SIMD向量化方法
高伟
韩林
赵荣彩
徐金龙
陈超然
《软件学报》
EI
CSCD
北大核心
2017
5
下载PDF
职称材料
16
基于SIMD技术的锥束ART算法快速并行图像重建
张顺利
张定华
李明君
吉军
《仪器仪表学报》
EI
CAS
CSCD
北大核心
2010
6
下载PDF
职称材料
17
基于Intel SIMD指令的二维FFT优化算法
李成军
周卫峰
朱重光
《计算机工程与应用》
CSCD
北大核心
2007
11
下载PDF
职称材料
18
一种改进的控制流SIMD向量化方法
高伟
李颖颖
孙回回
李雁冰
赵荣彩
《软件学报》
EI
CSCD
北大核心
2017
3
下载PDF
职称材料
19
面向非多媒体程序的SIMD向量化算法的研究及改进
李玉祥
施慧
陈莉
《小型微型计算机系统》
CSCD
北大核心
2009
6
下载PDF
职称材料
20
基于SIMD指令的柔性物体并行碰撞检测
唐敏
MANOCHA Dinesh
童若锋
《计算机学报》
EI
CSCD
北大核心
2009
13
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
…
24
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部