期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
使用Stencil评估Intel AVX2 Vgather指令
1
作者 林新华 秦强 +2 位作者 李硕 文敏华 松岗聪 《计算机科学》 CSCD 北大核心 2017年第1期20-24,共5页
为了更好地在向量化时读取离散的数据,Intel在Haswell CPU提供了AVX2vgather指令。由于Stencil在设置边界条件时使用了条件判断,因此编译器生成了vgather指令,并降低了Stencil在Haswell上的性能。提出使用peel优化或intrinsic load的方... 为了更好地在向量化时读取离散的数据,Intel在Haswell CPU提供了AVX2vgather指令。由于Stencil在设置边界条件时使用了条件判断,因此编译器生成了vgather指令,并降低了Stencil在Haswell上的性能。提出使用peel优化或intrinsic load的方法来避免vgather指令的生成,并把该方法应用到3个Stencil基准算例、长程Stencil程序3DFD以及混合Stencil应用3DEW上。这些Stencil在Haswell上的性能都获得了1.22X至3.88X不等的提升。通过研究指令的实现,发现vgather指令会被解码成多个微操作(μops),并为每个要读入的元素生成一个μops。由于vgather指令解码时会产生较高的开销,导致vgather指令成为Stencil在Haswell上的性能瓶颈。了解AVX2 vgather指令的实现以及掌握避免生成vgather指令的优化方法,对在Haswell上调优具有良好空间局部性应用的性能有一定的参考价值。 展开更多
关键词 avx2 vgather指令 STENCIL 性能评估
下载PDF
基于Intel AVX2的LTE DFT和IDFT快速算法
2
作者 曹如球 《信息通信》 2014年第8期11-12,共2页
通用处理器(GPP,General Purpose Processor)技术的快速发展,为LTE基带信号实时处理提供了一条新的途径。在LTE系统中,DFT和IDFT分别是手机上行发送和基站上行接收中的重要模块。根据3GPP协议,LTE DFT和IDFT处理点数是复合数,文章通过... 通用处理器(GPP,General Purpose Processor)技术的快速发展,为LTE基带信号实时处理提供了一条新的途径。在LTE系统中,DFT和IDFT分别是手机上行发送和基站上行接收中的重要模块。根据3GPP协议,LTE DFT和IDFT处理点数是复合数,文章通过混合基算法以取代直接计算算法,并充分利用GPP平台大存储量的优势及Intel AVX2指令进行并行计算能力,最终使得该算法实现平均每处理1点仅耗时2个cycles,接近FPGA硬件处理性能,满足了LTE系统的实时性要求。经验证,基于GPP平台的DFT和IDFT模块运行结果正确,并且耗时极短。 展开更多
关键词 通用处理器 LTE DFT LTE IDFT avx2 实时性
下载PDF
基于AVX2指令集的深度学习混合运算策略 被引量:2
3
作者 蒋文斌 王宏斌 +1 位作者 刘湃 陈雨浩 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2020年第5期408-414,共7页
由于图形处理器(GPU)内存容量有限,其所能承载的深度学习网络模型规模受到很大限制。该文提出了一种深度学习混合运算策略,借助于Intel新的单指令多数据AVX2指令集,充分挖掘CPU对GPU的辅助支撑潜力。为节省GPU内存,将中间数据规模较大... 由于图形处理器(GPU)内存容量有限,其所能承载的深度学习网络模型规模受到很大限制。该文提出了一种深度学习混合运算策略,借助于Intel新的单指令多数据AVX2指令集,充分挖掘CPU对GPU的辅助支撑潜力。为节省GPU内存,将中间数据规模较大的网络层放在CPU端计算,并通过AVX2指令集提高CPU端的计算效率。核心技术点包括网络模型的切分与协调、基于AVX2指令的应用代码矢量化等。上述策略最终在Caffe上实现。在包括CIFAR-10、 ImageNet在内的典型数据集上的实验结果表明:采用混合运算策略后,Caffe能够正常运行更大型神经网络模型,并保持较高的执行效率。 展开更多
关键词 混合运算 深度学习 avx2指令集 图形处理器(GPU)内存 Caffe
原文传递
NTRU格上高效紧凑密钥封装方案
4
作者 梁志闯 郑婕妤 赵运磊 《计算机研究与发展》 EI CSCD 北大核心 2024年第4期1049-1069,共21页
基于NTRU格设计后量子密钥封装方案是格密码领域主流方向之一.为降低密文尺寸,现有方案会引入额外的困难性假设和使用纠错码来辅助压缩密文,但这会导致方案的假设过强和实现更复杂.为克服这些障碍,提出了一个仅基于NTRU单向困难性假设... 基于NTRU格设计后量子密钥封装方案是格密码领域主流方向之一.为降低密文尺寸,现有方案会引入额外的困难性假设和使用纠错码来辅助压缩密文,但这会导致方案的假设过强和实现更复杂.为克服这些障碍,提出了一个仅基于NTRU单向困难性假设、不使用纠错码也能压缩密文的高效紧凑的密钥封装方案LTRU.给出一套性能均衡的LTRU参数集:具有128 b量子安全强度、与之匹配且可忽略的错误率、较小的公钥尺寸和密文尺寸.LTRU基于NTT友好环构造,给出一种高效的混合基数论变换算法来计算该环上多项式运算还给出了LTRU的C实现和AVX2实现.与NIST第3轮决赛方案NTRU-HRSS相比,LTRU的经典安全强度和量子安全强度分别增强6 b和5 b,LTRU的公钥尺寸降低14.6%,密文尺寸降低26.0%,总带宽降低20.3%;在AVX2实现的密钥生成和解封装算法上分别快了10.9倍和1.7倍. 展开更多
关键词 后量子密码 NTRU 密钥封装方案 密文压缩 数论变换 avx2实现
下载PDF
一种基于复合域的国密SM4算法快速软件实现方法 被引量:4
5
作者 陈晨 郭华 +2 位作者 王闯 刘源灏 刘建伟 《密码学报》 CSCD 2023年第2期289-305,共17页
成为ISO/IEC国际标准算法后,SM4的性能受到更多关注.目前针对SM4算法实现效率提升的方法主要集中在缩短S盒的运算时间,其中采用复合域实现的方法大都基于AES算法实现的复合域,而在GF((2^(4))^(2))上鲜有针对SM4算法软件实现的复合域被提... 成为ISO/IEC国际标准算法后,SM4的性能受到更多关注.目前针对SM4算法实现效率提升的方法主要集中在缩短S盒的运算时间,其中采用复合域实现的方法大都基于AES算法实现的复合域,而在GF((2^(4))^(2))上鲜有针对SM4算法软件实现的复合域被提出.本文首次在GF((2^(4))^(2))上找到了一个针对SM4算法S盒软件实现的复合域,给出一种基于复合域的SM4算法快速软件实现方法,使用穷举搜索和数学分析优化了算法S盒的复合域数学构造,构建了同构映射矩阵及其最小化目标函数,仅使用175个门函数就完成了S盒运算,平均每个输出比特占用22个门函数.基于比特切片技术,利用扩展指令集AVX2实现了SM4算法256组消息的并行化加密.每字节加解密平均耗时仅6.5个时钟周期.对硬件依赖程度低,经测试在Intel i5、Intel i7和AMD R7环境下均能显著提升SM4算法的计算效率,对有相似S盒结构的密码算法快速软件实现具有重要的参考价值. 展开更多
关键词 SM4算法 S盒 复合域 比特切片 avx2扩展指令集
下载PDF
Aigis密钥封装算法多平台高效实现与优化 被引量:3
6
作者 沈诗羽 何峰 赵运磊 《计算机研究与发展》 EI CSCD 北大核心 2021年第10期2238-2252,共15页
量子计算技术快速发展带来的新挑战使得后量子密码(post-quantum cryptography,PQC)成为当前密码学界研究热点.基于格的密码方案因其安全高效的特性,已经成为后量子公钥密码的主流之一.Aigis密钥封装算法(Aigis-enc)是我国学者自主设计... 量子计算技术快速发展带来的新挑战使得后量子密码(post-quantum cryptography,PQC)成为当前密码学界研究热点.基于格的密码方案因其安全高效的特性,已经成为后量子公钥密码的主流之一.Aigis密钥封装算法(Aigis-enc)是我国学者自主设计的基于模格上非对称错误学习(A-MLWE)问题的后量子密码算法,是中国密码学会举办的全国密码算法设计竞赛公钥密码算法一等奖获奖算法之一.为了应对量子攻击,维护国家网络空间的长远安全,为未来国家后量子密码算法标准的制定和实际部署贡献力量,对我国自行研发的优秀后量子密码算法进行优化具有重要意义.工作重点关注Aigis-enc算法在不同平台的实现优化,包含高性能平台的快速并行实现与嵌入式低功耗平台的紧凑实现.具体而言,运用单指令多数据流(single instruction multiple data,SIMD)指令,充分优化了Aigis-enc现有AVX2实现,并提供了其首个ARM Cortex-M4平台的轻量级紧凑实现.实现包含4个关键优化点:降低Montgomery约减与Barrett约减汇编指令数目,提升了约减效率;使用裁剪层数的数论变换并优化指令流水调度,加速多项式乘法运算并减少了预计算表存储需求;提供了多项式序列化与反序列化的并行汇编指令实现,加快了编码解码与加解密过程;结合on-the-fly计算与空间复用优化算法存储空间.实验结果表明:提出的优化技术在8核Intel Core i7处理器上可将Aigis-enc算法原始AVX2实现提升25%,且大幅减少了其在ARM Cortex-M4平台的预计算表存储、代码尺寸与运行堆栈占用,对算法的实际应用有重要现实意义. 展开更多
关键词 后量子密码 格密码 密钥封装机制 avx2并行优化 嵌入式轻量级实现
下载PDF
基于模格MLWR的密钥封装方案优化与高效实现 被引量:1
7
作者 郝世迪 孙冬旎 +3 位作者 梁志闯 郑婕妤 沈诗羽 赵运磊 《密码学报》 CSCD 2022年第4期725-742,共18页
格密码因其在安全性、密文尺寸和计算效率等方面性能均衡,同时具有构造简单和通用性强等优点,被认为是最有前景的后量子密码技术路线之一.基于模格MLWR的Saber密钥封装方案是NIST后量子密码标准征集第三轮公布的七个决赛算法之一,对Sabe... 格密码因其在安全性、密文尺寸和计算效率等方面性能均衡,同时具有构造简单和通用性强等优点,被认为是最有前景的后量子密码技术路线之一.基于模格MLWR的Saber密钥封装方案是NIST后量子密码标准征集第三轮公布的七个决赛算法之一,对Saber方案的优化和高效实现有重要的现实意义.本文针对Saber通过大量测试提出一组新参数,所提出的新参数可以在安全强度、错误率和带宽方面取得更好的平衡.为了提升实现效率,我们将数论变换(NTT)和显式中国剩余定理(CRT)应用于其中基础且耗时的多项式乘法,并根据新参数(向量维数、多项式维度、模数和中心二项分布参数)的具体取值,最终选取两个NTT友好素数:q1=7681和q2=3329.接下来,本文基于256位高级向量扩展(AVX2)对Saber新参数的关键模块进行了较为系统的实现和优化,包括:约减模块、多项式运算模块、中心二项分布模块、私钥序列化模块、并行压缩模块以及并行编码/解码模块等.性能测试结果表明,本文在多项式乘法模块相比于目前存在的Saber实现算法性能平均提升约37%.相比于Saber Round3的AVX2实现,我们密钥生成算法性能提升约21%,密钥封装算法提升约23%,密钥解封装算法提升约23%.本文工作对后量子密码算法的优化和实际应用具有现实意义. 展开更多
关键词 后量子密码 格密码 密钥封装 数论变换 中国剩余定理 avx2优化实现
下载PDF
Simultaneous Hashing of Multiple Messages 被引量:1
8
作者 Shay Gueron Vlad Krasnov 《Journal of Information Security》 2012年第4期319-325,共7页
We describe a method for efficiently hashing multiple messages of different lengths. Such computations occur in various scenarios, and one of them is when an operating system checks the integrity of its components dur... We describe a method for efficiently hashing multiple messages of different lengths. Such computations occur in various scenarios, and one of them is when an operating system checks the integrity of its components during boot time. These tasks can gain performance by parallelizing the computations and using SIMD architectures. For such scenarios, we compare the performance of a new 4-buffers SHA-256 S-HASH implementation, to that of the standard serial hashing. Our results are measured on the 2nd Generation Intel? CoreTM Processor, and demonstrate SHA-256 processing at effectively ~5.2 Cycles per Byte, when hashing from any of the three cache levels, or from the system memory. This represents speedup by a factor of 3.42x compared to OpenSSL (1.0.1), and by 2.25x compared to the recent and faster n-SMS method. For hashing from a disk, we show an effective rate of ~6.73 Cycles/Byte, which is almost 3 times faster than OpenSSL (1.0.1) under the same conditions. These results indicate that for some usage models, SHA-256 is significantly faster than commonly perceived. 展开更多
关键词 SHA-256 SHA-512 SHA3 COMPETITION SIMD Architecture Advanced Vector EXTENSIONS ARCHITECTURES AVX avx2
下载PDF
Parallelized Hashing via <i>j</i>-Lanes and <i>j</i>-Pointers Tree Modes, with Applications to SHA-256
9
作者 Shay Gueron 《Journal of Information Security》 2014年第3期91-113,共23页
j-lanes tree hashing is a tree mode that splits an input message into?j?slices, computes?j?independent digests of each slice, and outputs the hash value of their concatenation.?j-pointers tree hashing is a similar tre... j-lanes tree hashing is a tree mode that splits an input message into?j?slices, computes?j?independent digests of each slice, and outputs the hash value of their concatenation.?j-pointers tree hashing is a similar tree mode that receives, as input,?j?pointers to?j?messages (or slices of a single message), computes their digests and outputs the hash value of their concatenation. Such modes expose parallelization opportunities in a hashing process that is otherwise serial by nature. As a result, they have a performance advantage on modern processor architectures. This paper provides precise specifications for these hashing modes, proposes appropriate IVs, and demonstrates their performance on the latest processors. Our hope is that it would be useful for standardization of these modes. 展开更多
关键词 TREE Mode HASHING SHA-256 SIMD Architecture Advanced Vector Extensions Architectures AVX avx2
下载PDF
A <i>j</i>-Lanes Tree Hashing Mode and <i>j</i>-Lanes SHA-256
10
作者 Shay Gueron 《Journal of Information Security》 2013年第1期7-11,共5页
j-lanes hashing is a tree mode that splits an input message to j slices, computes j independent digests of each slice, and outputs the hash value of their concatenation. We demonstrate the performance advantage of j-l... j-lanes hashing is a tree mode that splits an input message to j slices, computes j independent digests of each slice, and outputs the hash value of their concatenation. We demonstrate the performance advantage of j-lanes hashing on SIMD architectures, by coding a 4-lanes-SHA-256 implementation and measuring its performance on the latest 3rd Generation IntelR CoreTM. For messages whose lengths range from 2 KB to 132 KB, we show that the 4-lanes SHA-256 is between 1.5 to 1.97 times faster than the fastest publicly available implementation that we are aware of, and between ~2 to ~2.5 times faster than the OpenSSL 1.0.1c implementation. For long messages, there is no significant performance difference between different choices of j. We show that the 4-lanes SHA-256 is faster than the two SHA3 finalists (BLAKE and Keccak) that have a published tree mode implementation. Finally, we explain why j-lanes hashing will be faster on the coming AVX2 architecture that facilitates using 256 bits registers. These results suggest that standardizing a tree mode for hash functions (SHA-256 in particular) could be useful for performance hungry applications. 展开更多
关键词 TREE MODE HASHING SHA-256 SHA3 Competition SIMD Architecture Advanced Vector Extensions Architectures AVX avx2
下载PDF
分组密码uBlock算法快速软件实现
11
作者 高莹 汪龙昕 +4 位作者 田蕾 胡洋 张宇鹏 严宇 伍前红 《国防科技大学学报》 EI CAS 2024年第6期96-106,共11页
为对国产分组密码算法uBlock进行软件优化,选择支持256 bit数据位宽的AVX2指令集,提高编译器自动优化等级,优化函数的调用过程,优化数据存储结构,综合使用高位并行、低延迟指令逻辑优化等方法实现单线程并行计算。通过使用这种有效的组... 为对国产分组密码算法uBlock进行软件优化,选择支持256 bit数据位宽的AVX2指令集,提高编译器自动优化等级,优化函数的调用过程,优化数据存储结构,综合使用高位并行、低延迟指令逻辑优化等方法实现单线程并行计算。通过使用这种有效的组合方法,uBlock-128/128算法、uBlock-128/256算法和uBlock-256/256算法单密钥短消息加密的速度较原代码分别提升269%、182%和49%。基于这些优化方法,uBlock-128/128、uBlock-128/256和uBlock-256/256三个算法版本均实现了单密钥场景与多密钥场景。 展开更多
关键词 uBlock算法 avx2指令集 并行运算 低延迟 快速软件实现
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部