期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
基于ARMv8处理器的实数FFT实现与性能优化研究 被引量:1
1
作者 赵翔 贾海鹏 +3 位作者 张云泉 邓明森 张广婷 郭金鑫 《计算机学报》 EI CAS CSCD 北大核心 2023年第5期1003-1018,共16页
FFT(快速傅里叶变换)是离散傅里叶变换或其逆变换的一种常见快速算法,是高性能计算领域最重要的基础核心算法之一,在科学、工程和数学等领域的应用十分广泛.实数FFT算法,即输入或者输出为实数的FFT算法,其中包括R2C(Real-to-Complex)、C... FFT(快速傅里叶变换)是离散傅里叶变换或其逆变换的一种常见快速算法,是高性能计算领域最重要的基础核心算法之一,在科学、工程和数学等领域的应用十分广泛.实数FFT算法,即输入或者输出为实数的FFT算法,其中包括R2C(Real-to-Complex)、C2R(Complex-to-Real)等变换类型.相比复数FFT算法,实数FFT算法在图形图像处理、数据压缩等领域有着不可替代的作用.传统实数FFT实现针对的是输入规模为偶数,一般转变为复数FFT进行运算.然而当前鲜有针对输入规模为奇数的实数FFT高效实现.对此,本文提出了一种实数FFT高效算法(DRFFT),并采用蝶形网络优化、蝶形计算优化、访存优化、SIMD优化以及数据转置等方法进行优化,大幅提升了实数FFT算法性能,最终构建了一种针对实数FFT的高性能算法库.实验结果表明,本文实现的DRFFT R2C变换在单双精度浮点数处理方面较FFTW库性能分别平均提升了37.6%和4.6%,较ARMPL库性能分别平均提升了67.6%和28.1%.DRFFT C2R变换在单双精度浮点数处理方面则较FFTW库性能分别平均提升了58.6%和10.8%,较ARMPL库性能分别平均提升了121.8%和85.2%. 展开更多
关键词 armv8 FFT算法 R2C C2R FFTW
下载PDF
面向ARMv8 64位多核处理器的QGEMM设计与实现 被引量:3
2
作者 姜浩 杜琦 +4 位作者 郭敏 全哲 左克 王锋 杨灿群 《计算机学报》 EI CSCD 北大核心 2017年第9期2018-2029,共12页
该文在ARMv8 64位多核处理器上基于OpenBLAS首次设计、实现并优化了四精度矩阵乘法(Quadruple precision General Matrix-Matrix Multiplication,QGEMM).由于浮点计算中不可避免地引入舍入误差,双精度矩阵乘法(DGEMM)在某些情况下不能... 该文在ARMv8 64位多核处理器上基于OpenBLAS首次设计、实现并优化了四精度矩阵乘法(Quadruple precision General Matrix-Matrix Multiplication,QGEMM).由于浮点计算中不可避免地引入舍入误差,双精度矩阵乘法(DGEMM)在某些情况下不能给出令人满意的数值结果,因此需要高精度或多精度算法来实现更精确的计算.Double-double算术是一种较为有效和广泛使用的手段.文中采用double-double数据格式构建结构体存储四精度浮点数据;基于OpenBLAS中的稠密矩阵计算的分块算法,增加四精度数据格式的相关的头文件和源文件,并用汇编代码撰写文中所提出的QGEMM的核心内核;利用无误差变换技术,调整并优化内核中的算法流程,避免规格化操作步骤造成的数据强制依赖关系;通过分析算法的数据依赖关系,设计寄存器的分配和轮转策略,优化指令调度顺序,开发指令级并行性,提高QGEMM的实际性能.根据具体算法使用混合乘加指令(FMA)的程度不同,文中采用了算法理论峰值性能这一概念,其有别于机器理论峰值的概念,能更好地评估文中所提出的QGEMM的实际效率.数值实验表明:文中通过汇编代码实现并优化的QGEMM性能最高达到19.7Gflops,效率为在ARMv864位多核处理器平台上QGEMM算法理论峰值性能的82.1%,在满足数值结果精度要求的同时,其计算速度约是由C语言撰写的未优化的QGEMM和MBLAS中QGEMM的5.8倍,是编译器GCC实现的long double数据格式的QGEMM的24倍.同时数值实验还显示文中提出的QGEMM针对不同规模的矩阵具有较好的线程可扩展性. 展开更多
关键词 armv8 64位多核处理器 QGEMM 四精度 double—double数据格式 LONG double数据格式 OpenBLAS
下载PDF
面向ARMv8 64位多核处理器QTRSM的实现 被引量:1
3
作者 杜琦 姜浩 +2 位作者 李宽 彭林 杨灿群 《计算机工程与科学》 CSCD 北大核心 2017年第3期451-457,共7页
在ARMv8 64位多核处理器上基于OpenBLAS实现了四精度三角矩阵求解(QTRSM)。基于两种数据格式分别实现了QTRSM,第一种实现利用GCC编译器对long double数据类型的支持来实现QTRSM,第二种实现采用double-double数据格式及其相应的四精度加... 在ARMv8 64位多核处理器上基于OpenBLAS实现了四精度三角矩阵求解(QTRSM)。基于两种数据格式分别实现了QTRSM,第一种实现利用GCC编译器对long double数据类型的支持来实现QTRSM,第二种实现采用double-double数据格式及其相应的四精度加减法、乘法和除法。以long double数据类型QTRSM为测试基准,就不同矩阵规模下测试结果精度和时间与double-double数据格式QTRSM进行比较。实验结果表明:两者得到近似相同精度的数值结果,但double-double数据格式QTRSM的性能是long double数据类型QTRSM的1.6倍。随着线程数的增加,两种QTRSM实现的加速比接近2.0,具有较好的可扩展性。 展开更多
关键词 armv8 64位多核处理器 OpenBLAS 四精度 double-double数据格式 QTRSM
下载PDF
基于ARMv8平台的多维FFT实现与优化研究 被引量:8
4
作者 陈暾 李志豪 +1 位作者 贾海鹏 张云泉 《计算机学报》 EI CSCD 北大核心 2019年第11期2384-2402,共19页
FFT(快速傅里叶变换)是用于计算离散傅里叶变换(DFT)或其逆运算的快速算法,它广泛应用于工程、科学和数学计算.到目前为止,鲜有基于ARM平台的高性能FFT算法的实现和优化,然而,随着ARMv8处理器应用的日益广泛,研究FFT算法在ARM平台上高... FFT(快速傅里叶变换)是用于计算离散傅里叶变换(DFT)或其逆运算的快速算法,它广泛应用于工程、科学和数学计算.到目前为止,鲜有基于ARM平台的高性能FFT算法的实现和优化,然而,随着ARMv8处理器应用的日益广泛,研究FFT算法在ARM平台上高性能实现日益重要.该文在ARMv8平台上实现和优化了一个高性能的多维FFT算法库:PerfFFT,通过FFT蝶形网络优化、蝶形计算优化、蝶形自动生成、SIMD优化、内存对齐、cache-aware的分块算法和高效转置等优化方法的应用,显著提升了FFT算法的性能.实验结果表明,PerfFFT相比目前应用最为广泛的开源FFT库FFTW实现了10%~591%的性能提升,而相比ARM高性能商业库ARM Performance Library实现了13%~44%的性能提升. 展开更多
关键词 armv8 FFT算法 FFTW ARMPL SIMD优化 CACHE优化 矩阵分块
下载PDF
基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化 被引量:9
5
作者 龚鸣清 叶煌 +2 位作者 张鉴 卢兴敬 陈伟 《计算机应用》 CSCD 北大核心 2019年第6期1557-1562,共6页
针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指... 针对使用ARM处理器的移动智能设备执行神经网络推理计算效率不高的问题,提出了一套基于ARMv8架构的单精度浮点通用矩阵乘法(SGEMM)算法优化方案。首先,确定ARMv8架构的处理器执行SGEMM算法的计算效率受限于向量化计算单元使用方案、指令流水线和缓存未命中的发生概率;其次,针对三点导致计算效率受限的原因实现向量指令内联汇编、数据重排和数据预取三条优化技术;最后,根据语音方向的神经网络中常见的三种矩阵模式设计测试实验,实验中使用RK3399硬件平台运行程序。实验结果表示:方阵模式下单核计算速度为10.23 GFLOPS,达到实测浮点峰值的78.2%;在细长矩阵模式下单核计算速度为6.35 GFLOPS,达到实测浮点峰值的48.1%;在连续小矩阵模式下单核计算速度为2.53 GFLOPS,达到实测浮点峰值19.2%。将优化后的SGEMM算法部署到语音识别神经网络程序中,程序的实际语音识别速度取得了显著提高。 展开更多
关键词 armv8 单指令多数据流计算 基础线性代数子程序库 高性能计算
下载PDF
基于ARMv8处理器的高性能图像处理算法实现与优化研究 被引量:4
6
作者 韦存阳 贾海鹏 +3 位作者 张云泉 曲国远 魏大洲 张广婷 《计算机工程与科学》 CSCD 北大核心 2022年第10期1711-1720,共10页
色彩空间转换、图像缩放、图像滤波都是图像处理领域常见的算法,广泛应用于数字媒体、数据通信、生物医学和航空航天等领域。目前上述算法在ARM处理器上虽有开源的OpenCV库,但缺少与Intel IPP库精度相当的高性能图像处理库。为此,根据... 色彩空间转换、图像缩放、图像滤波都是图像处理领域常见的算法,广泛应用于数字媒体、数据通信、生物医学和航空航天等领域。目前上述算法在ARM处理器上虽有开源的OpenCV库,但缺少与Intel IPP库精度相当的高性能图像处理库。为此,根据算法的计算访存特征,将上述算法分为数据无关算法、数据共享算法及非规则访存算法3类,提出了不同类别算法在ARMv8计算平台上的优化方法体系,最终构建了一个基于ARMv8计算平台的高性能图像处理算法库,精度上对标Intel IPP库,并通过算法优化、访存优化、SIMD优化及汇编指令优化等一系列优化方法的应用,大幅提升了图像处理算法的性能。实验结果表明,在华为鲲鹏920计算平台上,重点优化的CvtColor、Filter和Resize模块性能较OpenCV算法库都有显著提升。 展开更多
关键词 armv8 色彩空间转换 图像插值 图像滤波
下载PDF
基于ARMv8架构gadget自动搜索框架 被引量:3
7
作者 赵利军 王震宇 +1 位作者 王奕森 庄宽 《计算机应用与软件》 CSCD 2016年第5期307-311,316,共6页
为了在ARM公司最新发布的首款支持64位处理器的ARMv8架构上实现ROP(Return_Oriented Programmig)技术,设计了ARMv8架构上的ROP gadget的自动搜索工具。通过结合ARMv8架构指令系统的特点,首先在库文件搜索出所有的以RET指令结尾的短指令... 为了在ARM公司最新发布的首款支持64位处理器的ARMv8架构上实现ROP(Return_Oriented Programmig)技术,设计了ARMv8架构上的ROP gadget的自动搜索工具。通过结合ARMv8架构指令系统的特点,首先在库文件搜索出所有的以RET指令结尾的短指令序列,并把这些指令序列存储在gadget库中,然后采用一些优化策略对该库进行优化,最后根据用户的输入在库中搜索到与用户输入功能相同的gadget链。通过对搜索工具搜索到的gadget的统计,结果表明gadget集具有图灵完整性,可以执行任意的操作。最后通过一个实例证明了ROP在ARMv8架构上的可行性。 展开更多
关键词 ROP 指令序列 自动搜索 armv8 图灵完整性
下载PDF
基于ARMv8架构ROP自动构造框架 被引量:1
8
作者 赵利军 彭城 《计算机应用与软件》 2017年第8期316-322,328,共8页
为了在ARM公司最新发布的首款支持64位处理器的ARMv8架构上实现ROP(Return_Oriented Programmig)技术,提高ROP攻击效力,设计了ARMv8架构上的ROP自动构造工具。首先对已有的ARM架构下gadget搜索工具进行扩展,使之支持ARMv8架构下可用指... 为了在ARM公司最新发布的首款支持64位处理器的ARMv8架构上实现ROP(Return_Oriented Programmig)技术,提高ROP攻击效力,设计了ARMv8架构上的ROP自动构造工具。首先对已有的ARM架构下gadget搜索工具进行扩展,使之支持ARMv8架构下可用指令序列的搜索,并把这些指令序列存储在gadget库中,其次采用优化策略对gadget库进行优化。然后利用语义等价性找出与shellcode语义相同的gadget链,并利用寄存器连通性解决语义断层和寄存器冲突等问题。最后完成gadget的自动串联形成具有特定行为的ROP链。通过利用ROP自动构造工具对网站"exploit.db"中大量的shellcode进行自动构造,证明了工具具有良好的攻击效力,增强了ROP攻击的实用性。 展开更多
关键词 ROP指令序列 armv8 寄存器连通性 语义断层 寄存器冲突
下载PDF
基于ARMv8架构的线性代数式检索结果并行集成模式
9
作者 吴丽娇 《宁夏师范学院学报》 2021年第1期79-84,共6页
为了提高线性代数式检索结果并行集成和调度能力,提出基于ARMv8架构的线性代数式检索结果并行集成模式.采用语义图模型分析方法进行特征提取和概念集融合,采用概念空间融合的方法,对线性代数式检索结果并行参数融合处理,采用语义图模型... 为了提高线性代数式检索结果并行集成和调度能力,提出基于ARMv8架构的线性代数式检索结果并行集成模式.采用语义图模型分析方法进行特征提取和概念集融合,采用概念空间融合的方法,对线性代数式检索结果并行参数融合处理,采用语义图模型分布式重组的方法,输出线性代数式检索结果,通过ARMv8架构并行集成线性代数式检索结果,仿真结果表明,采用该方法进行线性代数式检索结果并行集成的输出稳定性较高,查准率较高.提高对线性代数式检索结果的访问和资源优化调度能力. 展开更多
关键词 armv8架构 线性代数 检索结果 并行集成 访问
下载PDF
ARMv8 ROP shellcode复杂控制流构造
10
作者 赵利军 董莎莎 《计算机应用与软件》 北大核心 2019年第5期225-230,共6页
一个复杂的ROP shellcode从语义层面经常会用到循环和递归等控制流形式。条件跳转控制流gadget是循环和递归等控制结构的基础。然而ARMv7指令集中的间接条件跳转指令在ARMv8指令集中已经不再存在。ARMv8指令集中的条件跳转指令的目标地... 一个复杂的ROP shellcode从语义层面经常会用到循环和递归等控制流形式。条件跳转控制流gadget是循环和递归等控制结构的基础。然而ARMv7指令集中的间接条件跳转指令在ARMv8指令集中已经不再存在。ARMv8指令集中的条件跳转指令的目标地址的偏移已经被硬编码,不能被使用,所以ARMv8架构下只能通过无条件跳转gadget的重复使用实现循环和递归。这不仅执行效率低,而且浪费了大量的内存空间。基于上述问题,对ARMv7架构的条件跳转gadget进行了分析,提出一种ARMv8架构基于CMP指令和CSEL指令gadget构造条件跳转gadget方法。不仅解决了ARMv7架构基于间接条件跳转指令gadget构造ROP shellcode复杂控制流的方法在ARMv8架构中不再适用的问题,而且通过实验证明了与无条件跳转gadget方法相比,节省了大量的内存空间。 展开更多
关键词 ROP SHELLCODE armv8 控制流语义 CMP GADGET CSEL GADGET
下载PDF
ARMv8-A Return-Oriented Programming实现方法
11
作者 赵利军 李民 彭诚 《计算机应用与软件》 北大核心 2018年第11期253-258,313,共7页
ARMv8-A是ARM公司首款支持64位指令集的处理器架构,其引入一个全新的64位指令集A64。ARMv8-A与以往的ARM架构在指令集、指令编码、内部寄存器(功能定义、长度和个数)、函数调用规约、函数prologue和epilogue处理等诸多方面均存在很大的... ARMv8-A是ARM公司首款支持64位指令集的处理器架构,其引入一个全新的64位指令集A64。ARMv8-A与以往的ARM架构在指令集、指令编码、内部寄存器(功能定义、长度和个数)、函数调用规约、函数prologue和epilogue处理等诸多方面均存在很大的差异。在ARMv8-A处理器架构上,如何来实现返回导向编程ROP(Return-Oriented Programming)攻击以及是否具有图灵完整性等问题目前尚不明确。深入讨论ARMv8-A上实现ROP的基本单元的特性,给出其逻辑结构与分类方法,并给出实现ARMv8-A ROP的原理框架与方法。通过一个基于Linaro ARMv8 Linux实现的ARMv8 ROP攻击实例来验证提出的技术和方法。 展开更多
关键词 armv8 返回导向编程 指令序列 漏洞利用
下载PDF
A Quantitative Evaluation of Vector Transcendental Functions on ARMv8-Based Processors
12
作者 沈洁 龙标 黄春 《Journal of Computer Science & Technology》 SCIE EI CSCD 2023年第3期686-701,共16页
Transcendental functions are important functions in various high performance computing applications.Because these functions are time-consuming and the vector units on modern processors become wider and more scalable,t... Transcendental functions are important functions in various high performance computing applications.Because these functions are time-consuming and the vector units on modern processors become wider and more scalable,there is an increasing demand for developing and using vector transcendental functions in such performance-hungry applications.However,the performance of vector transcendental functions as well as their accuracy remain largely unexplored.To address this issue,we perform a comprehensive evaluation of two Single Instruction Multiple Data(SIMD)intrinsics based vector math libraries on two ARMv8 compatible processors.We first design dedicated microbenchmarks that help us understand the performance behavior of vector transcendental functions.Then,we propose a piecewise,quantitative evaluation method with a set of meaningful metrics to quantify their performance and accuracy.By analyzing the experimental results,we find that vector transcendental functions achieve good performance speedups thanks to the vectorization and algorithm optimization.Moreover,vector math libraries can replace scalar math libraries in many cases because of improved performance and satisfactory accuracy.Despite this,the implementations of vector math libraries are still immature,which means further optimization is needed,and our evaluation reveals feasible optimization solutions for future vector math libraries. 展开更多
关键词 transcendental function vector math library piecewise quantitative evaluation microbenchmarking armv8-based processor
原文传递
wrBench:Comparing Cache Architectures and Coherency Protocols on ARMv8 Many-Core Systems
13
作者 高琬蓉 方建滨 +2 位作者 黄春 徐传福 王峥 《Journal of Computer Science & Technology》 SCIE EI CSCD 2023年第6期1323-1338,共16页
Cache performance is a critical design constraint for modern many-core systems.Since the cache often works in a"black-box"manner,it is difficult for the software to reason about the cache behavior to match t... Cache performance is a critical design constraint for modern many-core systems.Since the cache often works in a"black-box"manner,it is difficult for the software to reason about the cache behavior to match the running software to the underlying hardware.To better support code optimization,we need to understand and characterize the cache be-havior.While cache performance characterization is heavily studied on traditional x86 architectures,there is little work for understanding the cache implementations on emerging ARMv8-based many-cores.This paper presents a comprehensive study to evaluate the cache architecture design on three representative ARMv8 multi-cores,Phytium 2000+,ThunderX2,and Kunpeng 920(KP920).To this end,we develop wrBench,a micro-benchmark suite to measure the realized latency and bandwidth of caches at different memory hierarchies when performing core-to-core communication.Our evaluation pro-vides inter-core latency and bandwidth in different cache levels and coherency states for the three ARMv8 many-cores.The quantitative performance data is shown in tables.We mine the characteristics of caches and coherency protocols by analyzing the data for the three processors,Phytium 2000+,ThunderX2,and KP920.Our paper also provides discussions and guidelines for optimizing memory access on ARMv8 many-cores. 展开更多
关键词 armv8 many-core cache architecture microbenchmark core-to-core communication
原文传递
面向移动设备的国密SM2高效实现研究
14
作者 张吉鹏 黄军浩 +1 位作者 于璇 刘哲 《电子学报》 EI CAS CSCD 北大核心 2023年第12期3437-3443,共7页
SM2的优化实现在x86-64架构上已经得到了充分的研究,但在ARMv8-A架构上的优化仍不充分,为此本工作提出了以下优化方案:针对SM2的模p与模n乘法/平方运算,充分利用p与n的数值特点优化了蒙哥马利模乘;针对模p与模n求逆运算,推导并实现了更... SM2的优化实现在x86-64架构上已经得到了充分的研究,但在ARMv8-A架构上的优化仍不充分,为此本工作提出了以下优化方案:针对SM2的模p与模n乘法/平方运算,充分利用p与n的数值特点优化了蒙哥马利模乘;针对模p与模n求逆运算,推导并实现了更快的基于费马小定理的模逆算法;针对固定点与非固定点标量乘法,分别实现了宽度为7与5的窗口算法;针对签名生成过程中s的计算,用一个模n加/减法替换一个模n乘法.将上述优化技术集成到OpenSSL(3.0.0-beta1)中后,在华为云鲲鹏920计算平台上的测试表明,SM2签名性能提升8.7倍;SM2验签性能提升3.5倍.在移动设备树莓派4平台上,SM2的签名性能提高9.7倍;验签性能提高3.4倍. 展开更多
关键词 椭圆曲线密码 armv8-A平台 SM2优化实现 有限域运算 模逆运算
下载PDF
RCAR H3硬件平台的引导程序启动过程分析
15
作者 田学明 李岩 +1 位作者 张晓谦 田娇 《单片机与嵌入式系统应用》 2023年第2期23-24,28,共3页
RCAR H3平台主要用于先进安全驾驶辅助系统和车载娱乐系统,具有超高的识别运算能力,同时支持高效的图形设计,符合ISO26262标准。通过了解armv8架构和TrustZone技术,本文分析RCAR H3从上电到uboot启动前的整个启动流程。
关键词 RCAR H3 armv8架构 TrustZone技术
下载PDF
基于大数据的高能效数据中心服务器研究 被引量:6
16
作者 张俊卫 王晶 +1 位作者 张伟功 邱柯妮 《计算机工程》 CAS CSCD 北大核心 2017年第8期74-81,共8页
分析ARM服务器的发展以及应用现状,结合数据中心的特点,设计基于ARMv8架构的高能效数据中心服务器,选取目前工业界具有代表性的ARMv8服务器参数,使用典型的数据中心负载,对X86和ARMv8两种架构的微体系结构级指标、性能和功耗进行定量评... 分析ARM服务器的发展以及应用现状,结合数据中心的特点,设计基于ARMv8架构的高能效数据中心服务器,选取目前工业界具有代表性的ARMv8服务器参数,使用典型的数据中心负载,对X86和ARMv8两种架构的微体系结构级指标、性能和功耗进行定量评估。实验结果表明,与X86架构服务器相比,ARMv8架构服务器在数据中心领域具有更好的能效比,能够有效降低能耗和成本。 展开更多
关键词 数据中心 服务器架构 armv8架构 评测模型 能效
下载PDF
Cooley-Tukey FFT算法高性能实现与优化研究 被引量:4
17
作者 郭金鑫 张广婷 +2 位作者 张云泉 陈泽华 贾海鹏 《计算机科学与探索》 CSCD 北大核心 2022年第6期1304-1315,共12页
快速傅里叶变换(FFT)算法是处理器基础软件生态的重要组成部分,在工程、科学、物理和数学等领域的应用十分广泛,且这些领域对FFT算法的性能也提出了越来越高的要求。研究FFT算法在ARMv8和X86-64上的高性能实现特别是大基高性能的实现,提... 快速傅里叶变换(FFT)算法是处理器基础软件生态的重要组成部分,在工程、科学、物理和数学等领域的应用十分广泛,且这些领域对FFT算法的性能也提出了越来越高的要求。研究FFT算法在ARMv8和X86-64上的高性能实现特别是大基高性能的实现,提高FFT算法的计算性能日益重要。针对ARMv8和X86-64计算平台的架构特征,研究FFT算法的高性能实现和优化方法。通过蝶形网络优化、大基网络级数降低、大基蝶形计算优化、SIMD汇编优化以及寄存器使用策略优化等方法的应用,有效提升了FFT算法的性能,特别是提升了FFT大基的计算性能,解决了寄存器不够用的性能瓶颈,并最终总结了一套Cooley-Tukey FFT算法的高性能实现策略和优化方案。实验结果表明,在ARM、X86-64处理器上,实现的FFT算法,较ARMPL、Intel MKL和FFTW性能有明显提升,较中小基性能也有明显提升。 展开更多
关键词 快速傅里叶变换(FFT) armv8 X86-64 FFTW SIMD优化
下载PDF
基于ARM V8平台的向量算法库实现与优化 被引量:8
18
作者 王晶 张云泉 梁军 《计算机工程》 CAS CSCD 北大核心 2019年第6期82-88,共7页
基于ARMV8架构的VecOp向量算法库,提出一种基础向量算法在ARMV8平台上实现和优化的方案。从访存对界优化、指令集优化、基本块优化以及向量分支优化4个方面进行精细调优,提升向量算法函数在ARMV8平台上的性能,以实现VecOp算法库在ARMV8... 基于ARMV8架构的VecOp向量算法库,提出一种基础向量算法在ARMV8平台上实现和优化的方案。从访存对界优化、指令集优化、基本块优化以及向量分支优化4个方面进行精细调优,提升向量算法函数在ARMV8平台上的性能,以实现VecOp算法库在ARMV8平台上的优化。实验结果表明,该方案在ARMV8计算平台上实现的向量算法库性能提升可达到10%~300%。 展开更多
关键词 数学函数库 armv8架构 向量算法库 单指令流多数据 访存优化
下载PDF
一种ARM处理器面向高性能计算的性能评估 被引量:5
19
作者 王一超 廖秋承 +2 位作者 左思成 谢锐 林新华 《计算机科学》 CSCD 北大核心 2019年第8期95-99,共5页
为探索ARM架构在高效能“绿色计算”领域中,面向高性能计算的应用价值,对一款ARM指令集处理器进行性能评估,并将其与主流商用处理器Intel Xeon进行性能对比。在微架构上,测试了该处理器的浮点数计算能力、访存带宽及延迟。实验结果显示... 为探索ARM架构在高效能“绿色计算”领域中,面向高性能计算的应用价值,对一款ARM指令集处理器进行性能评估,并将其与主流商用处理器Intel Xeon进行性能对比。在微架构上,测试了该处理器的浮点数计算能力、访存带宽及延迟。实验结果显示,该处理器的双精度浮点计算能力约为475 GFLOPS,相较于Xeon E5-2680v3,低了33%,访存带宽约为105 GB/s,优于Xeon平台。在应用层面,选取4个高性能计算领域的典型应用,包含Stencil并行计算方法等,在该处理器实现移植和编译,并采用线程绑定的运行方法,提升缓存局部性,优化计算性能。实验结果显示,ARM指令集处理器的应用移植简单,其优化思路与主流商用处理器(如Intel Xeon)类似,但在计算密集和随机访存型应用上存在提升空间,在Stencil应用上性能近似,结合低功耗特点,在“绿色计算”领域具有竞争力。后续将持续基于最新的ARM指令集芯片做相关研究。 展开更多
关键词 处理器 armv8 性能评估
下载PDF
基于TrustZone技术的微处理器芯片架构 被引量:5
20
作者 刘亮 陈震 《电子设计工程》 2020年第2期189-193,共5页
安全是物联网发展面临的最大问题之一,对物联网设备的安全攻击包括通信攻击、物理攻击、软件攻击等多种方式。针对物联网面临的软件攻击威胁,ARM在V8M架构中引入Trustzone技术,使M系列架构的处理器支持TrustZone技术,实现了硬件层次对... 安全是物联网发展面临的最大问题之一,对物联网设备的安全攻击包括通信攻击、物理攻击、软件攻击等多种方式。针对物联网面临的软件攻击威胁,ARM在V8M架构中引入Trustzone技术,使M系列架构的处理器支持TrustZone技术,实现了硬件层次对抗软件攻击的手段。由于M系列微处理器芯片和A系列应用处理器面向的应用不同,ARM V8M架构的TrustZone下和A系列的TrustZone技术存在区别。本文介绍ARM V8M架构芯片总线结构以及数据通路,做为基于ARM V8M TrustZone技术的芯片设计参考。基于ARM V8M TrustZone技术的微处理器芯片架构,芯片中的存储空间分为安全域和非安全域两部分,用IDAU和SAU定义Master发出地址的安全属性,用MPC、PPC等组件保护存储数据和外设资源不被非法访问,实现安全域和非安全域的硬件隔离保护。 展开更多
关键词 armv8M TRUSTZONE 微处理器 物联网 安全
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部