期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
Evaluating RISC-V Vector Instruction Set Architecture Extension with Computer Vision Workloads
1
作者 李若时 彭平 +2 位作者 邵志远 金海 郑然 《Journal of Computer Science & Technology》 SCIE EI CSCD 2023年第4期807-820,共14页
Computer vision(CV)algorithms have been extensively used for a myriad of applications nowadays.As the multimedia data are generally well-formatted and regular,it is beneficial to leverage the massive parallel processi... Computer vision(CV)algorithms have been extensively used for a myriad of applications nowadays.As the multimedia data are generally well-formatted and regular,it is beneficial to leverage the massive parallel processing power of the underlying platform to improve the performances of CV algorithms.Single Instruction Multiple Data(SIMD)instructions,capable of conducting the same operation on multiple data items in a single instruction,are extensively employed to improve the efficiency of CV algorithms.In this paper,we evaluate the power and effectiveness of RISC-V vector extension(RV-V)on typical CV algorithms,such as Gray Scale,Mean Filter,and Edge Detection.By our examinations,we show that compared with the baseline OpenCV implementation using scalar instructions,the equivalent implementations using the RV-V(version 0.8)can reduce the instruction count of the same CV algorithm up to 24x,when processing the same input images.Whereas,the actual performances improvement measured by the cycle counts is highly related with the specific implementation of the underlying RV-V co-processor.In our evaluation,by using the vector co-processor(with eight execution lanes)of Xuantie C906,vector-version CV algorithms averagely exhibit up to 2.98x performances speedups compared with their scalar counterparts. 展开更多
关键词 risc-v vector extension single instruction multiple data(SIMD) computer vision OpenCV
原文传递
基于RISC-V的FFmpeg多媒体算法库优化策略 被引量:3
2
作者 张桢 梁军 +2 位作者 贾海鹏 张云泉 李青 《计算机工程》 CAS CSCD 北大核心 2023年第4期159-165,173,共8页
RISC-V处理器的广泛应用使得FFmpeg多媒体算法库在RISC-V平台上的高性能实现日益重要。提出一种基于RISC-V架构的系列优化策略,针对开源音视频多媒体FFmpeg算法库中不同特征和计算密度的算法,利用RISC-V指令集的扩展性对算法库中某些耗... RISC-V处理器的广泛应用使得FFmpeg多媒体算法库在RISC-V平台上的高性能实现日益重要。提出一种基于RISC-V架构的系列优化策略,针对开源音视频多媒体FFmpeg算法库中不同特征和计算密度的算法,利用RISC-V指令集的扩展性对算法库中某些耗时的算法进行指令加速和并行优化。在深入研究RISC-V开源架构的基础上,构建一个基于RISC-V开源架构的高性能FFmpeg算法库。针对不连续访存类算法、数据依赖类算法、数据快速转换类算法,从向量单元配置、向量化访存、汇编优化、指令流水优化4个方面出发,大幅提升FFmpeg算法库在RISC-V处理器上的性能。实验结果表明,采用以上优化策略后的FFmpeg算法库在基于RISC-V架构的XT-910芯片上的性能得到明显提升,其中的不连续访存类算法、数据依赖类算法、数据快速转换类算法的加速比分别为8.20、3.67、3.62。 展开更多
关键词 开源指令集架构 FFmpeg多媒体算法库 向量化访存 汇编优化 指令流水优化
下载PDF
基于AVX512的格密码高速并行实现
3
作者 雷斗威 何德彪 +1 位作者 罗敏 彭聪 《计算机工程》 CAS CSCD 北大核心 2024年第2期15-24,共10页
量子计算的迅速发展可能对当前广泛使用的公钥密码算法造成严重威胁。格密码因优秀的抗量子安全性和高效的计算效率在后量子密码中占据重要地位。美国国家标准技术研究院于2022年5月公布4个后量子密码标准,其中3个是格密码算法,Kyber算... 量子计算的迅速发展可能对当前广泛使用的公钥密码算法造成严重威胁。格密码因优秀的抗量子安全性和高效的计算效率在后量子密码中占据重要地位。美国国家标准技术研究院于2022年5月公布4个后量子密码标准,其中3个是格密码算法,Kyber算法便是其中之一。随着后量子密码标准的确定,Kyber算法高效实现的需求日益增加。基于512位高级向量扩展(AVX512),对Kyber算法进行优化与高速并行实现。使用惰性模约减、优化的蒙哥马利模约减及优化的快速数论变化等技术,充分利用计算机的存储空间,减少大量不必要的模约减操作,提高多项式计算的效率与并行性。采用冗余比特技术,增强多项式抽样过程中比特的并行处理能力。通过AVX512的512 bit位宽和8路并行实现哈希运算,并对其产生的伪随机比特串进行合理调度,充分发挥并行性能。基于AVX512指令集高速并行实现Kyber上的多项式计算和抽样,并进一步实现整个Kyber公钥加密方案。性能测试结果表明,与C语言实现相比,基于AVX512实现的密钥生成和加密算法获得了10~16倍的加速,解密算法获得了约56倍的加速。 展开更多
关键词 后量子密码 格密码 公钥加密 512位高级向量扩展指令集 并行计算
下载PDF
支持RISC-V向量指令的汇编器设计与实现 被引量:1
4
作者 邓平 朱小龙 +1 位作者 孙海燕 任怡 《计算机工程与科学》 CSCD 北大核心 2020年第12期2179-2185,共7页
向量运算可以有效提高计算机的运算效率,减少不必要的硬件开销,随着CPU运算能力的提升和寄存器位数扩展等硬件的进一步发展,向量运算成为实际芯片架构设计中最常用的提高处理器性能的技术。受到业界广泛关注的RISC-V体系结构也借助向量... 向量运算可以有效提高计算机的运算效率,减少不必要的硬件开销,随着CPU运算能力的提升和寄存器位数扩展等硬件的进一步发展,向量运算成为实际芯片架构设计中最常用的提高处理器性能的技术。受到业界广泛关注的RISC-V体系结构也借助向量技术提高性能,但目前开源版本的RISC-V汇编器只支持标量指令程序,不支持向量指令的汇编。基于GNU的Binutils汇编器,设计并实现了支持RISC-V向量指令的汇编器,该汇编器可完成向量指令的汇编和反汇编工作,同时其扩展实现也可以为其他指令模块的扩展支持提供参考。 展开更多
关键词 risc-v 向量指令 指令集 汇编器
下载PDF
RISC-V向量指令集的Compute Library函数库移植 被引量:4
5
作者 叶锡聪 庄灿锋 +4 位作者 王宇木 吴鹏飞 潘志铭 廖力灵 孙轶群 《单片机与嵌入式系统应用》 2021年第1期8-13,共6页
ARM Compute Library是一类针对ARM Cortex-A系列CPU处理器和ARM Mali系列GPU特定优化的软件算法函数库,内部实现了卷积滤波器、卷积神经网络等算法,并且使用Cortex-A CPU NEON、Mali GPU的SIMD技术加速算法运行。RISC-V指令集作为一种... ARM Compute Library是一类针对ARM Cortex-A系列CPU处理器和ARM Mali系列GPU特定优化的软件算法函数库,内部实现了卷积滤波器、卷积神经网络等算法,并且使用Cortex-A CPU NEON、Mali GPU的SIMD技术加速算法运行。RISC-V指令集作为一种开源的指令集,目前发布了相对稳定的SIMD指令集版本,并且C-SKY开源了支持v0.7.1 intrinsics的GCC和QEMU。在这些基础上,本文尝试将ARM Compute Library函数库移植至支持RISC V向量指令集,其中函数移植的核心思想是在不修改源文件的前提下,通过编写一个头文件,用宏定义把ARM NEON向量类型接口逐一替换成RISC-V intrinsics中定义的向量类型和向量函数接口。 展开更多
关键词 Compute Library risc-v 向量指令集 函数库移植 QEMU ARM
下载PDF
RISC-V向量指令集的Yolov3移植优化 被引量:1
6
作者 王宇木 潘志铭 +4 位作者 吴鹏飞 付维 田乐兰 李桂润 孙轶群 《单片机与嵌入式系统应用》 2021年第12期20-25,30,共7页
为研究SIMD在嵌入式领域中对处理器性能的提升效果,选择一种并行化程度较高的图像处理算法Yolov3进行SIMD向量化移植。根据开源指令集RISC-V扩展指令集中的V(Vector)指令集修改Yolov3算法的代码,将其部署到优矽科技自研的WH64处理器的VP... 为研究SIMD在嵌入式领域中对处理器性能的提升效果,选择一种并行化程度较高的图像处理算法Yolov3进行SIMD向量化移植。根据开源指令集RISC-V扩展指令集中的V(Vector)指令集修改Yolov3算法的代码,将其部署到优矽科技自研的WH64处理器的VPU(Vector Processor Unit)中验证;结合Amdahl定律和Yolov3自测程序评估SIMD算法提升的性能。实验结果表明,在Xilinx的Kintex7板上以50 MHz主频运行,在向量化算法占比90%以上时,SIMD处理过后的代码程序达到了标量计算2.25x的加速比。 展开更多
关键词 SIMD优化 Yolov3算法移植 risc-v向量指令集 AMDAHL定律 WH64处理器
下载PDF
基于矢量指令集的三相潮流并行计算方法
7
作者 周淳 姜彤 《电网技术》 EI CSCD 北大核心 2023年第3期1151-1158,共8页
随着互联电网规模不断扩大,电力网络分析计算对计算速度的要求日益提高。高级矢量扩展指令集(advanced vector extensions,AVX)是应对大规模浮点运算所提出的基于SIMD的快速并行计算解决方案,最高可以将浮点运算能力提升16倍。以电力系... 随着互联电网规模不断扩大,电力网络分析计算对计算速度的要求日益提高。高级矢量扩展指令集(advanced vector extensions,AVX)是应对大规模浮点运算所提出的基于SIMD的快速并行计算解决方案,最高可以将浮点运算能力提升16倍。以电力系统三相潮流计算为研究对象,采用快速YBUS潮流算法计算。对迭代方程组求解过程进行改造,将8×8的矩阵与8×1的向量作为运算单元,利用AVX指令集实现运算单元的基本计算与求逆的矢量化算法,完成了基于运算单元的方程因子表分块求解算法;将三相潮流方程节点导纳矩阵的三相模型部分对应的6×6矩阵和6×1向量扩展到8×8矩阵和8×1向量构成的运算单元中,其他部分则有序填充至运算单元中。采用半动态节点优化编号,建立了以运算单元为单位的分块稀疏系数矩阵,基于运算单元运算符的矢量化重载实现了三相潮流方程并行求解。使用IEEE标准三相算例进行测试,结果表明,三相潮流矢量化并行算法与原有算法结果一致,在时间性能上具有高效性。 展开更多
关键词 三相潮流 矢量指令集 并行计算 高斯法潮流 计算优化
下载PDF
在DOS状态下直接使用绘图仪绘图 被引量:1
8
作者 袁斌 马维新 杨永涛 《小型微型计算机系统》 CSCD 北大核心 1994年第6期26-32,共7页
本文介绍了在DOS状态下利用C语言,直接在绘图仪上绘图的方法。并以HP7475绘图仪为例,分析了绘图仪的绘图命令集、矢量汉字库的组成和对其调用的方法。本文同时给出了用TurboC语言编制的源程序清单。
关键词 绘图工具 操作系统 DOS C语言
下载PDF
ARM程序执行周期估计的基于模拟的非线性方法 被引量:3
9
作者 孔亮亮 江建慧 +1 位作者 肖杰 蒋园园 《计算机研究与发展》 EI CSCD 北大核心 2012年第2期392-401,共10页
为了快速而准确地估计ARM处理器上的程序执行时间,研究了基于模拟的非线性程序执行时间估计器的结构.它由程序功能剖面生成模块和程序执行时间预测模块串联而成.程序功能剖面生成模块直接用精确指令模拟器Sim-profile实现;而基于程序执... 为了快速而准确地估计ARM处理器上的程序执行时间,研究了基于模拟的非线性程序执行时间估计器的结构.它由程序功能剖面生成模块和程序执行时间预测模块串联而成.程序功能剖面生成模块直接用精确指令模拟器Sim-profile实现;而基于程序执行中的动态指令数与执行时间在处理器上的非线性关系,对于程序执行时间预测模块的实现,首先设计了一种人工神经网络方案,再根据对人工神经网络局限性的判断,如局部最优问题、不适于解决小样本的回归、网络拓扑结构依赖先验知识等缺点,又提出了基于最小二乘支持向量机的方法.实验证明,这些非线性方法,特别是基于最小二乘支持向量机的方法,可以用较低的模拟代价获得较高的程序执行时间估计精度. 展开更多
关键词 程序执行周期估计 ARM处理器 人工神经网络 最小二乘支持向量机 指令集模拟
下载PDF
Prolog编译的高效实现 被引量:1
10
作者 陈怀谟 《计算机研究与发展》 EI CSCD 北大核心 1993年第7期8-12,共5页
本文提出了一种用向量链接表表示Prolog 中表的方法,一个有效的抽象指令集以及栈压缩优化技术。在主频为8MHz 的Intol 80286微机上应用这些技术实现的Prolog 编译系统的速度大约为100 KLIPS。
关键词 PROLOG 编译 抽象指令集 向量链接表.
下载PDF
一种采用粗糙集和遗传算法的支持向量机 被引量:3
11
作者 张小琴 贾郭军 《山西师范大学学报(自然科学版)》 2013年第1期35-38,共4页
传统的支持向量机(SVM)已被广泛应用.但在实际应用中,高维的特征向量影响了分类的速度,同时特征的选择影响了的分类的精度.为了提高SVM的分类速度和精度,提出使用粗糙集进行降维,使用遗传算法进行特征选择.将应用了此方法的SVM用于网络... 传统的支持向量机(SVM)已被广泛应用.但在实际应用中,高维的特征向量影响了分类的速度,同时特征的选择影响了的分类的精度.为了提高SVM的分类速度和精度,提出使用粗糙集进行降维,使用遗传算法进行特征选择.将应用了此方法的SVM用于网络入侵检测中,实验表明该方法有效地改善了支持向量机的分类性能. 展开更多
关键词 支持向量机(SVM) 粗糙集 遗传算法 入侵检测
下载PDF
基于矢量DSP的并行化卷积算法
12
作者 林江南 周一青 +1 位作者 孙刚 冯雪林 《高技术通讯》 CSCD 北大核心 2016年第12期951-959,共9页
为了提场卷积算法在矢量!字信号处理器(DSP)上的执行效率,提出了一种高效的并行化卷积算法——基2并行短卷积(PSC R2)算法。该算法采用了基2短卷积运算结构,摆脱了传统并行化卷积算法的直接结构,从而有效降低了算法的循环次!。基于该算... 为了提场卷积算法在矢量!字信号处理器(DSP)上的执行效率,提出了一种高效的并行化卷积算法——基2并行短卷积(PSC R2)算法。该算法采用了基2短卷积运算结构,摆脱了传统并行化卷积算法的直接结构,从而有效降低了算法的循环次!。基于该算法结构,还提出了矢量DSP专用指令以匹配卷积的运算结构,保障算法执行效率。通过实际评估,证明了该算法在时间复杂度上仅为传统的内循环矢量化(VIL)算法的43%,为外循环矢量化(VOL)算法的55%,并且在存储空间开销上能够与传统算法基本持平。利用该算法,可以大幅降低移动通信和数字信号处理中的卷积、相关、滤波运算的时间复杂度。 展开更多
关键词 卷积 并行化 矢量DSP 指令集 时间复杂度
下载PDF
面向Cache优化的向量指令集设计与测评
13
作者 曾坤 《计算机工程与科学》 CSCD 北大核心 2009年第A01期97-100,共4页
为微处理器扩展向量指令集是提升现代微处理器性能的一种可行手段,然而传统向量指令对存储系统的访问表现出较差的局部性,因此难以与现代微处理器设计中广泛使用的Cache很好的结合。本文以优化Cache性能为目标,对传统向量指令集进行改造... 为微处理器扩展向量指令集是提升现代微处理器性能的一种可行手段,然而传统向量指令对存储系统的访问表现出较差的局部性,因此难以与现代微处理器设计中广泛使用的Cache很好的结合。本文以优化Cache性能为目标,对传统向量指令集进行改造,提出了COV(Cache Optimized Vector Instruction Set)向量指令集,并以OpenRISC1200为平台,对该指令集进行了实现与测评,获得了约四倍的性能加速比。 展开更多
关键词 向量指令集 高速缓存 微处理器
下载PDF
未来向量处理机的一个典型结构
14
作者 黄卫华 《绵阳师范学院学报》 2003年第5期31-34,共4页
简要探讨了计算机向量体系结构的历史以及相对于标量体系结构的优势。向量超级计算机由于造价的因素当前处于被淘汰的地位,但是在来来的计算机应用领域里,向量体系结构仍然是很值得关注的,特别是在以图形、图像和多媒体处理为主的下一... 简要探讨了计算机向量体系结构的历史以及相对于标量体系结构的优势。向量超级计算机由于造价的因素当前处于被淘汰的地位,但是在来来的计算机应用领域里,向量体系结构仍然是很值得关注的,特别是在以图形、图像和多媒体处理为主的下一代计算机系统中,有非常好的前景。 展开更多
关键词 向量超级计算机 超标量处理机 向量指令系统
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部