期刊文献+
共找到54,148篇文章
< 1 2 250 >
每页显示 20 50 100
Perscott处理器的超值搭档——奔驰848P系列主板
1
《新视窗》 2004年第3期41-42,共2页
在Intel正式发布代号为Prescott的新奔四处理器不久。今天已经可以在市场上看到Prescott处理器了。从市场价格来看,Prescott的P4E处理器与Northwood的P4C价格虽然相差不大,但它具备更多的二级缓存、更高的主频和更强劲的性能,P4E处... 在Intel正式发布代号为Prescott的新奔四处理器不久。今天已经可以在市场上看到Prescott处理器了。从市场价格来看,Prescott的P4E处理器与Northwood的P4C价格虽然相差不大,但它具备更多的二级缓存、更高的主频和更强劲的性能,P4E处理器成为近期装机的热门选择。 展开更多
关键词 奔驰848P系列主板 超线程技术 芯片 perscott处理器 P4E处理器
下载PDF
基于Amdahl定律的异构多核密码处理器能效模型研究
2
作者 李伟 郎俊豪 +1 位作者 陈韬 南龙梅 《电子学报》 EI CAS CSCD 北大核心 2024年第3期849-862,共14页
边缘计算安全的资源受限特征及各种新型密码技术的应用,对多核密码处理器的高能效、异构性提出需求,但当前尚缺乏相关的异构多核能效模型研究.本文基于扩展Amdahl定律,引入密码串并特征、异构多核结构、数据准备时间、动态电压频率调节... 边缘计算安全的资源受限特征及各种新型密码技术的应用,对多核密码处理器的高能效、异构性提出需求,但当前尚缺乏相关的异构多核能效模型研究.本文基于扩展Amdahl定律,引入密码串并特征、异构多核结构、数据准备时间、动态电压频率调节等因素,将核划分空闲、活跃状态,建立异构多核密码处理器的能效模型.MATLAB仿真结果表明,数据准备时间占比小于10%时,对能效的负面影响大幅下降;固定电压,频率缩放会影响能效值大小;处理器核空闲/活跃能耗比例越小,能效值越大.架构上,固定异构核,同构核数量与密码任务最大并行度相等时能效值最大,最佳异构核数可由模型变化参数仿真得到;多任务调度执行上,流水与并发执行有利于能效值的进一步提升.多核密码处理器芯片板级测试结果表明,仿真结果与实测数据相关系数接近1,芯片实测的数据准备时间、电压频率缩放等因素的影响与仿真分析基本一致,验证了所提能效模型的有效性.该文重点从影响能效变化趋势因素上,为多核密码处理器异构、高能效设计提供一定的理论分析基础与建议. 展开更多
关键词 密码处理器 多核处理器 异构 AMDAHL定律 能效模型
下载PDF
电极间隙对脉冲电场处理器杀菌效果的影响
3
作者 田野 樊文硕 +2 位作者 卢伟健 张冠军 常正实 《高电压技术》 EI CAS CSCD 北大核心 2024年第4期1760-1768,共9页
脉冲电场是新型非热杀菌技术,杀菌效率高、有效保留液体食品的营养成分,具有广阔的应用前景。电极间隙作为脉冲电场杀菌处理器的关键指标,决定处理器的电场分布和杀菌效果。为了获得最佳间隙参数,提升杀菌效果,为此设计了共场型脉冲电... 脉冲电场是新型非热杀菌技术,杀菌效率高、有效保留液体食品的营养成分,具有广阔的应用前景。电极间隙作为脉冲电场杀菌处理器的关键指标,决定处理器的电场分布和杀菌效果。为了获得最佳间隙参数,提升杀菌效果,为此设计了共场型脉冲电场处理器,电极间距分别为3、5和7 mm,针对固定电导率(等效鲜榨柚子汁电导率)的2种典型细菌(金黄色葡萄球菌和大肠杆菌)菌悬液,研究了脉冲电场的杀菌效果。研究发现,3 mm电极间距所能施加最大电压为18 kV,5、7 mm的可达30 kV;处理时间为120 s时,3种间隙的杀菌效率均可达99.99%。因此,综合考虑电源性能、设备能耗和处理能力,首选3 mm电极间距为处理器的应用参数。评估外施电压幅值对杀菌效果的影响,发现细菌存活量的下降趋势可根据其下降速率分为“慢-快-慢”3个阶段。结合菌悬液上清液蛋白质含量的上升趋势,充分说明了电穿孔应为脉冲电场的主要杀菌机制。 展开更多
关键词 脉冲电场杀菌 电极间隙 处理器结构 杀菌效果 电穿孔
下载PDF
NM-SpMM:面向国产异构向量处理器的半结构化稀疏矩阵乘算法
4
作者 姜晶菲 何源宏 +2 位作者 许金伟 许诗瑶 钱希福 《计算机工程与科学》 CSCD 北大核心 2024年第7期1141-1150,共10页
深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产... 深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产异构向量处理器FT-M7032为智能模型处理中的数据并行和指令并行开发提供了较大空间。针对N∶M半结构化稀疏模型计算稀疏模式多样性,提出了一种面向FT-M7032的可灵活配置的稀疏矩阵乘算法NM-SpMM。NM-SpMM设计了一种高效的压缩偏移地址稀疏编码格式COA,避免了半结构化参数配置对稀疏数据访存计算的影响。基于COA编码,NM-SpMM对不同维度稀疏矩阵计算进行了细粒度优化。在FT-M7032单核上的实验结果表明,相较于稠密矩阵乘,NM-SpMM能获得1.73~21.00倍的加速,相较于采用CuSPARSE稀疏计算库的NVIDIA V100 GPU,能获得0.04~1.04倍的加速。 展开更多
关键词 深度神经网络 图形处理器 向量处理器 稀疏矩阵乘 流水线
下载PDF
基于昇腾AI处理器的轻量化MNG-YOLO模型研究
5
作者 赵月爱 沈帅杰 +1 位作者 王智瑜 王玲 《电子器件》 CAS 2024年第5期1193-1200,共8页
随着目标检测神经网络算法精度不断提升,算法的参数量以及计算量都有着较高的增长,导致模型实际应用部署困难,因此对神经网络模型进行轻量化,减少模型的参数量和计算量对模型部署在边缘设备上是至关重要的。昇腾AI处理器是华为推出的一... 随着目标检测神经网络算法精度不断提升,算法的参数量以及计算量都有着较高的增长,导致模型实际应用部署困难,因此对神经网络模型进行轻量化,减少模型的参数量和计算量对模型部署在边缘设备上是至关重要的。昇腾AI处理器是华为推出的一款专用于神经网络加速的芯片,为充分发挥昇腾AI处理器的优势并解决算法模型较为庞大的问题,基于此平台提出一种轻量化目标检测模型MNG-YOLO,对YOLO模型采用轻量级主干网络和Ghost卷积以减小模型大小,添加NAM注意力模块和Mish激活函数提升模型准确率。实验结果表明,MNG-YOLO模型相比于原始模型参数量以及计算量均减少约75%,参数量从7 015 519个减少至1 739 799个,计算量从15.8 GFLOPs减少至3.5 GFLOPs,模型精确度也由95.9%提升至97.5%。同时,在昇腾AI处理器上的推理速度达到205 FPS,远超实时性检测的速度要求。 展开更多
关键词 目标检测 YOLO模型 昇腾AI处理器 模型轻量化
下载PDF
长向量处理器高效RNN推理方法
6
作者 苏华友 陈抗抗 杨乾明 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第1期121-130,共10页
模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方... 模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量处理器循环神经网络推理引擎可获得较高性能,相较于多核ARM CPU以及Intel Golden CPU,类循环神经网络模型长短记忆网络可获得最高62.68倍和3.12倍的性能加速。 展开更多
关键词 多核DSP 长向量处理器 循环神经网络 并行优化
下载PDF
MVSim:面向VLIW多核向量处理器的快速、可扩展和精确的体系结构模拟器
7
作者 刘仲 李程 +3 位作者 田希 刘胜 邓让钰 钱程东 《计算机工程与科学》 CSCD 北大核心 2024年第2期191-199,共9页
设计了一个面向VLIW多核向量处理器的快速、可扩展、精确的体系结构模拟器MVSim。设计了可扩展的VLIW多核向量处理器模型、多级存储体系结构模型和多核性能模型;实现了指令集架构的节拍精准模拟,Cache、DMA和多核同步部件的高效功能模拟... 设计了一个面向VLIW多核向量处理器的快速、可扩展、精确的体系结构模拟器MVSim。设计了可扩展的VLIW多核向量处理器模型、多级存储体系结构模型和多核性能模型;实现了指令集架构的节拍精准模拟,Cache、DMA和多核同步部件的高效功能模拟,采用多线程技术实现了多核处理器的高效和可扩展模拟。实验结果表明,MVSim能够准确模拟多核处理器的目标程序执行,模拟结果完全正确,具有良好的可扩展性。MVSim的平均模拟速度分别是RTL模拟和CCS的227倍和5倍,平均性能误差约为2.9%。 展开更多
关键词 体系结构模拟器 VLIW 多核向量处理器模型 性能模型 节拍精准模拟器
下载PDF
基于RISC-V的超标量处理器的ROB压缩方法
8
作者 王洁 付丹阳 《计算机工程与科学》 CSCD 北大核心 2024年第7期1185-1192,共8页
RISC-V指令集具有灵活可扩展的优势,向量扩展是其扩展指令集之一。在实现向量扩展时需要将向量指令拆分成多条微指令,如果每条微指令都占用一项重排序缓存(ROB),会存在一定的信息冗余,并且会减少CPU中并行执行的指令(in-flight指令)数量... RISC-V指令集具有灵活可扩展的优势,向量扩展是其扩展指令集之一。在实现向量扩展时需要将向量指令拆分成多条微指令,如果每条微指令都占用一项重排序缓存(ROB),会存在一定的信息冗余,并且会减少CPU中并行执行的指令(in-flight指令)数量,影响处理器性能。基于指令与微指令在ROB中的存储解耦方法,使用一个新的队列(RAB)存储每条微指令的目的寄存器的重命名映射关系等信息,每项ROB只存储其对应指令拆分的微指令的公共信息,ROB与RAB分别控制指令与微指令的提交与回滚,减少了存储信息冗余,缓解了由向量指令拆分的微指令过多导致的in-flight指令数量减少问题。在上述方法的基础上,同时实现了标量指令的ROB压缩,在ROB项数不变的情况下,增加了in-flight指令的最大数量。最终的仿真结果表明,此方法有效提高了处理器性能。 展开更多
关键词 RISC-V 超标量 处理器 ROB压缩
下载PDF
一种模型微处理器的汇编器设计与应用
9
作者 张伟涛 任爱锋 孙小超 《教育教学论坛》 2024年第29期29-32,共4页
“微机原理”课程是大多数理工科高校学生的必修课程,当前“微机原理”教学常常被限制在x86指令集架构及其典型芯片的框架内,针对教学缺乏灵活性的问题,课程组在x86的基础上开发了一种模型微处理器,为了配合模型微处理器开展“微机原理... “微机原理”课程是大多数理工科高校学生的必修课程,当前“微机原理”教学常常被限制在x86指令集架构及其典型芯片的框架内,针对教学缺乏灵活性的问题,课程组在x86的基础上开发了一种模型微处理器,为了配合模型微处理器开展“微机原理”教学,通过设计并实现了一种模型微处理器的汇编器,具有源程序输入、编辑、汇编、调试及仿真等功能,可以顺利地将模型微处理器应用于“微机原理”教学中。通过教师的教学应用和学生上机编程练习,证明了模型机汇编器设计方案的有效性,极大地推动了“微机原理”课程教学改革的实施。 展开更多
关键词 处理器 微机原理 汇编器
下载PDF
一种基于异构处理器的可动态布署设计与实现
10
作者 钱宏文 陈光威 《电子技术应用》 2024年第1期93-100,共8页
针对卫星支持的多种生活服务需求实时切换、资源灵活智能调用需求,基于无线广域信号服务异构处理器,设计了一种即时高效、动态切换部署处理器功能的方案。通过对大资源FPGA及多片8核DSP多种功能定制结合动态部署设计,实现实时动态可重... 针对卫星支持的多种生活服务需求实时切换、资源灵活智能调用需求,基于无线广域信号服务异构处理器,设计了一种即时高效、动态切换部署处理器功能的方案。通过对大资源FPGA及多片8核DSP多种功能定制结合动态部署设计,实现实时动态可重构处理器系统功能,将5种FPGA应用结合2种DSP应用程序动态组合,配合各功能任务架构需求重建控制、数据链路,完成多任务智能切换。 展开更多
关键词 异构处理器 动态部署 可重构 FPGA DSP
下载PDF
基于ARM处理器的温室大棚智能监控系统设计
11
作者 孙启昌 胡国强 《工业仪表与自动化装置》 2024年第3期9-14,共6页
为了实现温室大棚的智能监测与控制,设计基于ARM处理器的温室大棚智能监控系统。系统分为三个部分:数据采集及设备控制终端、智能网关终端、Android手机客户端,数据采集及设备控制终端以ARM微处理为核心,通过传感器、算法、Wi-Fi等技术... 为了实现温室大棚的智能监测与控制,设计基于ARM处理器的温室大棚智能监控系统。系统分为三个部分:数据采集及设备控制终端、智能网关终端、Android手机客户端,数据采集及设备控制终端以ARM微处理为核心,通过传感器、算法、Wi-Fi等技术,实现温室大棚数据采集、数据处理、数据传输及执行设备的智能控制,智能网关终端实现多个温室大棚数据从内网发送至公网,Android手机客户端实现数据的接收与发送。经测试验证,系统能够实现温室大棚的智能监控。 展开更多
关键词 ARM处理器 数据采集 智能网关 算法 手机客户端
下载PDF
嵌入式处理器自定义指令迭代识别方法仿真
12
作者 王前莉 李颖 《计算机仿真》 2024年第8期276-280,共5页
嵌入式系统中的硬件资源是有限的,并且自定义指令和原始指令之间可能存在冲突,导致指令代码识别精准度降低、运行功耗较高。为此,提出嵌入式处理器自定义指令迭代低功耗识别方法。对嵌入式处理器的指令代码展开可视化处理,将指令图像输... 嵌入式系统中的硬件资源是有限的,并且自定义指令和原始指令之间可能存在冲突,导致指令代码识别精准度降低、运行功耗较高。为此,提出嵌入式处理器自定义指令迭代低功耗识别方法。对嵌入式处理器的指令代码展开可视化处理,将指令图像输入卷积神经网络中,检测指令代码中存在的恶意代码,采用开源编译器将代码转变为控制数据流图,枚举并选择子图,通过代码转换完成嵌入式处理器自定义指令识别。仿真结果表明,所提方法的恶意代码检测精度高、代码识别准确率高,始终保持在70%以上,平均能耗仅为89J。 展开更多
关键词 嵌入式处理器 恶意代码检测 自定义指令 控制数据流图 指令识别
下载PDF
多核处理器公平共享并行总线的方法
13
作者 邵龙 《现代电子技术》 北大核心 2024年第3期25-28,共4页
针对综合化电子系统中多个功能运行于同一多核处理器的不同核同时访问同一并行总线的冲突避免以及实时性问题,提出一种基于最小访问颗粒度的多核处理器公平共享并行总线的方法,并详细介绍了该方法的设计实现及验证。该方法不仅通过为每... 针对综合化电子系统中多个功能运行于同一多核处理器的不同核同时访问同一并行总线的冲突避免以及实时性问题,提出一种基于最小访问颗粒度的多核处理器公平共享并行总线的方法,并详细介绍了该方法的设计实现及验证。该方法不仅通过为每核分配一个总线操作缓冲队列保障了同一核的总线操作先到先服务,而且通过单个读写操作周期的公平队列算法保障了每核总线操作的实时性。工程实践表明,该方法是一种多核处理器公平共享并行总线的有效方法。 展开更多
关键词 综合化电子系统 多核处理器 共享并行总线 冲突 公平队列算法 缓冲队列
下载PDF
国产SW26010-Pro处理器上3级BLAS函数众核并行优化 被引量:1
14
作者 胡怡 陈道琨 +5 位作者 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 《软件学报》 EI CSCD 北大核心 2024年第3期1569-1584,共16页
BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发... BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%. 展开更多
关键词 BLAS 3级 SW26010-Pro众核处理器 直接内存访问 远程内存访问 浮点计算效率
下载PDF
面向众核处理器的阴阳K-means算法优化
15
作者 周天阳 王庆林 +4 位作者 李荣春 梅松竹 尹尚飞 郝若晨 刘杰 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第1期93-102,共10页
传统阴阳K-means算法处理大规模聚类问题时计算开销十分昂贵。针对典型众核处理器的体系结构特征,提出了一种阴阳K-means算法高效并行加速实现。该实现基于一种新内存数据布局,采用众核处理器中的向量单元来加速阴阳K-means中的距离计算... 传统阴阳K-means算法处理大规模聚类问题时计算开销十分昂贵。针对典型众核处理器的体系结构特征,提出了一种阴阳K-means算法高效并行加速实现。该实现基于一种新内存数据布局,采用众核处理器中的向量单元来加速阴阳K-means中的距离计算,并面向非一致内存访问(non-unified memory access, NUMA)特性进行了针对性的访存优化。与阴阳K-means算法的开源多线程实现相比,该实现在ARMv8和x86众核平台上分别获得了最高约5.6与8.7的加速比。因此上述优化方法在众核处理器上成功实现了对阴阳K-means算法的加速。 展开更多
关键词 K-MEANS 非一致内存访问 向量化 众核处理器 性能优化
下载PDF
基于交叉开关互连的多核堆栈处理器架构设计
16
作者 刘欢庆 周永录 +1 位作者 刘宏杰 代红兵 《计算机工程与设计》 北大核心 2024年第7期2212-2219,共8页
为满足堆栈处理器对于并行化程序应用的需求,提出一种多核堆栈处理器架构。在单核堆栈处理器的基础上,以交叉开关作为核间互连结构,通过对指令集、高速缓存器、一致性协议以及中断机制的设计,可在一个时钟周期内完成取指、译码、执行、... 为满足堆栈处理器对于并行化程序应用的需求,提出一种多核堆栈处理器架构。在单核堆栈处理器的基础上,以交叉开关作为核间互连结构,通过对指令集、高速缓存器、一致性协议以及中断机制的设计,可在一个时钟周期内完成取指、译码、执行、核间数据传输和中断响应操作。在Xilinx FPGA芯片上进行单核、双核和四核堆栈处理器的实现,通过矩阵乘法计算进行性能实验验证,在100 MHz时钟频率的情况下,四核堆栈处理器的最大性能相当于单核堆栈处理器的3.99倍。实验结果表明,基于交叉开关互连的多核堆栈处理器架构可较好发挥多核堆栈处理器中每一个核心的性能。 展开更多
关键词 堆栈处理器 多核处理器 交叉开关 高速缓存 一致性协议 中断控制器 现场可编程门阵列
下载PDF
基于Dante音频处理器的局域网语音通话系统设计与实现 被引量:1
17
作者 姜奋林 胡艳平 《电声技术》 2024年第4期124-126,130,共4页
为提升内部通信的效率和可靠性,设计基于Dante音频处理器的局域网语音通话系统。该系统适用于内部通信场景,利用Dante音频处理技术实现低延迟传输,通过可视化操作界面管理局域网内的音频设备,能够提供稳定、清晰的语音通话服务。
关键词 Dante音频处理器 音频路由 点对点通话 群组通话
下载PDF
面向车载功能安全的低开销超标量双核锁步处理器架构设计
18
作者 张承译 王明羽 +1 位作者 虞志益 李兆麟 《汽车工程学报》 2024年第2期313-320,共8页
在车载功能安全领域,双核锁步架构是一种被广泛应用于解决处理器故障的冗余架构。为支持细粒度故障处理的超标量处理器提出一种新颖的双核锁步架构,通过以分支跳转指令的形式执行程序回滚,该架构能在故障发生的同一时钟周期内检测和纠... 在车载功能安全领域,双核锁步架构是一种被广泛应用于解决处理器故障的冗余架构。为支持细粒度故障处理的超标量处理器提出一种新颖的双核锁步架构,通过以分支跳转指令的形式执行程序回滚,该架构能在故障发生的同一时钟周期内检测和纠正故障,且不需要额外的专用硬件模块来满足细粒度回滚的需求。还提出一种虚拟写回机制,该机制将特定数据传送到只读寄存器以防止故障衍生,使处理器无需在程序执行期间持续保存现场,从而显著节省了面积开销。试验结果表明,该架构对注入处理器的故障实现了较彻底的故障覆盖,对处理器原型的性能影响很小,与先前双核锁步相关的工作相比,时间和面积开销更小。 展开更多
关键词 双核锁步 处理器 故障处理 程序回滚
下载PDF
申威26010众核处理器上Winograd卷积算法的研究与优化
19
作者 武铮 金旭 安虹 《计算机研究与发展》 EI CSCD 北大核心 2024年第4期955-972,共18页
卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威26010处... 卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威26010处理器的架构特征以及Winograd卷积算法的计算特性,提出了一种高性能并行卷积算法——融合Winograd卷积算法.该算法不同于依赖官方GEMM(general matrix multiplication)库接口的传统Winograd卷积算法,定制的矩阵乘实现使得该算法的执行过程变得可见,且能够更好地适应现实中常见卷积运算.整个算法由输入的Winograd变换、卷积核的Winograd变换、核心运算和输出的Winograd逆变换4部分构成,这4个部分并不是单独执行而是融合到一起执行.通过实时地为核心运算提供需要的变换后数据,并将计算结果及时地逆变换得到最终的输出数据,提高了算法执行过程中的数据局部性,极大地降低了整体的访存开销.同时,为该算法设计了合并的Winograd变换模式、DMA(direct memory access)双缓冲、片上存储的强化使用、输出数据块的弹性处理以及指令重排等优化方案.最终的实验结果表明,在VGG网络模型的总体卷积测试中,该算法性能是传统Winograd卷积算法的7.8倍.同时,抽取典型卷积神经网络模型中的卷积进行测试,融合Winograd卷积算法能够在所有的卷积场景中发挥明显高于传统Winograd卷积算法的性能.其中,最大能够发挥申威26010处理器峰值性能的116.21%,平均能够发挥峰值性能的93.14%. 展开更多
关键词 深度学习 Winograd卷积 高性能计算 并行算法 申威处理器
下载PDF
基于“承影”GPGPU的张量处理器设计
20
作者 师雨洁 杨轲翔 +1 位作者 刘旭东 何虎 《微电子学与计算机》 2024年第5期109-116,共8页
针对神经网络对算力和通用性的需求进一步扩大,基于开源项目“承影”GPGPU,设计了张量处理器,可以对卷积、通用矩阵乘进行加速。首先,分析现有张量处理器设计方案及其对应算法,与直接进行卷积计算进行对比,分析性能差异。然后,提出基于... 针对神经网络对算力和通用性的需求进一步扩大,基于开源项目“承影”GPGPU,设计了张量处理器,可以对卷积、通用矩阵乘进行加速。首先,分析现有张量处理器设计方案及其对应算法,与直接进行卷积计算进行对比,分析性能差异。然后,提出基于三维乘法树结构的张量处理器设计,将其部署在Xilinx VCU128开发板上。在VCU128开发板上,张量处理器的工作频率为222 MHz。同时,开发了指数运算单元,辅助完成神经网络运算。在VCU128开发板上的工作频率为159 MHz。最后,利用编写汇编程序的方法,验证张量处理器的功能正确性。引入张量处理器后,预期运行时间明显减少。 展开更多
关键词 通用图形处理器 张量处理器 卷积 通用矩阵乘 指数运算
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部