期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
面向稀疏卷积神经网络的CGRA加速器研究 被引量:1
1
作者 谭龙 严明玉 +3 位作者 吴欣欣 李文明 吴海彬 范东睿 《高技术通讯》 CAS 北大核心 2024年第2期173-186,共14页
本文针对规模日益增长和演变迅速的稀疏卷积神经网络(CNN)应用,提出一款高能效且灵活的加速结构DyCNN来提升其性能和能效。DyCNN基于兼具灵活性和高能效的粗粒度可重构架构(CGRA)设计,可以利用其指令的高并行性来高效支持CNN的操作。Dy... 本文针对规模日益增长和演变迅速的稀疏卷积神经网络(CNN)应用,提出一款高能效且灵活的加速结构DyCNN来提升其性能和能效。DyCNN基于兼具灵活性和高能效的粗粒度可重构架构(CGRA)设计,可以利用其指令的高并行性来高效支持CNN的操作。DyCNN使用基于数据感知的指令动态过滤机制来滤除各计算单元中由于稀疏CNN中权值静态稀疏性和激活值动态稀疏性产生的大量无效计算和访存指令,使它们能像执行稠密网络一样高效复用一组指令。此外DyCNN利用基于负载感知的动静结合负载调度策略解决了稀疏导致的负载不均衡问题。实验结果表明,DyCNN运行稀疏CNN与运行密集CNN相比实现了平均1.69倍性能提升和3.04倍能效提升,比先进的GPU(cuSPARSE)和Cambricon-X上的解决方案分别实现了2.78倍、1.48倍性能提升和35.62倍、1.17倍能效提升。 展开更多
关键词 稀疏卷积神经网络(CNN) 专用加速结构 粗粒度可重构架构(cgra) 动态指令过滤 动态负载调度
下载PDF
A Multithreaded CGRA for Convolutional Neural Network Processing 被引量:1
2
作者 Kota Ando Shinya Takamaeda-Yamazaki +2 位作者 Masayuki Ikebe Tetsuya Asai Masato Motomura 《Circuits and Systems》 2017年第6期149-170,共22页
Convolutional neural network (CNN) is an essential model to achieve high accuracy in various machine learning applications, such as image recognition and natural language processing. One of the important issues for CN... Convolutional neural network (CNN) is an essential model to achieve high accuracy in various machine learning applications, such as image recognition and natural language processing. One of the important issues for CNN acceleration with high energy efficiency and processing performance is efficient data reuse by exploiting the inherent data locality. In this paper, we propose a novel CGRA (Coarse Grained Reconfigurable Array) architecture with time-domain multithreading for exploiting input data locality. The multithreading on each processing element enables the input data reusing through multiple computation periods. This paper presents the accelerator design performance analysis of the proposed architecture. We examine the structure of memory subsystems, as well as the architecture of the computing array, to supply required data with minimal performance overhead. We explore efficient architecture design alternatives based on the characteristics of modern CNN configurations. The evaluation results show that the available bandwidth of the external memory can be utilized efficiently when the output plane is wider (in earlier layers of many CNNs) while the input data locality can be utilized maximally when the number of output channel is larger (in later layers). 展开更多
关键词 CNN Convolutional NEURAL Network DEEP LEARNING Multithreaded ARCHITECTURE cgra
下载PDF
一种针对大规模CGRA的编译器后端设计
3
作者 叶鹏飞 《现代计算机》 2020年第6期3-6,18,共5页
随着半导体工艺的飞速发展,粗粒度可重构架构(CGRA)上的处理单元数量日益增多,使得大规模CGRA出现异构访存结构以及有限互连资源设计,故传统CGRA编译器已经不再适配其新的架构特性。针对大规模CGRA设计一套新的编译器后端流程,其可以充... 随着半导体工艺的飞速发展,粗粒度可重构架构(CGRA)上的处理单元数量日益增多,使得大规模CGRA出现异构访存结构以及有限互连资源设计,故传统CGRA编译器已经不再适配其新的架构特性。针对大规模CGRA设计一套新的编译器后端流程,其可以充分发挥CGRA的并行性。在搭建的RTL仿真环境中,通过测试一些典型计算密集型应用的运行时间,该编译器可以获得相对CPU平均76倍的应用加速比。 展开更多
关键词 粗粒度可重构 编译器后端 应用加速
下载PDF
一种基于模拟退火的动态发射型CGRA编译方法
4
作者 杨伟东 《现代计算机》 2021年第10期29-33,40,共6页
粗粒度可重构阵列(CGRA)因为其灵活性和高能效比受到广泛关注,动态发射型CGRA提供一种更为高效的实现模式,针对其编译技术的研究可以充分发挥其计算能力。动态发射型CGRA的编译问题转化为一个关于调度的组合优化问题,使用模拟退火算法... 粗粒度可重构阵列(CGRA)因为其灵活性和高能效比受到广泛关注,动态发射型CGRA提供一种更为高效的实现模式,针对其编译技术的研究可以充分发挥其计算能力。动态发射型CGRA的编译问题转化为一个关于调度的组合优化问题,使用模拟退火算法实现调度空间的产生和探索。实验结果表明,相比之前的编译技术,可以获得平均19.80%的性能提高。 展开更多
关键词 粗粒度可重构阵列 组合优化问题 模拟退火 调度空间探索
下载PDF
核心循环到粗粒度可重构体系结构的流水化映射 被引量:10
5
作者 王大伟 窦勇 李思昆 《计算机学报》 EI CSCD 北大核心 2009年第6期1089-1099,共11页
粗粒度可重构体系结构为数据密集型应用提供了灵活性和高效的解决方法,而应用中的核心循环消耗了程序的大量执行时间,满足核心循环在CGRAs上实现的性能/开销的严格约束仍旧是个重大难题.针对已有工作在研究映射核心循环到CGRAs上的不足... 粗粒度可重构体系结构为数据密集型应用提供了灵活性和高效的解决方法,而应用中的核心循环消耗了程序的大量执行时间,满足核心循环在CGRAs上实现的性能/开销的严格约束仍旧是个重大难题.针对已有工作在研究映射核心循环到CGRAs上的不足,文中提出一种新颖的核心循环自动流水映射到粗粒度可重构体系结构上的方法.文中形式化了核心循环到CGRAs的流水映射问题,阐述了CGRAs的资源共享和流水方法,定义了其循环自流水CGRAs体系结构模板,并给出核心循环流水映射方法.实验结果表明,与已有的先进的方法相比,文中方法的资源占用率降低16.3%、吞吐量提高169.1%. 展开更多
关键词 可重构计算 粗粒度可重构体系结构 数据密集型应用 循环自流水
下载PDF
基于自路由互连网络的粗粒度可重构阵列结构 被引量:5
6
作者 陈锐 杨海钢 +2 位作者 王飞 贾瑞 王新刚 《电子与信息学报》 EI CSCD 北大核心 2014年第9期2251-2257,共7页
互连网络在粗粒度可重构结构(Coarse-Grained Reconfigurable Array,CGRA)中非常重要,对CGRA的性能、面积和功耗均有较大影响。为了减小互连网络导致的面积开销和功耗并提升CGRA的性能,该文提出一种具有自路由和无阻塞特性的互连网络,... 互连网络在粗粒度可重构结构(Coarse-Grained Reconfigurable Array,CGRA)中非常重要,对CGRA的性能、面积和功耗均有较大影响。为了减小互连网络导致的面积开销和功耗并提升CGRA的性能,该文提出一种具有自路由和无阻塞特性的互连网络,构建了一种层次型的网络拓扑结构。通过这种互连网络,任意一对处理单元之间均可以建立连接和交换数据,而且这种连接是自路由和无阻塞的。实验结果显示,与已有结构相比,该结构以至多增加14.1%的面积开销为代价,获得最高可达46.2%的整体性能提升。 展开更多
关键词 片上系统(SoC) 粗粒度可重构结构 互连网络 网络拓扑结构 自路由
下载PDF
基于粗粒度可重构阵列结构的多标准离散余弦变换设计 被引量:3
7
作者 陈锐 杨海钢 +2 位作者 王飞 贾瑞 喻伟 《电子与信息学报》 EI CSCD 北大核心 2015年第1期206-213,共8页
在视频信号的编解码流程中,离散余弦变换(DCT)是一个至关重要的环节,其决定了视频压缩的质量和效率。针对8×8尺寸的2维离散余弦变换,该文提出一种基于粗粒度可重构阵列结构(Coarse-Grained Reconfigurable Array,CGRA)的硬件电路... 在视频信号的编解码流程中,离散余弦变换(DCT)是一个至关重要的环节,其决定了视频压缩的质量和效率。针对8×8尺寸的2维离散余弦变换,该文提出一种基于粗粒度可重构阵列结构(Coarse-Grained Reconfigurable Array,CGRA)的硬件电路结构。利用粗粒度可重构阵列的可重配置的特性,实现在单一平台支持多个视频压缩编码标准的8×8 2维离散余弦变换。实验结果显示,这种结构每个时钟周期可以并行处理8个像素,吞吐率最高可达1.157×109像素/s。与已有结构相比,设计效率和功耗效率最高可分别提升4.33倍和12.3倍,并能够以最高30帧/s的帧率解码尺寸为4096×2048,格式为4:2:0的视频序列。 展开更多
关键词 粗粒度可重构阵列 视频压缩 离散余弦变换 功耗效率
下载PDF
基于粗粒度可重构架构的并行FFT算法实现 被引量:3
8
作者 曹鹏 杨锦江 梅晨 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第6期1174-1179,共6页
为了提升并行 FFT 算法的计算性能,基于粗粒度可重构架构 REMUS_LPP(reconfigurable embedded multimedia system,low performance processor)提出了一种新的复数 FFT 实现方法.在实现 FFT 算法过程中,首先通过局部串行方式完成... 为了提升并行 FFT 算法的计算性能,基于粗粒度可重构架构 REMUS_LPP(reconfigurable embedded multimedia system,low performance processor)提出了一种新的复数 FFT 实现方法.在实现 FFT 算法过程中,首先通过局部串行方式完成低阶部分,然后交换低阶部分结果后并行执行高阶部分.针对 RCA 内和 RCA 间的数据流优化,提出了流水气泡消除技术和数据块重排技术,从而提升了算法实现性能并降低了片上存储需求.芯片实测结果表明,提出的 FFT 算法实现方法的执行速度是其他同类并行计算架构的2.15~13.60倍,片上存储减少为其他方法的7.0%~28.1%. 展开更多
关键词 粗粒度可重构架构 并行FFT算法 REMUS_LPP
下载PDF
基于存储划分和路径重用的粗粒度可重构结构循环映射算法 被引量:2
9
作者 张兴明 袁开坚 高彦钊 《电子与信息学报》 EI CSCD 北大核心 2018年第6期1520-1524,共5页
目前针对粗粒度可重构结构循环映射的研究主要集中在操作布局和临时数据路由,缺乏考虑数据映射的研究,该文提出一种基于存储划分和路径重用的模调度映射流程。首先进行细粒度的存储划分找到合适的数据映射,提高数据存取的并行性,再用模... 目前针对粗粒度可重构结构循环映射的研究主要集中在操作布局和临时数据路由,缺乏考虑数据映射的研究,该文提出一种基于存储划分和路径重用的模调度映射流程。首先进行细粒度的存储划分找到合适的数据映射,提高数据存取的并行性,再用模调度寻找操作布局和临时数据路由,最后利用构建的路由开销模型平衡存储器路由和处理单元路由的使用,引入路径重用策略优化路由资源。实验结果表明,该方法在循环的启动间隔、每周期指令数和执行延迟等方面均具有良好的性能。 展开更多
关键词 粗粒度可重构结构 循环映射 存储划分 路径重用
下载PDF
面向媒体的粗粒度可重构架构层次化存储设计
10
作者 曹鹏 梅晨 刘波 《上海交通大学学报》 EI CAS CSCD 北大核心 2014年第10期1389-1393,1399,共6页
为了优化粗粒度可重构架构REMUS-II(Reconfigurable Multimedia System 2)的数据流通路,使其能够完成高性能媒体解码,针对媒体算法的数据访问特征,对REMUS-II的片上存储与片外存储访问模块进行优化.片上存储通过二维数据传输和转置等访... 为了优化粗粒度可重构架构REMUS-II(Reconfigurable Multimedia System 2)的数据流通路,使其能够完成高性能媒体解码,针对媒体算法的数据访问特征,对REMUS-II的片上存储与片外存储访问模块进行优化.片上存储通过二维数据传输和转置等访问模式进行优化,片上数据传输效率分别平均提高了69.6%和15.1%.片外存储通过块缓存设计优化参考帧访问,平均减少37%的外存访问时间.经过层次化存储设计,REMUS-II数据流可满足计算需求,在200MHz主频下实现H.264算法和MPEG2算法高级档次的1 920像素×1 080像素高清分辨率实时解码. 展开更多
关键词 粗粒度可重构架构 媒体应用 层次化存储 高清解码
下载PDF
二维RCA空域映射Petri网时间性能分析
11
作者 陈乃金 《计算机工程与应用》 CSCD 2014年第23期41-46,90,共7页
为了更有效地优化粗粒度可重构单元阵列映射加速性能,提出了一种行节点无依赖约束的空域映射调度方法,基于相同条件下,采用时延Petri网对若干个按约束已经被划分映射到可重构单元阵列的数据流子图的运行情况进行了分析,通过一个实例比... 为了更有效地优化粗粒度可重构单元阵列映射加速性能,提出了一种行节点无依赖约束的空域映射调度方法,基于相同条件下,采用时延Petri网对若干个按约束已经被划分映射到可重构单元阵列的数据流子图的运行情况进行了分析,通过一个实例比较了行节点有依赖和无依赖的运行结果,结果表明该种空域映射方法具有可行性。 展开更多
关键词 粗粒度可重构计算机系统 PETRI网 可重构单元阵列 数据流图
下载PDF
一种快速高效的粗粒度可重构架构编译框架 被引量:8
12
作者 尹文志 赵仲元 +2 位作者 毛志刚 王琴 绳伟光 《微电子学与计算机》 北大核心 2019年第8期45-48,53,共5页
利用硬件和软件协同的设计技术来进一步提高粗粒度可重构加速器在处理循环时的编译时间与面积效率(单位面积的性能).在硬件方面将处理单元内部的寄存器堆结构优化,用旁路互联的方式替代.软件方面基于这种结构提出了一种新颖,高效的循环... 利用硬件和软件协同的设计技术来进一步提高粗粒度可重构加速器在处理循环时的编译时间与面积效率(单位面积的性能).在硬件方面将处理单元内部的寄存器堆结构优化,用旁路互联的方式替代.软件方面基于这种结构提出了一种新颖,高效的循环映射算法.该算法相对于同期的研究算法,极大的缩小了搜索最优解决方案的空间.利用前向贪婪和反向回溯迭代运行,可以获得快速而又稳定的编译时间,同时保证了接近最优解的性能.在上述硬件与软件协同的解决方案下,架构的面积与计算效率得到了提升.实验数据显示,将本文的编译框架与最新技术比较,编译速度可提升1955倍,面积效率提升到1.36倍. 展开更多
关键词 粗粒度可重构架构 面积高效 映射算法 回溯
下载PDF
一种面向序列密码的混合粒度并行运算单元 被引量:2
13
作者 曲彤洲 戴紫彬 +1 位作者 陈琳 刘燕江 《电子与信息学报》 EI CSCD 北大核心 2023年第1期78-86,共9页
针对可重构密码处理器对于不同域上的序列密码算法兼容性差、实现性能低的问题,该文分析了序列密码算法的多级并行性并提出了一种反馈移位寄存器(FSR)的预抽取更新模型。进而基于该模型设计了面向密码阵列架构的可重构反馈移位寄存器运... 针对可重构密码处理器对于不同域上的序列密码算法兼容性差、实现性能低的问题,该文分析了序列密码算法的多级并行性并提出了一种反馈移位寄存器(FSR)的预抽取更新模型。进而基于该模型设计了面向密码阵列架构的可重构反馈移位寄存器运算单元(RFAU),兼容不同有限域上序列密码算法的同时,采取并行抽取和流水处理策略开发了序列密码算法的反馈移位寄存器级并行性,从而有效提升了粗粒度可重构阵列(CGRA)平台上序列密码算法的处理性能。实验结果表明与其他可重构处理器相比,对于有限域(GF)(2)上的序列密码算法,RFAU带来的性能提升为23%~186%;对于GF(2u)域上的序列密码算法,性能提升达约66%~79%,且面积效率提升约64%~91%。 展开更多
关键词 粗粒度可重构阵列 序列密码算法 反馈移位寄存器 流水线
下载PDF
基于相似性的粗粒度可重构指令压缩
14
作者 李锦超 赵仲元 绳伟光 《微电子学与计算机》 北大核心 2020年第8期21-26,共6页
粗粒度可重构架构在能效比方面具有明显优势,然而其指令存储与传输过程的功耗代价过高.实验发现指令间具有明显的相似性,由此本文提出一种基于指令相似性的压缩技术,通过对指令的压缩、传输与解压,可以在不降低性能的前提下,优化架构的... 粗粒度可重构架构在能效比方面具有明显优势,然而其指令存储与传输过程的功耗代价过高.实验发现指令间具有明显的相似性,由此本文提出一种基于指令相似性的压缩技术,通过对指令的压缩、传输与解压,可以在不降低性能的前提下,优化架构的功耗和面积.针对同构和异构平台分别提出了指令分发模型和指令寄存器模型的解决方案,结合编译策略优化,最终与两种传统结构相比,面积效率比分别提升36%和181%,功耗效率比分别提升33%和118%. 展开更多
关键词 粗粒度可重构架构 指令压缩 能效比 异构计算
下载PDF
存算解耦合的粗粒度可重构阵列访存结构设计 被引量:1
15
作者 洪途 景乃锋 《计算机工程》 CAS CSCD 北大核心 2021年第2期239-245,共7页
粗粒度可重构阵列架构兼具灵活性和高效性,但高计算吞吐量的特性也会给访存带来压力。在片下动态存储器带宽相对固定的情况下,设计一种存算解耦合的访存结构。将控制逻辑集成在轻量级的存储空间中,通过可配置的存储空间隔离访存和计算... 粗粒度可重构阵列架构兼具灵活性和高效性,但高计算吞吐量的特性也会给访存带来压力。在片下动态存储器带宽相对固定的情况下,设计一种存算解耦合的访存结构。将控制逻辑集成在轻量级的存储空间中,通过可配置的存储空间隔离访存和计算的循环迭代,从而掩盖内存延时,同时利用该结构进行串联和对齐操作,以适配不同的计算访存频率比并优化间接访问过程。实验结果表明,该访存结构在目标架构中能够获得1.84倍的性能优化,其中乱序操作可使间接访问得到平均22%的性能提升。 展开更多
关键词 粗粒度可重构阵列 内存延时 存算解耦合 间接访问 访存结构
下载PDF
Energy-efficient reconfigurable processor for QC-LDPC via adaptive coding-voltage-frequency tuning
16
作者 Chang Libo Hu Yiqing +1 位作者 Du Huimin Wang Jihe 《The Journal of China Universities of Posts and Telecommunications》 EI CSCD 2024年第2期72-84,共13页
To apply a quasi-cyclic low density parity check(QC-LDPC)to different scenarios,a data-stream driven pipelined macro instruction set and a reconfigurable processor architecture are proposed for the typical QC-LDPC alg... To apply a quasi-cyclic low density parity check(QC-LDPC)to different scenarios,a data-stream driven pipelined macro instruction set and a reconfigurable processor architecture are proposed for the typical QC-LDPC algorithm.The data-level parallelism is improved by instructions to dynamically configure the multi-core computing units.Simultaneously,an intelligent adjustment strategy based on a programmable wake-up controller(WuC)is designed so that the computing mode,operating voltage,and frequency of the QC-LDPC algorithm can be adjusted.This adjustment can improve the computing efficiency of the processor.The QC-LDPC processors are verified on the Xilinx ZCU102 field programmable gate array(FPGA)board and the computing efficiency is measured.The experimental results indicate that the QC-LDPC processor can support two encoding lengths of three typical QC-LDPC algorithms and 20 adaptive operating modes of operating voltage and frequency.The maximum efficiency can reach up to 12.18 Gbit/(s·W),which is more flexible than existing state-of-the-art processors for QC-LDPC. 展开更多
关键词 quasi-cyclic low density parity check(QC-LDPC) dynamic voltage and frequency scaling(DVFS) reconfigurable computing coarse-grained reconfigurable arrays(cgras)
原文传递
Efficient and flexible memory architecture to alleviate data and context bandwidth bottlenecks of coarse-grained reconfigurable arrays 被引量:2
17
作者 YANG Chen LIU Lei Bo +1 位作者 YIN Shou Yi WEI Shao Jun 《Science China(Physics,Mechanics & Astronomy)》 SCIE EI CAS 2014年第12期2214-2227,共14页
The computational capability of a coarse-grained reconfigurable array(CGRA)can be significantly restrained due to data and context memory bandwidth bottlenecks.Traditionally,two methods have been used to resolve this ... The computational capability of a coarse-grained reconfigurable array(CGRA)can be significantly restrained due to data and context memory bandwidth bottlenecks.Traditionally,two methods have been used to resolve this problem.One method loads the context into the CGRA at run time.This method occupies very small on-chip memory but induces very large latency,which leads to low computational efficiency.The other method adopts a multi-context structure.This method loads the context into the on-chip context memory at the boot phase.Broadcasting the pointer of a set of contexts changes the hardware configuration on a cycle-by-cycle basis.The size of the context memory induces a large area overhead in multi-context structures,which results in major restrictions on application complexity.This paper proposes a Predictable Context Cache(PCC)architecture to address the above context issues by buffering the context inside a CGRA.In this architecture,context is dynamically transferred into the CGRA.Utilizing a PCC significantly reduces the on-chip context memory and the complexity of the applications running on the CGRA is no longer restricted by the size of the on-chip context memory.Data preloading is the most frequently used approach to hide input data latency and speed up the data transmission process for the data bandwidth issue.Rather than fundamentally reducing the amount of input data,the transferred data and computations are processed in parallel.However,the data preloading method cannot work efficiently because data transmission becomes the critical path as the reconfigurable array scale increases.This paper also presents a Hierarchical Data Memory(HDM)architecture as a solution to the efficiency problem.In this architecture,high internal bandwidth is provided to buffer both reused input data and intermediate data.The HDM architecture relieves the external memory from the data transfer burden so that the performance is significantly improved.As a result of using PCC and HDM,experiments running mainstream video decoding programs achieved performance improvements of 13.57%–19.48%when there was a reasonable memory size.Therefore,1080p@35.7fps for H.264high profile video decoding can be achieved on PCC and HDM architecture when utilizing a 200 MHz working frequency.Further,the size of the on-chip context memory no longer restricted complex applications,which were efficiently executed on the PCC and HDM architecture. 展开更多
关键词 memory architecture cgra context cache cache prefetch data memory
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部