期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于原补码实现的位串行SRAM存内计算
1
作者 徐伟栋 娄冕 +2 位作者 李立 张凯 龚龙庆 《北京理工大学学报》 EI CAS CSCD 北大核心 2024年第10期1095-1104,共10页
针对目前大多数存内计算无法独立处理非卷积计算的问题,提出了一种将转置8T单元与基于向量的位串行存内运算相结合的通用混合型存内计算.采用原码一位乘、补码加法和溢出激活处理,可支持任意位宽的整数/小数及正/负数的乘累加操作,也可... 针对目前大多数存内计算无法独立处理非卷积计算的问题,提出了一种将转置8T单元与基于向量的位串行存内运算相结合的通用混合型存内计算.采用原码一位乘、补码加法和溢出激活处理,可支持任意位宽的整数/小数及正/负数的乘累加操作,也可单独完成池化和激活操作,为从神经网络到信号处理等软件算法的发展提供了必要的灵活性和可编程性,减少了数据在总线上的传输.提出的存内计算在1.2V和500MHz条件下对8位运算的吞吐量为71.3GOPs,能效为20.63TOPS/W,支持灵活位宽的卷积操作,同时减少了数据移动,提高了能效和整体性能. 展开更多
关键词 存内计算 深度神经网络 静态随机存取存储器 能效
下载PDF
一种面向多核独享L2 Cache的缓存一致性设计实现
2
作者 马良骥 杨靓 +2 位作者 肖建青 娄冕 赵翠华 《微电子学与计算机》 2023年第10期102-109,共8页
近年来,独享L2 Cache是实现高性能多核处理器的主流架构,但是该架构在维护Cache一致性上需要多次访存,增加了系统开销.为此,本文基于PowerPC指令架构实现了一种基于私有Cache状态机与片上总线监测机制相融合的多核缓存一致性设计,使处... 近年来,独享L2 Cache是实现高性能多核处理器的主流架构,但是该架构在维护Cache一致性上需要多次访存,增加了系统开销.为此,本文基于PowerPC指令架构实现了一种基于私有Cache状态机与片上总线监测机制相融合的多核缓存一致性设计,使处理器之间可以直接通过干涉接口交互数据.采用硬件描述语言Verilog HDL设计并实现了该多核缓存结构,仿真结果表明,在实现缓存一致性时,这种具有干涉路径的结构相比于传统访存方法最大能够节省87.06%的时间开销,有效地提升了多核处理器性能.最后经过实物芯片在板级上的测试,与仿真结果保持一致. 展开更多
关键词 多核一致性 独享L2 Cache PLB总线 干涉接口
下载PDF
基于Chisel语言的RISC-V处理器设计技术 被引量:6
3
作者 娄冕 张海金 +2 位作者 杨靓 刘思源 赵亮 《微电子学与计算机》 2021年第3期51-55,共5页
近年来,RISC-V在处理器领域的大行其道,不仅仅在于其开源可扩展的指令集架构属性,同时也得益于加州大学伯克利分校为其量身打造的敏捷化设计语言Chisel,极大降低了处理器设计门槛.本文基于Chisel语言设计实现了一款带有扩展指令协处理... 近年来,RISC-V在处理器领域的大行其道,不仅仅在于其开源可扩展的指令集架构属性,同时也得益于加州大学伯克利分校为其量身打造的敏捷化设计语言Chisel,极大降低了处理器设计门槛.本文基于Chisel语言设计实现了一款带有扩展指令协处理器的多核RISC-V芯片,相对于传统的硬件设计语言,将硬件IP的设计与集成周期压缩50%以上,并且依靠丰富的模板资源,能够快速完成拓扑互连、时序分割、跨时钟域转换等影响处理器整体性能的全局性优化设计,将芯片验证与实现的迭代周期缩短30%以上,为开源处理器敏捷化开发探索了行之有效的技术手段. 展开更多
关键词 Chisel RISC-V 处理器 敏捷化
下载PDF
一种片内硬件调试支持单元设计 被引量:1
4
作者 娄冕 赵翠华 +2 位作者 张洵颖 吴龙胜 刘佑宝 《现代电子技术》 2010年第24期18-22,共5页
该模块通过AHB总线接口监听总线通信内容并将其实时记录于缓冲器中,用户可以通过该缓冲域观察系统运转;它支持在断点/观察点以及处理器陷阱等条件下通过挂起处理器进行系统诊断,同时其内部多级地址译码机制可以对所有片上控制存储单元... 该模块通过AHB总线接口监听总线通信内容并将其实时记录于缓冲器中,用户可以通过该缓冲域观察系统运转;它支持在断点/观察点以及处理器陷阱等条件下通过挂起处理器进行系统诊断,同时其内部多级地址译码机制可以对所有片上控制存储单元进行定位,方便用户进行调试。通过专用的调试通信链路,用户可以方便地对嵌入式系统进行远程调试。 展开更多
关键词 AHB 硬件调试 跟踪缓冲 通用异步收发器
下载PDF
一种面向包含式缓存的共享末级缓存管理策略
5
作者 娄冕 肖建青 +2 位作者 张洵颖 吴龙胜 关刚强 《北京理工大学学报》 EI CAS CSCD 北大核心 2016年第1期75-80,共6页
针对传统LRU替换策略无法感知包含式缓存时间局部性的问题,提出一种适用于包含式缓存的共享末级缓存(SLLC)管理策略.通过提前将无用数据存储于一个开销较小的旁路缓存,可以避免其与复用频率较高数据对SLLC的资源竞争,同时维护了包含属性... 针对传统LRU替换策略无法感知包含式缓存时间局部性的问题,提出一种适用于包含式缓存的共享末级缓存(SLLC)管理策略.通过提前将无用数据存储于一个开销较小的旁路缓存,可以避免其与复用频率较高数据对SLLC的资源竞争,同时维护了包含属性.为进一步寻找复用性最低的数据作为替换对象,构建一种局部性检测电路,有助于将此类数据尽早驱逐出SLLC,文中提出一种统一的管理算法,受益于两种预测器的相互校准,从而达到无用块旁路和低重用块替换的目的.实验结果表明,所提策略将SLLC缺失率平均降低21.67%,预测精度提升至72%,而硬件开销不到SLLC的1%. 展开更多
关键词 包含式缓存 管理策略 共享末级缓存 多核
下载PDF
复用存储控制接口的高性能SoC测试结构
6
作者 娄冕 肖建青 +2 位作者 张洵颖 吴龙胜 关刚强 《北京理工大学学报》 EI CAS CSCD 北大核心 2015年第5期500-505,共6页
为缩短SoC的测试时间并减少测试硬件开销,提出一种高性能SoC测试结构.通过重用存储控制逻辑作为测试接口,可以消除传统双向测试总线寄生的时间间隙,同时建立的流水化测试时序,避免了测试通道中引入的关键路径;针对功能和结构双重测试需... 为缩短SoC的测试时间并减少测试硬件开销,提出一种高性能SoC测试结构.通过重用存储控制逻辑作为测试接口,可以消除传统双向测试总线寄生的时间间隙,同时建立的流水化测试时序,避免了测试通道中引入的关键路径;针对功能和结构双重测试需求,复用片上总线系统作为测试访问机制结构并对其进行无损式改造,减少了测试访问的等待时长;同时构建的一种不依赖于目标核的测试环,维持了测试通道与扫描链之间的带宽平衡.实验结果表明,引入的测试结构使得测试时间缩短68%,面积开销下降36.1%,同时有效降低了对原始芯片性能的影响. 展开更多
关键词 存储接口 测试访问机制 片上总线 测试环
下载PDF
基于AHB总线UART核的设计
7
作者 娄冕 张洵颖 +1 位作者 吴龙胜 刘佑宝 《微计算机信息》 2011年第1期83-85,共3页
本文介绍一种能够挂载于高速总线AHB的UART核。它充分利用了AMBA2.0协议对高速总线通信方式的规定,实现了慢速设备与高速总线的兼容。设计的一种自适应波特率发生器,通过对串行线路上的数据位进行精确周期采样计数,能够自动得出串行数... 本文介绍一种能够挂载于高速总线AHB的UART核。它充分利用了AMBA2.0协议对高速总线通信方式的规定,实现了慢速设备与高速总线的兼容。设计的一种自适应波特率发生器,通过对串行线路上的数据位进行精确周期采样计数,能够自动得出串行数据波特率;本设计同时在数据链路层实现了一个协议转换模块,通过规定协议的方式完成UART帧格式与AHB数据格式的相互转换,而协议中增加的自控信息,使得串行数据能够更快的转换成高速总线上的并行信号。该IP采用硬件描述语言(VHDL)设计,核心部件采用有限状态机(FSM)实现,最终形成可复用的IP软核。 展开更多
关键词 AHB UART 波特率发生器 有限状态机
下载PDF
一种改进的基于Kogge-Stone结构的并行前缀加法器 被引量:3
8
作者 赵翠华 娄冕 +1 位作者 张洵颖 沈绪榜 《微电子学与计算机》 CSCD 北大核心 2011年第2期47-50,共4页
基于并行前缀算法的Kogge-Stone结构,通过改进其结构层次上的逻辑电路,提出一种改进的并行前缀加法器.与传统电路相比,该加法器不仅可以减小面积、功耗和延时,而且随着位宽的加大其优势更加明显,是适用于宽位的并行前缀加法器.
关键词 并行前缀算法 Kogge-Stone结构 并行前缀加法器
下载PDF
SRAM存内计算技术综述 被引量:6
9
作者 龚龙庆 徐伟栋 娄冕 《微电子学与计算机》 2021年第9期1-7,共7页
在处理深度神经网络这类数据密集型应用的过程中,处理器和存储器间大量数据的频繁传输会造成严重的性能损耗和能量消耗,也是当前冯·诺伊曼架构最大的瓶颈.针对传统冯·诺伊曼体系架构的局限性,基于SRAM的存内计算技术将运算单... 在处理深度神经网络这类数据密集型应用的过程中,处理器和存储器间大量数据的频繁传输会造成严重的性能损耗和能量消耗,也是当前冯·诺伊曼架构最大的瓶颈.针对传统冯·诺伊曼体系架构的局限性,基于SRAM的存内计算技术将运算单元集成到内存中,支持数据的即存即算,彻底突破了冯·诺伊曼瓶颈,有望成为新一代智能计算架构.本文从体系结构的角度阐明了冯·诺伊曼架构所引起的"功耗墙"和"存储墙"问题,并给出了存内计算技术的兴起原因.文章围绕近几年国内外关于SRAM存内计算架构的研究,以其中几种经典架构为例描述了各类SRAM存内计算的工作机理、优缺点及意义,并从器件级、电路级和架构级的角度分别概述了目前关于SRAM存内计算技术的关键影响因素.SRAM存内计算技术潜力巨大,用途广泛,将会给机器学习应用,图计算应用和基因工程提供高效低能耗的系统结构支持,最后展望了未来几年内SRAM存内计算技术在器件、电路和架构方面的发展情况. 展开更多
关键词 数据密集型应用 冯·诺伊曼架构 SRAM 存内计算
下载PDF
一种低功耗的多端口寄存器文件结构设计
10
作者 肖建青 娄冕 +1 位作者 张洵颖 沈绪榜 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第8期2914-2922,共9页
为了降低寄存器功耗而不损失处理器性能,提出一种基于读写队列的多体寄存器文件结构(multi-bank register file,MBRF)。该结构使用多个寄存器体来分担多端口的访问压力,并且为每个寄存器体设置相应的读写队列;通过指令分解将读写操作缓... 为了降低寄存器功耗而不损失处理器性能,提出一种基于读写队列的多体寄存器文件结构(multi-bank register file,MBRF)。该结构使用多个寄存器体来分担多端口的访问压力,并且为每个寄存器体设置相应的读写队列;通过指令分解将读写操作缓存在队列中,从而消除多体结构潜在的访问冲突;采用组合和旁路2种分配策略,减少缓冲队列的长度和对寄存器的读写请求。该结构在一个四发射的超标量模拟器上进行评估。研究结果表明:整个寄存器文件最终节省了52%的功耗,而处理器的IPC损失仅为1.6%。与其他寄存器文件相比,基于读写队列的MBRF结构在多发射处理器应用中具有明显的优势。 展开更多
关键词 多发射 多体寄存器文件 读写队列 访问冲突 指令分解
下载PDF
面向军用电子系统的高性能高可靠处理器设计技术 被引量:2
11
作者 张海金 苏若皓 +3 位作者 崔媛媛 娄冕 刘思源 郭娜娜 《微电子学与计算机》 北大核心 2020年第3期66-70,共5页
随着军用电子系统的信息化、智能化、集成化水平不断提升,其所需实现的任务种类和数量越来越多,其所处作战环境也越来越复杂,使得其对高性能高可靠处理器的需求越来越迫切.针对军用电子系统对处理器的高性能应用需求,本文运用双发射指... 随着军用电子系统的信息化、智能化、集成化水平不断提升,其所需实现的任务种类和数量越来越多,其所处作战环境也越来越复杂,使得其对高性能高可靠处理器的需求越来越迫切.针对军用电子系统对处理器的高性能应用需求,本文运用双发射指令执行技术、分支预测优化技术以及紧耦合的片上存储管理技术等提升处理器的指令执行效率;针对军用电子系统对处理器的高可靠应用需求,本文应用基于锁步结构的指令恢复技术来提高处理器的容错能力,并采用ECC校验技术和冗余备份技术来提高片上存储系统的纠检错能力和可靠性水平.最终,实现了一款性能达到2 DMIPS/MHz、主频达到300 MHz的面向军用电子系统高性能高可靠处理器. 展开更多
关键词 双发射 紧耦合存储管理 锁步控制 ECC校验
下载PDF
基于RISC-V调试协议的片上调试系统设计与实现 被引量:3
12
作者 许霁航 杨靓 +1 位作者 娄冕 张海金 《微电子学与计算机》 2022年第12期86-92,共7页
为满足RISC-V架构生态中对RISC-V平台软件调试的需求,设计并实现了一种基于RISC-V调试协议的片上调试系统.该系统通过调试传输模块实现并隐藏调试模块内部寄存器访问逻辑,将其简化为JTAG串行信号实现与宿主机的交互,并通过调试模块实现... 为满足RISC-V架构生态中对RISC-V平台软件调试的需求,设计并实现了一种基于RISC-V调试协议的片上调试系统.该系统通过调试传输模块实现并隐藏调试模块内部寄存器访问逻辑,将其简化为JTAG串行信号实现与宿主机的交互,并通过调试模块实现了调试所必需的处理器全面监控与存储访问功能.在基本调试功能的基础上,进一步实现了总线直接访问、程序缓存和基于触发模块的触发功能,并在兼容RISC-V调试协议的情况下实现了事件序列触发功能.该片上调试系统依托于自研RISC-V处理器硬件平台,通过GDB与OpenOCD构成的宿主机软件环境进行功能测试.经过与其他RISC-V架构处理器对比和FPGA测试表明,该片上调试系统功能丰富,能够满足目前RISC-V平台调试的功能需求. 展开更多
关键词 RISC-V 软件调试 远程调试 触发模块
下载PDF
一类基于AMBA总线的SDRAM控制器设计 被引量:1
13
作者 孟中峰 娄冕 +2 位作者 张洵颖 龚龙庆 李振辉 《微电子学与计算机》 CSCD 北大核心 2014年第9期113-117,共5页
提出一类SDRAM控制器的设计方法,针对SDR SDRAM的突发特性,采用数据预读取机制提高SDRAM的读取效率,同时又加入了写指令FIFO消除读缓存带来的负面影响.并且以该控制器在AHB总线的集成为例,实现了控制器在SoC中的应用.功能仿真和FPGA验... 提出一类SDRAM控制器的设计方法,针对SDR SDRAM的突发特性,采用数据预读取机制提高SDRAM的读取效率,同时又加入了写指令FIFO消除读缓存带来的负面影响.并且以该控制器在AHB总线的集成为例,实现了控制器在SoC中的应用.功能仿真和FPGA验证均表明本设计能够准确高效地实现对SDR SDRAM的访问控制. 展开更多
关键词 SDR SDRAM SDRAM控制器 AHB
下载PDF
一种2D权值固定数据流架构的研究
14
作者 程智 杨靓 +1 位作者 王硕 娄冕 《微电子学与计算机》 2021年第2期30-33,共4页
随着人工智能算法的发展,卷积神经网络(CNN)在图像、音频等方面的应用越来越广泛,CNN算法的计算量也越来越大.权值固定数据流(WS)将权值固定在寄存器中,是一种最大化利用卷积重用和filter重用的数据流.不过当前的权值固定数据流结构存... 随着人工智能算法的发展,卷积神经网络(CNN)在图像、音频等方面的应用越来越广泛,CNN算法的计算量也越来越大.权值固定数据流(WS)将权值固定在寄存器中,是一种最大化利用卷积重用和filter重用的数据流.不过当前的权值固定数据流结构存在建立流水线时间过长的问题.本文研究了一种去除PE(Process Element)行之间的FIFO,用加法器连接PE行的2D权值固定数据流结构.这种2D权值固定的数据流结构计算AlexNet时减少了近2.7倍建立流水线时间,并且能够灵活地调整卷积步长. 展开更多
关键词 卷积神经网络 权值固定 数据流 CNN加速器 流水线
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部