存内计算(Computing In Memory,CIM)在人工智能神经网络的卷积运算方面具有巨大的应用潜力。基于忆阻器阵列的多位存内计算由于具备写入速度快、与互补金属氧化物半导体(Complementary Metal Oxide Semiconductor,CMOS)工艺兼容等特点,...存内计算(Computing In Memory,CIM)在人工智能神经网络的卷积运算方面具有巨大的应用潜力。基于忆阻器阵列的多位存内计算由于具备写入速度快、与互补金属氧化物半导体(Complementary Metal Oxide Semiconductor,CMOS)工艺兼容等特点,有望成为解决“内存墙”的有效手段。然而,当前多位存内计算电路架构面临输出延时高和能耗大的问题,主要原因为传统感知放大器的性能制约,为此本文提出了一种低延时低能耗多位电流型感知放大器(Low-delay Low-power Multi-bit Current-mode Sense Amplifier,LLM-CSA),通过减少传统CSA电路工作状态数量、简化工作时序来优化功能;采用新型低位检测模块的电路设计思路,来多层次系统性地降低输出延时并优化能耗。使用中芯国际40 nm低漏电逻辑工艺(SMIC40 nm LL),利用Cadence电路设计平台,仿真验证所提LLM-CSA的功能和延时-能耗性能。通过对比分析发现:LLM-CSA比传统CSA输出延时降低1.42倍,能量消耗降低1.56倍。进一步地,以一种4 bit输入、4 bit权重、11 bit输出的忆阻器阵列多位存内计算架构为应用,对比验证所提LLM-CSA的性能:与基于传统CSA的存内计算系统相比,新架构延时降低1.18倍,能耗降低1.03倍。LLM-CSA的提出对促进感知放大器设计思路和忆阻器阵列存内计算架构的发展,具有一定的理论和现实意义。展开更多
存内计算(CIM,Computing in Memory)是一种为缓解“内存墙”和“功耗墙”而出现的新兴架构。因CPU处理器和存储器速度发展不均衡性,冯·诺依曼架构这类中央处理器与存储器分离的结构逐渐失去其优越性。存内计算提出以计算和存储相...存内计算(CIM,Computing in Memory)是一种为缓解“内存墙”和“功耗墙”而出现的新兴架构。因CPU处理器和存储器速度发展不均衡性,冯·诺依曼架构这类中央处理器与存储器分离的结构逐渐失去其优越性。存内计算提出以计算和存储相结合的方式来减少数据的搬移,极大地提升了计算效率。MRAM作为最有潜力的新一代非易失存储器件,被视为构建高效存内计算架构的有力候选者。以MRAM为基础构建的存内计算根据计算过程的不同可分为MRAM模拟存内计算和MRAM数字存内计算。数字存内计算又可以根据数字逻辑产生的方式分为MRAM写入式存内计算、MRAM读取式存内计算以及MRAM近存计算。MRAM模拟存内计算利用高并行度摊销能耗,在单位面积上,吞吐量和能效都具有数字存内计算无法比拟的优势,但也因其易受PVT影响等特征在实际应用中有所限制。MRAM数字存内计算实现方式多样,写入式存内计算几乎消除了存储器外的数据搬移,虽然当前工艺下的MRAM所需的翻转能耗和时延过大,导致该方式一直停留在仿真阶段,但不妨碍该存内计算是缓解“内存墙”最有效的手段之一;读取式存内计算严重依赖于读取放大器的功能设计,在相关领域有所发展,但所受限制较大;近存计算是当前MRAM非易失器件和CMOS电路在计算速度和计算能效差异较大的情况下,融合两者优势的优解,在实际应用中具有巨大的益处。展开更多
文摘存内计算(CIM,Computing in Memory)是一种为缓解“内存墙”和“功耗墙”而出现的新兴架构。因CPU处理器和存储器速度发展不均衡性,冯·诺依曼架构这类中央处理器与存储器分离的结构逐渐失去其优越性。存内计算提出以计算和存储相结合的方式来减少数据的搬移,极大地提升了计算效率。MRAM作为最有潜力的新一代非易失存储器件,被视为构建高效存内计算架构的有力候选者。以MRAM为基础构建的存内计算根据计算过程的不同可分为MRAM模拟存内计算和MRAM数字存内计算。数字存内计算又可以根据数字逻辑产生的方式分为MRAM写入式存内计算、MRAM读取式存内计算以及MRAM近存计算。MRAM模拟存内计算利用高并行度摊销能耗,在单位面积上,吞吐量和能效都具有数字存内计算无法比拟的优势,但也因其易受PVT影响等特征在实际应用中有所限制。MRAM数字存内计算实现方式多样,写入式存内计算几乎消除了存储器外的数据搬移,虽然当前工艺下的MRAM所需的翻转能耗和时延过大,导致该方式一直停留在仿真阶段,但不妨碍该存内计算是缓解“内存墙”最有效的手段之一;读取式存内计算严重依赖于读取放大器的功能设计,在相关领域有所发展,但所受限制较大;近存计算是当前MRAM非易失器件和CMOS电路在计算速度和计算能效差异较大的情况下,融合两者优势的优解,在实际应用中具有巨大的益处。