类脑处理器较深度学习处理器具有能效优势.类脑处理器的片上互连一般采用具有可扩展性高、吞吐量高和通用性高等特点的片上网络.为了解决采用同步片上网络面临的全局时钟树时序难以收敛的问题以及采用异步片上网络面临的链路延迟匹配、...类脑处理器较深度学习处理器具有能效优势.类脑处理器的片上互连一般采用具有可扩展性高、吞吐量高和通用性高等特点的片上网络.为了解决采用同步片上网络面临的全局时钟树时序难以收敛的问题以及采用异步片上网络面临的链路延迟匹配、缺乏电子设计自动化工具实现和验证的问题,提出了一种异步片上网络架构——NosralC,用于构建全局异步局部同步(global asynchronous local synchronous,GALS)的多核类脑处理器.NosralC采用异步链路和同步路由器实现.实验表明,NosralC较同步基线,在4个类脑应用数据集下展现出37.5%~38.9%的功耗降低、5.5%~8.0%的平均延迟降低和36.7%~47.6%的能效提升,同时增加不多于6%的额外资源以及带来较小的性能开销(吞吐量降低0.8%~2.4%).NosralC在现场可编程门阵列(FPGA)上得到了验证,证明了该架构的可实现性.展开更多
微系统芯片(System-on-Chip,SoC)发展到今天,集成密度指数增长和芯片面积的急剧膨胀使得全局连线的延时上升,可靠性下降,成为集成电路的设计瓶颈.片上网络(Network-on-Chip,NoC)是解决整个芯片上数据有效传输的结构之一,以片上网络为基...微系统芯片(System-on-Chip,SoC)发展到今天,集成密度指数增长和芯片面积的急剧膨胀使得全局连线的延时上升,可靠性下降,成为集成电路的设计瓶颈.片上网络(Network-on-Chip,NoC)是解决整个芯片上数据有效传输的结构之一,以片上网络为基础通信架构的微系统芯片称为片上网上系统芯片(System-on-Network-on-Chip,SoNoC).微系统芯片内通信模式兼有随机性和确定性,应该根据特定应用的通信特征设计片上网络.本文在确定SoNoC设计流程的基础上,根据SoNoC的通信特征,选择了合适的离散平面结构,对SoNoC的运算及控制等模块进行布局、对模块间的通信依赖关系进行布线,发展出FRoD(Floor-plan and Routing on Discrete Plane)算法,以自动生成片上网络的拓扑结构.该算法定义了离散平面的一般表示方法,并在四种典型的离散平面上使用不同规模的随机系统完成了系列实验.为了处理系统和网络之间的耦合关系,逐点分裂的布局算法可以逐步学习和适应系统的通信需求,同时优化系统的执行时间和通信能量,在运行随机任务流图的模拟系统上与随机布局结果相比可以节省30%左右的通信能量,20%左右的系统通信时间.串行、并行和串并混合的布线算法使用最短路径把通信关系分布在离散平面的通道上,使不同的通信关系尽量复用网络通道,与全连接网络相比可以节省10%到30%的面积代价.展开更多
针对片上网络(network on chip,简称NoC)的节点数量少、距离近、物理实现复杂度受到限制的特点,提出了一种新的Xmesh拓扑结构,并为该结构提出了XM路由算法.该结构在经典的mesh结构的基础上添加了两个对角线型的回边,缩短了节点间的距离...针对片上网络(network on chip,简称NoC)的节点数量少、距离近、物理实现复杂度受到限制的特点,提出了一种新的Xmesh拓扑结构,并为该结构提出了XM路由算法.该结构在经典的mesh结构的基础上添加了两个对角线型的回边,缩短了节点间的距离,而且路由计算的复杂性不高,实现的复杂度基本没有增加.将Xmesh与经典的Mesh和Torus结构进行了理论分析比较,同时,在Popnet模拟器上基于均衡负载和热点负载两种负载模式进行性能比较.模拟结果表明,Xmesh平均延时不到Mesh结构的70%.对于均衡负载,当网络规模较小时,Xmesh的延时比Torus的更小;对于热点负载,当热点距离网络中心或者对角线比较近时,Xmesh的延时比Torus的小10%~30%.反之,其延时比Torus的大10%~30%.总的来说,Xmesh的性能与Torus比较接近,但其物理实现更为简单,Xmesh比Mesh结构的性能更好.展开更多
文摘类脑处理器较深度学习处理器具有能效优势.类脑处理器的片上互连一般采用具有可扩展性高、吞吐量高和通用性高等特点的片上网络.为了解决采用同步片上网络面临的全局时钟树时序难以收敛的问题以及采用异步片上网络面临的链路延迟匹配、缺乏电子设计自动化工具实现和验证的问题,提出了一种异步片上网络架构——NosralC,用于构建全局异步局部同步(global asynchronous local synchronous,GALS)的多核类脑处理器.NosralC采用异步链路和同步路由器实现.实验表明,NosralC较同步基线,在4个类脑应用数据集下展现出37.5%~38.9%的功耗降低、5.5%~8.0%的平均延迟降低和36.7%~47.6%的能效提升,同时增加不多于6%的额外资源以及带来较小的性能开销(吞吐量降低0.8%~2.4%).NosralC在现场可编程门阵列(FPGA)上得到了验证,证明了该架构的可实现性.
文摘微系统芯片(System-on-Chip,SoC)发展到今天,集成密度指数增长和芯片面积的急剧膨胀使得全局连线的延时上升,可靠性下降,成为集成电路的设计瓶颈.片上网络(Network-on-Chip,NoC)是解决整个芯片上数据有效传输的结构之一,以片上网络为基础通信架构的微系统芯片称为片上网上系统芯片(System-on-Network-on-Chip,SoNoC).微系统芯片内通信模式兼有随机性和确定性,应该根据特定应用的通信特征设计片上网络.本文在确定SoNoC设计流程的基础上,根据SoNoC的通信特征,选择了合适的离散平面结构,对SoNoC的运算及控制等模块进行布局、对模块间的通信依赖关系进行布线,发展出FRoD(Floor-plan and Routing on Discrete Plane)算法,以自动生成片上网络的拓扑结构.该算法定义了离散平面的一般表示方法,并在四种典型的离散平面上使用不同规模的随机系统完成了系列实验.为了处理系统和网络之间的耦合关系,逐点分裂的布局算法可以逐步学习和适应系统的通信需求,同时优化系统的执行时间和通信能量,在运行随机任务流图的模拟系统上与随机布局结果相比可以节省30%左右的通信能量,20%左右的系统通信时间.串行、并行和串并混合的布线算法使用最短路径把通信关系分布在离散平面的通道上,使不同的通信关系尽量复用网络通道,与全连接网络相比可以节省10%到30%的面积代价.
基金Supported by the National Natural Foundation of China for Distinguished Young Scholars under Grant No.60325205(国家杰出青年基金)the National Natural Science Foundation of China under Grant No.60673146(国家自然科学基金)+6 种基金the National High-Tech Research and Development Plan of China under Grant Nos.2005AA1100102005AAl19020(国家高技术研究发展计划(863))the National Basic Research Program of China under Grant No.2005CB321600(国家重点基础研究发展计划(973))the Natural Science Foundation of Beijing of China under Grant No.4072024(北京市自然科学基金)Knowledge Innovation Program of the Institute of Computing Technologythe Chinese Academy of Sciences under Grant Nos.2005624020066012(中国科学院计算技术研究所知识创新课题)
文摘针对片上网络(network on chip,简称NoC)的节点数量少、距离近、物理实现复杂度受到限制的特点,提出了一种新的Xmesh拓扑结构,并为该结构提出了XM路由算法.该结构在经典的mesh结构的基础上添加了两个对角线型的回边,缩短了节点间的距离,而且路由计算的复杂性不高,实现的复杂度基本没有增加.将Xmesh与经典的Mesh和Torus结构进行了理论分析比较,同时,在Popnet模拟器上基于均衡负载和热点负载两种负载模式进行性能比较.模拟结果表明,Xmesh平均延时不到Mesh结构的70%.对于均衡负载,当网络规模较小时,Xmesh的延时比Torus的更小;对于热点负载,当热点距离网络中心或者对角线比较近时,Xmesh的延时比Torus的小10%~30%.反之,其延时比Torus的大10%~30%.总的来说,Xmesh的性能与Torus比较接近,但其物理实现更为简单,Xmesh比Mesh结构的性能更好.