随着高性能处理器集成度、面积以及工作频率的不断增加,时钟动态功耗呈指数级增加,时钟分布不均导致跨时钟域的同步开销显著增大,这些问题逐渐成为制约处理器能效提升的瓶颈.通常处理器核的功耗占多核处理器整体功耗超过70%,而时钟功耗...随着高性能处理器集成度、面积以及工作频率的不断增加,时钟动态功耗呈指数级增加,时钟分布不均导致跨时钟域的同步开销显著增大,这些问题逐渐成为制约处理器能效提升的瓶颈.通常处理器核的功耗占多核处理器整体功耗超过70%,而时钟功耗是处理器核功耗的主要组成部分.数字方式的系统动态调频DFS(Dynamic Frequency Scaling)降频的方法需要触发时钟中断例外重新配置时钟生成模块锁相环的相关寄存器,由此带来系统超过毫秒级等待时间开销;而模拟方式连续自适应调节AFS(Adaptive Frequency Scaling)频率变化过程中存在频率过冲响应会增加物理时序设计压力.与此同时功耗的调节降低要以高性能为前提.片上时钟分布长延时随PVT(Process Voltage Temperature)变化产生的不确定时钟相位偏差,为此物理设计增加时序冗余补偿会直接影响到处理器性能.本文提出了新的基于解耦去偏斜锁相环De-skew PLL(De-skew Phase Locked Loop)的同步间歇时钟系统,采用12 nm CMOS工艺实现了去偏斜锁相环的设计,并对整个系统进行了时序性能和时钟功耗的评估.该系统一方面可以利用去偏斜锁相环的远端时钟反馈技术实现不同时钟域之间的实时相位对齐,同时也可以抵抗反馈环内时钟分布延时随PVT的变化;另一方面可以利用新增加的解耦模块,无频率过冲地响应处理器核内产生的时钟间歇控制(时钟脉冲间断性停拍)信号降频,从而实现亚纳秒级时钟动态功耗控制.以12 nm工艺同步级联结构为例,每层时钟分布校准后同步偏差小于10 ps.使用16核LS3C5000处理器RTL在仿真加速平台上运行SPEC CPU 2000测试集来评估本方案对处理器核时钟功耗的影响,并进一步通过PTPX后仿真验证,结果表明,定点及浮点程序平均功耗节约分别大于4.5%和20.3%.展开更多
文摘随着高性能处理器集成度、面积以及工作频率的不断增加,时钟动态功耗呈指数级增加,时钟分布不均导致跨时钟域的同步开销显著增大,这些问题逐渐成为制约处理器能效提升的瓶颈.通常处理器核的功耗占多核处理器整体功耗超过70%,而时钟功耗是处理器核功耗的主要组成部分.数字方式的系统动态调频DFS(Dynamic Frequency Scaling)降频的方法需要触发时钟中断例外重新配置时钟生成模块锁相环的相关寄存器,由此带来系统超过毫秒级等待时间开销;而模拟方式连续自适应调节AFS(Adaptive Frequency Scaling)频率变化过程中存在频率过冲响应会增加物理时序设计压力.与此同时功耗的调节降低要以高性能为前提.片上时钟分布长延时随PVT(Process Voltage Temperature)变化产生的不确定时钟相位偏差,为此物理设计增加时序冗余补偿会直接影响到处理器性能.本文提出了新的基于解耦去偏斜锁相环De-skew PLL(De-skew Phase Locked Loop)的同步间歇时钟系统,采用12 nm CMOS工艺实现了去偏斜锁相环的设计,并对整个系统进行了时序性能和时钟功耗的评估.该系统一方面可以利用去偏斜锁相环的远端时钟反馈技术实现不同时钟域之间的实时相位对齐,同时也可以抵抗反馈环内时钟分布延时随PVT的变化;另一方面可以利用新增加的解耦模块,无频率过冲地响应处理器核内产生的时钟间歇控制(时钟脉冲间断性停拍)信号降频,从而实现亚纳秒级时钟动态功耗控制.以12 nm工艺同步级联结构为例,每层时钟分布校准后同步偏差小于10 ps.使用16核LS3C5000处理器RTL在仿真加速平台上运行SPEC CPU 2000测试集来评估本方案对处理器核时钟功耗的影响,并进一步通过PTPX后仿真验证,结果表明,定点及浮点程序平均功耗节约分别大于4.5%和20.3%.