期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
高性能自研处理器物理设计频率提升方法
1
作者 何小威 乐大珩 +2 位作者 郭维 隋兵才 邓全 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1429-1435,共7页
提升处理器核的频率是提升处理器性能的重要手段.传统的物理设计流程难以实现高主频的处理器核.基于业界主流的布局布线工具,通过嵌入手工定制部件的网表、逻辑和物理设计协同优化、优化定制布线规则、优化物理设计方法学等组合策略.在... 提升处理器核的频率是提升处理器性能的重要手段.传统的物理设计流程难以实现高主频的处理器核.基于业界主流的布局布线工具,通过嵌入手工定制部件的网表、逻辑和物理设计协同优化、优化定制布线规则、优化物理设计方法学等组合策略.在相同工艺、面积、功耗对等条件下,达到流片签核要求时,自研处理器核物理设计频率比原始设计可提升约30%. 展开更多
关键词 布局布线 协同优化 物理设计 签核 频率
下载PDF
MVSim:面向VLIW多核向量处理器的快速、可扩展和精确的体系结构模拟器
2
作者 刘仲 李程 +3 位作者 田希 刘胜 邓让钰 钱程东 《计算机工程与科学》 CSCD 北大核心 2024年第2期191-199,共9页
设计了一个面向VLIW多核向量处理器的快速、可扩展、精确的体系结构模拟器MVSim。设计了可扩展的VLIW多核向量处理器模型、多级存储体系结构模型和多核性能模型;实现了指令集架构的节拍精准模拟,Cache、DMA和多核同步部件的高效功能模拟... 设计了一个面向VLIW多核向量处理器的快速、可扩展、精确的体系结构模拟器MVSim。设计了可扩展的VLIW多核向量处理器模型、多级存储体系结构模型和多核性能模型;实现了指令集架构的节拍精准模拟,Cache、DMA和多核同步部件的高效功能模拟,采用多线程技术实现了多核处理器的高效和可扩展模拟。实验结果表明,MVSim能够准确模拟多核处理器的目标程序执行,模拟结果完全正确,具有良好的可扩展性。MVSim的平均模拟速度分别是RTL模拟和CCS的227倍和5倍,平均性能误差约为2.9%。 展开更多
关键词 体系结构模拟器 VLIW 多核向量处理器模型 性能模型 节拍精准模拟器
下载PDF
处理器值预测技术研究
3
作者 黄立波 杨凌 +5 位作者 杨乾明 马胜 王永文 隋兵才 沈立 徐炜遐 《电子学报》 EI CAS CSCD 北大核心 2023年第12期3591-3618,共28页
当今的处理器性能与存储器带宽和延迟严重失衡的问题限制了计算系统的整体性能,而存储器的性能对制程工艺不敏感,在后摩尔时代下很难再通过集成电路制造工艺的迭代获得处理器性能收益,因此人们更多地想通过体系结构的创新获得更高性能... 当今的处理器性能与存储器带宽和延迟严重失衡的问题限制了计算系统的整体性能,而存储器的性能对制程工艺不敏感,在后摩尔时代下很难再通过集成电路制造工艺的迭代获得处理器性能收益,因此人们更多地想通过体系结构的创新获得更高性能的计算系统.处理器值预测技术是一种能在无需改变存储系统情况下有效缓解存储墙问题的解决方案,其通过预测性地打破数据真相关进而让更多的指令可以在乱序处理器中并行执行,而无需等待由于访存等操作造成的长周期指令执行.近年来,值预测在各个方面都有了实质性的进步,但现如今还没有商用处理器使用这一技术,这主要是由于值预测技术的使用还面临许多挑战:现有的处理器的流水线架构不能直接使用值预测技术;值预测所需的预测值传递机制需要额外的硬件资源开销;值预测器巨大的存储开销让其很难在片上实现;由于值预测错误时的性能惩罚大,因此预测准确率较低的值预测器会降低处理器性能.针对这些问题,本文以值预测技术为中心,围绕值预测技术相关的流水线架构、值预测器结构和错误恢复机制三个方面分别详细论述了国内外研究成果以及其对于各个问题挑战的解决策略.最后,本文对当今的处理器值预测技术进行了总结并对未来的研究方向进行了展望. 展开更多
关键词 值预测 数据依赖 处理器 流水线 存储墙 超标量
下载PDF
面向自主芯片频率扫描实速测试的扫描链分析
4
作者 张锦 刘政辉 +1 位作者 扈啸 胡春媚 《电子测量与仪器学报》 CSCD 北大核心 2024年第3期122-132,共11页
随着芯片工艺的不断升级,芯片设计的频率不断提高,时延故障是引起高速芯片失效的重要因素。在硅后验证阶段,由于缺乏一种对芯片全局路径延时测量的手段,传统构建延时测量电路的方式仅能得到特定关键路径的延时变化情况,在芯片失效时无... 随着芯片工艺的不断升级,芯片设计的频率不断提高,时延故障是引起高速芯片失效的重要因素。在硅后验证阶段,由于缺乏一种对芯片全局路径延时测量的手段,传统构建延时测量电路的方式仅能得到特定关键路径的延时变化情况,在芯片失效时无法进行全面的路径延时分析。本文提出一种基于扫描链的频率扫描实速测试方法对芯片内部大量时序路径的延时进行测量并获取时序裕量。针对生成测试向量时间长,依赖专业测试设备的问题,在自研硬件平台上通过自生成多频率测试向量以及改进数据校验算法成功实现了频率扫描实速测试,对芯片测量的路径延时误差在8 ps左右。通过对不同芯片在不同温度下的实验验证了该方法对路径延时表征的有效性,为今后通过延时参数对高速芯片进行环境适应性分析、寿命预测等研究提供了一种快捷有效的方法。 展开更多
关键词 实速测试 扫描链 芯片测试 测试向量 路径延时
下载PDF
开源GPU研究综述
5
作者 贾珍珍 杨凌 +5 位作者 黄立波 郭辉 王勇 刘胜 常俊胜 王永文 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2294-2304,共11页
近年来,深度学习、科学计算等需要大量数据并行处理的应用蓬勃发展,高算力GPU愈发受到关注.相比于传统的CPU计算平台,GPU并发高、带宽高,可以大幅提升计算效率.然而,GPU的硬件架构和设计细节通常闭源,且GPU厂商提供的驱动程序也是闭源的... 近年来,深度学习、科学计算等需要大量数据并行处理的应用蓬勃发展,高算力GPU愈发受到关注.相比于传统的CPU计算平台,GPU并发高、带宽高,可以大幅提升计算效率.然而,GPU的硬件架构和设计细节通常闭源,且GPU厂商提供的驱动程序也是闭源的,尽管其会提供一定的文档和技术支持,但GPU研究者难以深入了解GPU的具体架构和细节实现,这增加了GPU的开发门槛.开源可以解决这一问题,目前已有开源的编程模型如OpenCL等,帮助开发者更好的利用GPU进行并行计算,开源GPU生态初具雏形.本文以开源GPU为中心,首先阐述开源GPU的发展背景及相关概念,介绍开源GPU的生态,指出开源GPU当前发展的契机,并对现有开源GPU的架构实现进行总结,最后在此基础上对未来发展进行展望. 展开更多
关键词 开源硬件 GPU 综述 SIMT
下载PDF
基于PSS+PXF的ISF高精度振荡器噪声分析模型
6
作者 袁珩洲 桑浩 +3 位作者 刘胜 陈小文 颜广达 郭阳 《计算机工程与科学》 CSCD 北大核心 2024年第6期951-958,共8页
提出了一种基于PSS+PXF的ISF的相位噪声模型,用于预测振荡器的相位噪声。该模型相对传统的拉扎维模型考虑了振荡器的非线性时变特性,因此更加精确。通过仿真验证了该模型的有效性,基于PSS+PXF的ISF的相位噪声模型精度相比传统拉扎维模... 提出了一种基于PSS+PXF的ISF的相位噪声模型,用于预测振荡器的相位噪声。该模型相对传统的拉扎维模型考虑了振荡器的非线性时变特性,因此更加精确。通过仿真验证了该模型的有效性,基于PSS+PXF的ISF的相位噪声模型精度相比传统拉扎维模型提升200%以上。 展开更多
关键词 振荡器高精度 相位噪声 振荡器 脉冲灵敏度 周期稳态 周期传输函数
下载PDF
基于可控制性度量的图神经网络门级硬件木马检测方法
7
作者 张洋 刘畅 李少青 《计算机工程》 CAS CSCD 北大核心 2024年第7期164-173,共10页
随着全球化的不断深入,第三方知识产权(IP)核应用越来越广泛。随着硬件木马攻击技术逐渐成熟,使得在芯片设计阶段植入硬件木马成为可能。因此,在芯片设计过程中面临IP核被植入木马的严重威胁,现有研究所提的硬件木马检测方法具有依赖黄... 随着全球化的不断深入,第三方知识产权(IP)核应用越来越广泛。随着硬件木马攻击技术逐渐成熟,使得在芯片设计阶段植入硬件木马成为可能。因此,在芯片设计过程中面临IP核被植入木马的严重威胁,现有研究所提的硬件木马检测方法具有依赖黄金参考电路、需要完备的测试向量、大量的样本进行学习等特征。面向IP核的硬件木马检测需求,提出一种基于可控制性度量的图神经网络检测方法。该方法以门级网表作为输入,首先以可控制性值为指导,得到可疑的门节点,用于缩小搜索范围;然后利用可疑门节点生成对应的子图,利用图卷积神经网络从子图中提取特征,实现对子图的分类和检测,最终识别硬件木马。实验结果表明,该方法无须测试激励和黄金模型,利用硬件木马的隐蔽特性与结构特征相结合的方法提升硬件木马的检测准确率,平均真阳率为100%,假阳率为0.75%,在保证较高真阳率的同时可有效降低假阳率,达到较好的检测效果。 展开更多
关键词 知识产权核 硬件木马 可控制性度量 子图 图卷积神经网络
下载PDF
可变流水级SM4加解密算法硬件设计及FPGA实现
8
作者 朱麒瑾 陈小文 鲁建壮 《计算机工程与科学》 CSCD 北大核心 2024年第4期606-614,共9页
SM4加解密算法作为我国第一个商用密码算法,凭借其算法结构简单易实现、加解密速度快和安全性高等优点,被广泛应用在数据加密存储和信息加密通信等领域中。以可变流水级SM4加解密算法硬件设计以及FPGA实现为研究课题,重点研究了不同流... SM4加解密算法作为我国第一个商用密码算法,凭借其算法结构简单易实现、加解密速度快和安全性高等优点,被广泛应用在数据加密存储和信息加密通信等领域中。以可变流水级SM4加解密算法硬件设计以及FPGA实现为研究课题,重点研究了不同流水线级数设计的性能差异,设计了一种可控制流水线级数的SM4加解密电路,并将其封装为带有AXI接口和APB接口的IP核。基于XILINX ZYNQ器件,在XILINX ZYNQ-7020开发板上搭建小型SoC,将设计的SM4 IP核挂载到AXI总线上,模拟实际工作情景并进行性能测试。通过软件加解密数据与仿真测试得到的数据来验证设计功能的正确性;测试不同流水线级数的性能,以此选出最适合的流水线级数。 展开更多
关键词 SM4 流水线设计 ZYNQ AXI APB
下载PDF
未知工艺角下时序违反的机器学习预测
9
作者 黄鹏程 冯超超 马驰远 《计算机工程与科学》 CSCD 北大核心 2024年第3期395-399,共5页
集成电路设计复杂性的增长以及工艺尺寸的持续缩减给静态时序分析以及设计周期带来了新的严峻挑战。为了提升静态时序分析效率、缩短设计周期,充分考虑FinFET工艺特性以及静态时序分析原理,提出了未知工艺角下时序违反的机器学习预测方... 集成电路设计复杂性的增长以及工艺尺寸的持续缩减给静态时序分析以及设计周期带来了新的严峻挑战。为了提升静态时序分析效率、缩短设计周期,充分考虑FinFET工艺特性以及静态时序分析原理,提出了未知工艺角下时序违反的机器学习预测方法,实现了基于部分工艺角的时序特性来预测另外一部分工艺角的时序特性的目标。基于某工业设计进行实验,结果表明,提出的方法利用5个工艺角时序预测另外31个工艺角时序,可达到小于2 ps的平均绝对误差,远远优于传统方法所需的21个工艺角,显著改善了预测精度和减少了静态时序分析工作量。 展开更多
关键词 机器学习 工艺角 静态时序分析 FINFET
下载PDF
LPGEMM:低精度通用矩阵乘法计算模拟框架研究
10
作者 黄浩岚 罗铁清 +2 位作者 文梅 曹亚松 时洋 《信息技术与信息化》 2024年第2期108-113,共6页
通用矩阵乘(GEMM)算子是AI模型的核心计算,使用低精度数值格式加速GEMM对加速模型的推理和训练有重要影响。由于并不总是有合适的硬件可供选择,而且人们可能希望实验尚未在硬件中实现的新GEMM计算行为,但很难通过构建硬件的方式去进行... 通用矩阵乘(GEMM)算子是AI模型的核心计算,使用低精度数值格式加速GEMM对加速模型的推理和训练有重要影响。由于并不总是有合适的硬件可供选择,而且人们可能希望实验尚未在硬件中实现的新GEMM计算行为,但很难通过构建硬件的方式去进行不同计算行为的GEMM模拟,如何在算子内部进行细粒度模拟还没有被深入研究。通过提出LPGEMM——一个低精度GEMM计算模拟框架来模拟GEMM的计算过程,重新编写了GEMM算子,实现了可变分组累加长度以及低精度累加器,同时还实现了训练和推理全过程的GEMM相关数据统计,来支持用户探索模型精度的下限。实验结果证实了相较于此前的一些工作,所提出的方法模拟最高可减少56%的平均误差。 展开更多
关键词 深度学习 用户探索模型 通用矩阵乘 低精度
下载PDF
采用自适应连续时间线性均衡器和判决反馈均衡器算法的一种16 Gbit/s并转串/串转并接口
11
作者 文溢 陈建军 +2 位作者 黄俊 姚啸虎 刘衡竹 《电子与信息学报》 EI CSCD 北大核心 2023年第11期3984-3990,共7页
该文在体硅CMOS工艺下设计了一种16 Gbit/s并转串/串转并接口(SerDes)芯片,该SerDes由4个通道(lanes)和2个锁相环(PLLs)组成。在接收器模拟前端(AFE)采用负阻抗结构连续时间线性均衡器(CTLE),得到22.9 dB高频增益,利用5-tap判决反馈均衡... 该文在体硅CMOS工艺下设计了一种16 Gbit/s并转串/串转并接口(SerDes)芯片,该SerDes由4个通道(lanes)和2个锁相环(PLLs)组成。在接收器模拟前端(AFE)采用负阻抗结构连续时间线性均衡器(CTLE),得到22.9 dB高频增益,利用5-tap判决反馈均衡器(DFE)进一步对信号码间干扰(ISI)做补偿,其中tap1做展开预计算处理,得到充足的时序约束条件。采用最小均方根(LMS)算法自适应控制CTLE和DFE的补偿系数来对抗工艺、电源和温度波动带来的影响。测试结果表明,芯片工作在16 Gbit/s时,总功耗为615 mW。发射器输出信号眼高为143 mV,眼宽43.8 ps(0.7UI),接收器抖动容忍指标在各频点均满足PCIe4.0协议要求,工作温度覆盖–55℃~125℃,电源电压覆盖0.9 V±10%,误码率小于1E-12。 展开更多
关键词 串转并/并转串接口 连续时间线性均衡器 判决反馈均衡器 最小均方根算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部