期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
高性能众核处理器芯片时钟网络设计 被引量:2
1
作者 马永飞 高成振 +1 位作者 黄金明 李研 《计算机工程》 CAS CSCD 北大核心 2022年第8期25-29,36,共6页
随着芯片工艺演进与设计规模增加,高性能众核处理器芯片时钟网络设计面临时序和功耗的全方位挑战。为降低芯片时钟网络功耗并缓解时钟网络分布受片上偏差影响导致的时钟偏斜,在H-Tree+MESH混合时钟网络结构的基础上,结合新一代众核处理... 随着芯片工艺演进与设计规模增加,高性能众核处理器芯片时钟网络设计面临时序和功耗的全方位挑战。为降低芯片时钟网络功耗并缓解时钟网络分布受片上偏差影响导致的时钟偏斜,在H-Tree+MESH混合时钟网络结构的基础上,结合新一代众核处理器芯片面积大及核心时钟网络分布广的特点,基于标准多源时钟树设计策略构建多源时钟树综合(MRCTS)结构,通过全局H-Tree时钟树保证芯片不同区域间时钟偏斜的稳定可控,利用局部时钟树综合进行关键路径的时序优化以实现时序收敛。实验结果表明,MRCTS能在保证时钟延时、时钟偏斜等性能参数可控的基础上,有效降低时钟网络的负载和功耗,大幅压缩综合子模块的布线资源,加速关键路径的时序收敛,并且在相同电源电压和时钟频率的实测条件下,可获得约22.15%的时钟网络功耗优化。 展开更多
关键词 高性能众核处理器芯片 时钟网络 时钟功耗 时钟偏斜 多源时钟树综合
下载PDF
面向高性能计算的众核处理器结构级高能效技术 被引量:17
2
作者 郑方 张昆 +7 位作者 邬贵明 高红光 唐勇 吕晖 过锋 李宏亮 谢向辉 陈左宁 《计算机学报》 EI CSCD 北大核心 2014年第10期2176-2186,共11页
随着半导体技术的进步,众核处理器已经广泛应用于高性能计算领域.而要构建未来高性能计算系统,处理器必须突破严峻的"能耗墙"挑战.文中以一款自主众核处理器DFMC原型为基础,首先对其在典型负载下的能耗分布进行了分析,结合该... 随着半导体技术的进步,众核处理器已经广泛应用于高性能计算领域.而要构建未来高性能计算系统,处理器必须突破严峻的"能耗墙"挑战.文中以一款自主众核处理器DFMC原型为基础,首先对其在典型负载下的能耗分布进行了分析,结合该处理器的具体结构,提出了基于指令窗口的指令缓冲、操作数锁存两种结构级能效优化技术,探索了能效优先的浮点部件设计方法.实验表明,通过上述技术可以降低处理器取指和译码能耗约50%、寄存器文件能耗11.2%和浮点部件能耗17.6%,最终全芯片降低能耗约14.7%.在该文所述实验环境下,作者还进行了DFMC原型的双精度矩阵乘(DGEMM)性能功耗比测试,并与NVIDIA公司的Kepler K20GPU进行了对比. 展开更多
关键词 处理器 结构优化 能效 高性能计算
下载PDF
面向高性能计算的众核处理器轻量级错误恢复技术研究 被引量:1
3
作者 郑方 沈莉 +1 位作者 李宏亮 谢向辉 《计算机研究与发展》 EI CSCD 北大核心 2015年第6期1316-1328,共13页
随着半导体技术进步,单个芯片上集成大量核心的众核处理器已经广泛应用于高性能计算领域.相比多核处理器,众核处理器能提供更好的计算密度和能效比,但同时也面临越来越严重的可靠性挑战.需要设计高效的处理器容错机制,有效保证课题运行... 随着半导体技术进步,单个芯片上集成大量核心的众核处理器已经广泛应用于高性能计算领域.相比多核处理器,众核处理器能提供更好的计算密度和能效比,但同时也面临越来越严重的可靠性挑战.需要设计高效的处理器容错机制,有效保证课题运行效率的同时不带来较大的芯片功耗和面积开销.在一款自主众核处理器DFMC(deeply fused and heterogeneous many-core)原型基础上,根据核心上运行的应用程序是否具有关联性特征,提出并实现了面向众核处理器的独立和协同2种轻量级错误恢复技术.其中,协同恢复技术由集中部件进行管理,通过协同恢复总线互连,出错时将与错误相关联的多个核心快速回卷到正确状态.2种错误恢复技术中,保留和恢复过程均通过定制的指令实现,恢复所需要的信息保留在运算核心内部,以保证对课题性能的影响最小化.实验表明,通过上述技术只增加了1.257%的芯片面积,可解决自主众核处理器约80%的瞬时错误,且对课题性能、芯片时序和功耗影响很小,可有效地提高众核处理器的容错能力. 展开更多
关键词 处理器 错误恢复 容错 瞬态错误 高性能计算
下载PDF
凌华科技领先发布双四核至强6U CompactPCI高性能处理器板——cPCI-6920搭载英特尔四核Xeon处理器与5100服务器级整合芯片组,适合数据处理、电信与军事应用
4
《自动化信息》 2009年第1期17-17,共1页
凌华科技发布符合PICMG 2.0规范的最新服务器级6U CompactPCI处理器板cPCI—6920,搭载两颗英特尔四核或双核Xeon 处理器及服务器级5100芯片组,可支持四个具备校验功能(ECC)的DDR2—667SORDIMM内存插槽,最高容量达16GB,以及传输... 凌华科技发布符合PICMG 2.0规范的最新服务器级6U CompactPCI处理器板cPCI—6920,搭载两颗英特尔四核或双核Xeon 处理器及服务器级5100芯片组,可支持四个具备校验功能(ECC)的DDR2—667SORDIMM内存插槽,最高容量达16GB,以及传输速度为1066MHz的前端总线。 展开更多
关键词 COMPACTPCI XEON处理器 整合芯片 凌华科技 服务器 高性能处理器 英特尔
下载PDF
针对SW26010众核处理器的单精度矩阵乘算法
5
作者 武铮 许乐 +2 位作者 安虹 金旭 文可 《小型微型计算机系统》 CSCD 北大核心 2023年第4期673-681,共9页
矩阵乘作为许多科学应用中被频繁使用的关键部分,其计算量巨大且稠密的本质,使得高性能计算领域中矩阵乘并行算法的研究一直是经久不衰的热门话题.随着我国自主研发的申威众核处理器SW26010在科学计算和人工智能领域的快速发展,对面向SW... 矩阵乘作为许多科学应用中被频繁使用的关键部分,其计算量巨大且稠密的本质,使得高性能计算领域中矩阵乘并行算法的研究一直是经久不衰的热门话题.随着我国自主研发的申威众核处理器SW26010在科学计算和人工智能领域的快速发展,对面向SW26010众核处理器的高性能矩阵乘算法提出了迫切的需求.针对SW26010众核处理器的体系结构特征,首次对单精度矩阵乘实现进行了深入探讨,提出了3种不同存储层次的高性能并行算法.在进行算法设计时,计算方面,结合该处理器的从核双流水,从汇编层面手动控制核心计算任务的指令序列,保证了高效的指令级并行;访存方面,综合考虑了有限片上存储资源的有效使用,以及访存任务和计算任务的交叉并行,实现了计算访存的平衡以及算法整体性能的提升.实验结果显示,与该处理器上最先进的官方数学库xMath中的单精度矩阵乘实现相比,运行时峰值性能提升了6.8%,达到了理论峰值性能的86.17%;在基于不同矩阵乘场景的通用性比较中,95.33%的场景中性能更高,最高性能加速比达到247.9%,平均性能加速比为61.66%. 展开更多
关键词 处理器 矩阵乘 计算机系统结构 高性能计算 并行算法
下载PDF
面向E级超算系统的众核片上存储层次研究 被引量:1
6
作者 方燕飞 刘齐 +5 位作者 董恩铭 李雁冰 过锋 王谛 何王全 漆锋滨 《计算机工程》 CAS CSCD 北大核心 2023年第12期10-24,共15页
当前众核已成为构建高性能计算(HPC)超级计算机的主流微处理器架构,为HPC领域E级超算提供强大的算力。随着众核处理器片上集成的运算核心数量不断增加,众多核心对存储资源竞争愈加激烈,“访存墙”问题越来越突出。众核片上存储层次是缓... 当前众核已成为构建高性能计算(HPC)超级计算机的主流微处理器架构,为HPC领域E级超算提供强大的算力。随着众核处理器片上集成的运算核心数量不断增加,众多核心对存储资源竞争愈加激烈,“访存墙”问题越来越突出。众核片上存储层次是缓解“访存墙”问题并帮助HPC应用更好地发挥众核处理器的计算优势以提升实际应用性能的重要结构。众核片上存储层次的设计对众核片上系统性能、功耗和面积具有重要影响,是众核结构设计中的重要环节,也是业界的研究热点。由于众核芯片发展历史和片上微体系结构设计技术的不同,以及所面向的应用领域需求不同等原因,目前的HPC主流众核片上存储层次结构并不单一,但从横向比较和各处理器自身纵向发展趋势,以及从HPC与数据科学、机器学习不断融合发展带来的应用需求变化来看,SPM+Cache的混合结构最可能成为今后HPC E级超算系统众核处理器片上存储层次设计的主流选择。在面向E级计算的软件和算法层面,开展针对众核存储层次特点的设计与优化,可以帮助HPC应用更好地发挥众核处理器的计算优势,从而有效提升实际应用性能,因此面向众核片上存储层次特点的软件及算法设计与优化技术也是业界的研究热点之一。首先按照不同的组织方式将片上存储层次分为多级Cache结构、SPM结构和SPM+Cache混合结构,并总结分析3种结构的优缺点。然后分析国际主流GPU、同构众核、国产众核等面向主流E级超算系统的众核处理器片上存储层次设计现状与发展趋势。最后从众核LLC管理与缓存一致性协议、SPM空间管理与数据移动优化、SPM+Cache混合结构的全局视角优化等角度综述国际上的存储层次设计与优化相关软硬件技术的研究现状。在此基础上,从软硬件及算法设计等不同角度展望了片上存储层次的未来研究方向。 展开更多
关键词 E级超算 处理器 存储层次 高性能计算 便签式存储器 末级缓存
下载PDF
一种面向高性能计算的自主众核处理器结构 被引量:12
7
作者 郑方 许勇 +2 位作者 李宏亮 谢向辉 陈左宁 《中国科学:信息科学》 CSCD 北大核心 2015年第4期523-534,共12页
随着半导体技术进步,众核处理器已广泛应用于高性能计算领域.近年来,在国家"863"计划、"核高基"重大专项等项目的支持下,我国高性能众核CPU的研发水平也取得了长足进步.本文介绍一种面向高性能计算的国产片上异构... 随着半导体技术进步,众核处理器已广泛应用于高性能计算领域.近年来,在国家"863"计划、"核高基"重大专项等项目的支持下,我国高性能众核CPU的研发水平也取得了长足进步.本文介绍一种面向高性能计算的国产片上异构众核处理器结构,通过统一指令系统、统一执行模型和支持一致性的主存共享,实现异构核心的深度融合.本文主要介绍了该处理器面向"存储墙"、"功耗墙"和"可靠性墙"的优化技术体系.该处理器已完成集成了256个运算核心和4个管理核心的原型芯片设计,峰值性能超过1 TFlops. 展开更多
关键词 处理器 异构芯片 访存性能 能效 可靠性
原文传递
第一性原理极化率计算中的众核优化方法研究
8
作者 罗海文 吴扬俊 商红慧 《计算机科学》 CSCD 北大核心 2023年第6期1-9,共9页
基于量子力学的密度泛函微扰理论(DFPT)可以用来计算分子和材料的多种物理化学性质,目前被广泛应用于新材料等领域的研究中;同时,异构众核处理器架构逐渐成为超算的主流。因此,针对异构众核处理器重新设计和优化DFPT程序以提升其计算效... 基于量子力学的密度泛函微扰理论(DFPT)可以用来计算分子和材料的多种物理化学性质,目前被广泛应用于新材料等领域的研究中;同时,异构众核处理器架构逐渐成为超算的主流。因此,针对异构众核处理器重新设计和优化DFPT程序以提升其计算效率,对物理化学性质的计算及其科学应用具有重要意义。文中对DFPT中一阶响应密度和一阶响应哈密顿矩阵的计算针对众核处理器体系结构进行了优化,并在新一代神威处理器上进行了验证。优化技术包括循环分块、离散访存处理和协同规约。其中,循环分块对任务进行划分从而由众核并行地执行;离散访存处理将离散访存转换为更高效的连续访存;协同规约解决了写冲突问题。实验结果表明,在一个核组上,优化后的程序性能较优化前提高了8.2~74.4倍,并且具有良好的强可扩展性和弱可扩展性。 展开更多
关键词 密度函数微扰理论 第一性原理计算 高性能计算 新一代神威异构处理器
下载PDF
基于国产众核架构CESM中有限差分计算优化 被引量:3
9
作者 陈宏博 钱雪忠 +2 位作者 甘霖 徐敬蘅 刘徐 《计算机应用研究》 CSCD 北大核心 2021年第2期501-505,共5页
针对CESM中的有限差分算法并行过程中存在内存读取冗余过大、通信开销过高的问题,设计出根据数据结构进行数据重构、计算核心捆绑、流水线通信等多种并行优化方案。弥补了申威26010处理器在数据读取过程中缺少共享缓存区、带宽利用率不... 针对CESM中的有限差分算法并行过程中存在内存读取冗余过大、通信开销过高的问题,设计出根据数据结构进行数据重构、计算核心捆绑、流水线通信等多种并行优化方案。弥补了申威26010处理器在数据读取过程中缺少共享缓存区、带宽利用率不高等不足,缓解了申威26010处理器在有限差分法求解过程的通信瓶颈。对CESM中以有限差分法为核心计算的两个函数,在申威26010众核处理器上的测试结果表明,提出算法及优化策略拥有21.2倍的性能提升。 展开更多
关键词 通用地球系统模型 并行计算 异构处理器 有限差分算法 高性能计算
下载PDF
国产神威环境下Athread代码生成工具的设计与开发
10
作者 刘加伟 郭强 +3 位作者 庄园 张海红 王利 曾云辉 《计算机工程与设计》 北大核心 2024年第2期633-640,F0003,共9页
针对国产神威环境下众核代码编写工作量大的问题,设计实现一个可以将核心段的串行代码自动转换为Athread代码的工具。采用Rust语言进行词法和语法分析,面向不同数组维度的Fortran和C语言程序,基于主程序调用master程序再由master程序调... 针对国产神威环境下众核代码编写工作量大的问题,设计实现一个可以将核心段的串行代码自动转换为Athread代码的工具。采用Rust语言进行词法和语法分析,面向不同数组维度的Fortran和C语言程序,基于主程序调用master程序再由master程序调用slave程序的三层模板程序架构,集成常用众核优化方法的代码框架。经过实验分析,采用该自动转换工具生成的Athread代码相较于人工编写的OpenACC*加速的程序有更高的加速比,特别是对多个核心段进行众核化加速时的加速比相差15%,验证该转换工具具有很好的实用性。 展开更多
关键词 加速线程库 代码生成 模板引擎 语法分析 处理器 神威·太湖之光 高性能计算
下载PDF
用于三维堆叠芯片的通用网络服务片设计
11
作者 吴际 谢冬青 唐琳 《系统仿真学报》 CAS CSCD 北大核心 2014年第11期2727-2733,共7页
在三维集成技术中,让制造检测好的已知合格片在不同的三维芯片设计中复用可有效降低成本。设计了一种采用通用网络服务片(GNSD)来构建三维片上网络的通用网络(GNet),并以一个64核处理器为实验对象,分别采用传统的三维片上网络设计中成... 在三维集成技术中,让制造检测好的已知合格片在不同的三维芯片设计中复用可有效降低成本。设计了一种采用通用网络服务片(GNSD)来构建三维片上网络的通用网络(GNet),并以一个64核处理器为实验对象,分别采用传统的三维片上网络设计中成本驱动的设计和性能驱动的设计,和采用GNet的设计来实现该处理器。对3种设计进行仿真,对比其吞吐率、时延、功耗及成本,证明GNet不仅仅在成本上有突出的优势,在性能上也优于传统的三维设计。 展开更多
关键词 三维芯片 三维片上网络 网络性能分析 处理器设计
下载PDF
翘首以待多核伸缩软件的首次细节披露——微软FPF05语言探讨方案要点 被引量:1
12
作者 Kevin Krewell 梁合庆 《电子产品世界》 2006年第02S期95-98,共4页
关键词 软件开发 伸缩 微软 高性能处理器 语言 编程人员 芯片 ISO 设计师
下载PDF
AI芯片:从历史看未来
13
作者 宋继强 魏少军 《人工智能》 2018年第2期6-19,共14页
AI芯片是当前科技、产业和社会关注的热点,也是AI技术发展过程中不可逾越的关键阶段。由于目前的AI算法都有各自的长处和短处,只有给它们设定一个合适的应用边界才能最好地发挥它们的作用。因此,确定应用领域就成为发展AI芯片的重要前... AI芯片是当前科技、产业和社会关注的热点,也是AI技术发展过程中不可逾越的关键阶段。由于目前的AI算法都有各自的长处和短处,只有给它们设定一个合适的应用边界才能最好地发挥它们的作用。因此,确定应用领域就成为发展AI芯片的重要前提。通过芯片技术来大幅增强人工智能研发的条件已经成熟,未来十年将是人工智能芯片发展的重要时期,不论是架构上还是设计理念上都将有巨大的突破。 展开更多
关键词 AI CPU 智能芯片 处理器 GPU 深度学习算法 人工智能算法 内存访问 深度神经网络 数据中心 神经网络模型 可编程器件 类脑计算 半定制 人工神经网络 能效比 DSP
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部