期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
龙芯2号处理器功能部件设计 被引量:1
1
作者 张戈 齐子初 胡伟武 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期967-973,共7页
功能部件是处理器中进行指令运算的核心单元,它的算法及其实现直接影响到处理器的总体性能.介绍了龙芯2号处理器的功能部件,探讨了从算法到物理设计等不同层次的功能部件设计方法.龙芯2号功能部件分为两个定点ALU和两个浮点ALU实现... 功能部件是处理器中进行指令运算的核心单元,它的算法及其实现直接影响到处理器的总体性能.介绍了龙芯2号处理器的功能部件,探讨了从算法到物理设计等不同层次的功能部件设计方法.龙芯2号功能部件分为两个定点ALU和两个浮点ALU实现,除实现完整的MIPS定、浮点指令集外,还实现了龙芯2号类MMX自定义多媒体指令集以及定点操作在浮点部件(FPU)中的数据通路复用.龙芯2号浮点部件遵照IEEE754和MIPS相关标准,浮点加法4拍完成,浮点乘法5拍完成,浮点除法4~17拍完成.物理设计支持0.18μm工艺下主频500MHz的标准单元实现,浮点单精度峰值性能达到2GFLOPS.双精度峰值性能达到1GFLOPS. 展开更多
关键词 龙芯2号处理器 功能部件设计 浮点部件 多媒体指令集
下载PDF
龙芯2号处理器系统优化关键技术 被引量:3
2
作者 伍鸣 张福新 +3 位作者 林伟 许先超 袁楠 王剑 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期980-986,共7页
系统软件作为处理器和应用程序之间的接口,对于充分利用处理器的特性来维护处理器与应用程序的稳定性和提高应用程序的性能起着极其重要的作用·描述了在Linux内核中解决龙芯2号处理器的Cache别名问题的方法以及通过增加页的大小、... 系统软件作为处理器和应用程序之间的接口,对于充分利用处理器的特性来维护处理器与应用程序的稳定性和提高应用程序的性能起着极其重要的作用·描述了在Linux内核中解决龙芯2号处理器的Cache别名问题的方法以及通过增加页的大小、软TLB和FAST TLB REFILL的方法减小TLB失效的性能损失,还有Uncache Accelerate对媒体播放软件的加速·实验结果表明,在系统软件中增加这些方法的支持,对系统的稳定性和性能都有较大的好处· 展开更多
关键词 龙芯2号处理器 Cache别名 软TLB Uncache Accelerate
下载PDF
一种基于微基准程序和理想上限的处理器性能分析方法
3
作者 马可 章隆兵 《电子学报》 EI CAS CSCD 北大核心 2008年第2期350-357,共8页
随着现代高性能通用处理器结构的不断发展,处理器的性能分析已经变得越来越困难.基于大工作负载和单纯依靠模拟器的性能分析方法复杂度高,且难以直观地反映微体系结构特征.本文针对超标量处理器的特点,提出一种新的处理器性能分析方法,... 随着现代高性能通用处理器结构的不断发展,处理器的性能分析已经变得越来越困难.基于大工作负载和单纯依靠模拟器的性能分析方法复杂度高,且难以直观地反映微体系结构特征.本文针对超标量处理器的特点,提出一种新的处理器性能分析方法,具体包括:设计一个微基准程序集Godson-Microbench,并提出相应的理想性能上限计算公式.这种方法扩充了过去基于约束的性能分析方法,可以更加完整地评估流水线性能并有效地发现性能瓶颈.本文使用这种方法分析比较了龙芯2号处理器和Alpha21264处理器,并依此改进了龙芯2号的结构,使得微基准程序的平均性能提高了13.8%,SPEC程序集的IPC提高了28.8%.本文提出的性能分析方法在龙芯2号的结构优化工作中发挥了重要作用. 展开更多
关键词 性能分析 微基准程序 理想上限 龙芯2号处理器 Alpha21264处理器
下载PDF
一种分片式多核处理器的用户级模拟器 被引量:6
4
作者 黄琨 马可 +2 位作者 曾洪博 张戈 章隆兵 《软件学报》 EI CSCD 北大核心 2008年第4期1069-1080,共12页
随着片上晶体管资源的增多和互连线延迟的加大,分片式多核微处理器已成为多核处理器设计的新方向.为了对这种新型处理器进行体系结构的深入研究和设计空间的探索,设计并实现了针对分片式多核处理器的用户级多核性能模拟器.该多核模拟器... 随着片上晶体管资源的增多和互连线延迟的加大,分片式多核微处理器已成为多核处理器设计的新方向.为了对这种新型处理器进行体系结构的深入研究和设计空间的探索,设计并实现了针对分片式多核处理器的用户级多核性能模拟器.该多核模拟器在龙芯2号单处理器核的基础上,完整地模拟了基于目录的Cache一致性协议和存储转发式片上互联网络的结构模型,详细地刻画了由于系统乱序处理各种请求应答和请求之间的冲突而造成的时序特性,可以通过运行各种串行或并行的工作负载对多核处理器的各种重要性能指标加以评估,为多核处理器的结构设计提供了快速、灵活、高效的研究平台. 展开更多
关键词 分片式CMP(chip multiprocessor) 模拟器 片上网络 性能分析 龙芯2处理器
下载PDF
基于龙芯CPU的多核全系统模拟器SimOS-Goodson 被引量:15
5
作者 高翔 张福新 +3 位作者 汤彦 章隆兵 胡伟武 唐志敏 《软件学报》 EI CSCD 北大核心 2007年第4期1047-1055,共9页
随着片上多核结构成为当前高性能微处理器发展的趋势,目标工作负载也变得多样化,传统的用户级模拟器已不能适应未来体系结构的研究需要.基于SimOS全系统模拟环境,设计并实现了龙芯CPU的片上多核全系统模拟器SimOS-Goodson.在SimOS-Good... 随着片上多核结构成为当前高性能微处理器发展的趋势,目标工作负载也变得多样化,传统的用户级模拟器已不能适应未来体系结构的研究需要.基于SimOS全系统模拟环境,设计并实现了龙芯CPU的片上多核全系统模拟器SimOS-Goodson.在SimOS-Goodson的设计中运用了时序与功能分离的组织形式,并采用了一种新的值预测校验算法来解决模拟环境中的存储一致性问题.经过与真实硬件环境进行交叉校正,保证了模拟器的可信度与准确度.与用户级模拟器相比,SimOS-Goodson保持了高速、灵活的优点,又具备精确、全系统和易使用的特征.通过对完整Linux操作系统的移植,可在SimOS-Goodson所模拟的全系统环境中进行各类微体系结构和应用负载的分析与评估.在3.0GHz的Pentium4微机上,SimOS-Goodson的指令模拟速度超过300K/秒.SimOS-Goodson将会在基于龙芯CPU的片上多核体系结构研究中发挥重要作用. 展开更多
关键词 模拟器 龙芯2号处理器 全系统 多核 SimOS
下载PDF
基于SimpleScalar的龙芯CPU模拟器Sim-Godson 被引量:24
6
作者 张福新 章隆兵 胡伟武 《计算机学报》 EI CSCD 北大核心 2007年第1期68-73,共6页
现代高性能通用处理器的设计越来越复杂,模拟器在处理器设计中所起的作用越来越大.龙芯2号是中国科学院计算技术研究所研制的高性能通用处理器.最早开发的龙芯2号的模拟器ICT-Godson是信号级模拟器,它模拟了处理器的所有细节,十分准确,... 现代高性能通用处理器的设计越来越复杂,模拟器在处理器设计中所起的作用越来越大.龙芯2号是中国科学院计算技术研究所研制的高性能通用处理器.最早开发的龙芯2号的模拟器ICT-Godson是信号级模拟器,它模拟了处理器的所有细节,十分准确,但速度和灵活性有较大限制.文章基于SimpleScalar工具集,设计并实现了龙芯2号的模拟器Sim-Godson.Sim-Godson具有高速度和高灵活性的优点,且准确性也很高.在3.0GHz的Pentium4微机上,Sim-Godson速度约为500K指令/s.大部份测试程序在Sim-Godson上的IPC(Instruction PerCycle)与ICT-Godson相差不到5%,达到了很高的准确性.Sim-Godson在龙芯2号的性能分析工作中发挥了重要作用. 展开更多
关键词 模拟器 龙芯2号处理器 SIMPLESCALAR 通用处理器 高性能处理器
下载PDF
龙芯链接后优化器设计与分析 被引量:2
7
作者 陈瑜 朱晓静 +1 位作者 邹琼 刘玲 《计算机研究与发展》 EI CSCD 北大核心 2006年第8期1450-1456,共7页
链接后优化技术是在编译链接后对整个程序再进行优化的一种技术·它克服了传统编译器优化局限于一个函数、一个模块的缺点,将优化范围扩展到整个程序,并且充分利用了链接后确定的信息·参照Arizona大学为Alpha处理器设计的链接... 链接后优化技术是在编译链接后对整个程序再进行优化的一种技术·它克服了传统编译器优化局限于一个函数、一个模块的缺点,将优化范围扩展到整个程序,并且充分利用了链接后确定的信息·参照Arizona大学为Alpha处理器设计的链接后优化器ALTO,针对龙芯2号处理器的微体系结构和指令集的特征,设计了龙芯上的链接后优化器GLTO(Godsonlinktimeoptimizer)·GLTO使得龙芯处理器SPEC2000定点程序ref分值提高了9·4%,具有显著的优化效果·分析了主要优化策略的效果和产生的原因,提出了处理器的结构设计中的改进设想,并将GLTO与ALTO做了对比分析· 展开更多
关键词 链接后优化 GLTO 龙芯2号处理器
下载PDF
一种基于龙芯CPU的结构级功耗评估新方法 被引量:4
8
作者 黄琨 章隆兵 +1 位作者 胡伟武 张戈 《计算机研究与发展》 EI CSCD 北大核心 2007年第5期782-789,共8页
如何有效地利用处理器消耗的能量而得到尽可能高的性能成为了目前体系结构研究的热点,在研究中,结构级的功耗评估工具无疑具有重要的作用.在现有的结构级功耗模拟器中,往往只考虑了动态电路以及全定制实现方法下的功耗刻画,而忽略了以... 如何有效地利用处理器消耗的能量而得到尽可能高的性能成为了目前体系结构研究的热点,在研究中,结构级的功耗评估工具无疑具有重要的作用.在现有的结构级功耗模拟器中,往往只考虑了动态电路以及全定制实现方法下的功耗刻画,而忽略了以静态电路和标准单元设计为主的ASIC设计方法对处理器功耗带来的影响.由此,结合一款高性能、低功耗通用处理器——龙芯2号的具体实现,对其设计特点和功耗特性进行分析,实现了以龙芯2号处理器为基本研究对象的结构级功耗评估方法.该评估方法充分考虑了CMOS静态电路的结构级功耗刻画方法,因此更加适合目前以ASIC设计方法为主的高性能处理器结构的功耗评估.该结构级功耗评估方法与RTL级的功耗评估方法相比,具有速度快和灵活性好的优点.在2.4GHz的IntelXeon上,该功耗评估方法的速度约为300K/s,是RTL级的评估方法的5000倍,而且误差很小. 展开更多
关键词 功耗 评估方法 龙芯2处理器 功耗建模 ASIC设计
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部