期刊文献+
共找到17篇文章
< 1 >
每页显示 20 50 100
基于SimpleScalar的龙芯CPU模拟器Sim-Godson 被引量:25
1
作者 张福新 章隆兵 胡伟武 《计算机学报》 EI CSCD 北大核心 2007年第1期68-73,共6页
现代高性能通用处理器的设计越来越复杂,模拟器在处理器设计中所起的作用越来越大.龙芯2号是中国科学院计算技术研究所研制的高性能通用处理器.最早开发的龙芯2号的模拟器ICT-Godson是信号级模拟器,它模拟了处理器的所有细节,十分准确,... 现代高性能通用处理器的设计越来越复杂,模拟器在处理器设计中所起的作用越来越大.龙芯2号是中国科学院计算技术研究所研制的高性能通用处理器.最早开发的龙芯2号的模拟器ICT-Godson是信号级模拟器,它模拟了处理器的所有细节,十分准确,但速度和灵活性有较大限制.文章基于SimpleScalar工具集,设计并实现了龙芯2号的模拟器Sim-Godson.Sim-Godson具有高速度和高灵活性的优点,且准确性也很高.在3.0GHz的Pentium4微机上,Sim-Godson速度约为500K指令/s.大部份测试程序在Sim-Godson上的IPC(Instruction PerCycle)与ICT-Godson相差不到5%,达到了很高的准确性.Sim-Godson在龙芯2号的性能分析工作中发挥了重要作用. 展开更多
关键词 模拟器 龙芯2号处理器 SIMPLESCALAR 通用处理器 高性能处理器
下载PDF
龙芯2号处理器的同时多线程设计 被引量:10
2
作者 李祖松 许先超 +1 位作者 胡伟武 唐志敏 《计算机学报》 EI CSCD 北大核心 2009年第11期2265-2273,共9页
提出了适合龙芯2号处理器的同时多线程处理器模型,并介绍了具体的微体系结构设计以及相应的Linux操作系统的实现方案.通过在设计的龙芯2号同时多线程处理器上启动Linux操作系统,并运行应用程序,例如SPEC CPU2000,进行性能评测.结果表明... 提出了适合龙芯2号处理器的同时多线程处理器模型,并介绍了具体的微体系结构设计以及相应的Linux操作系统的实现方案.通过在设计的龙芯2号同时多线程处理器上启动Linux操作系统,并运行应用程序,例如SPEC CPU2000,进行性能评测.结果表明,龙芯2号同时多线程处理器通过挖掘线程级并行性,将龙芯2号处理器的性能提高了31.1%. 展开更多
关键词 龙芯2 同时多线程 微体系结构 LINUX操作系统
下载PDF
龙芯2号同时多线程处理器的软硬件接口设计 被引量:2
3
作者 李祖松 许先超 +1 位作者 胡伟武 唐志敏 《软件学报》 EI CSCD 北大核心 2007年第7期1806-1817,共12页
随着生产工艺的提高,芯片上能集成越来越多的晶体管,多线程技术也逐步成为一种主流的处理器体系结构技术,而多线程处理器的软硬件接口也就成为急需解决的问题.在分析同时多线程的软件需求的基础上,提出龙芯2号同时多线程处理器的软硬件... 随着生产工艺的提高,芯片上能集成越来越多的晶体管,多线程技术也逐步成为一种主流的处理器体系结构技术,而多线程处理器的软硬件接口也就成为急需解决的问题.在分析同时多线程的软件需求的基础上,提出龙芯2号同时多线程处理器的软硬件接口协同设计解决方案,给出相应的操作系统实现方案.同时,在Linux2.4.20的基础上实现了龙芯2号同时多线程处理器相应的操作系统.通过运行SPEC CPU2000等测试程序进行性能评测,充分说明实现软硬件接口的龙芯2号同时多线程处理器极大地提高了多进程负载的性能.分析和设计方案不仅适用于同时多线程处理器,而且对于片内多核处理器的设计也有借鉴作用. 展开更多
关键词 龙芯2 同时多线程 微体系结构 LINUX操作系统
下载PDF
龙芯2号处理器功能部件设计 被引量:1
4
作者 张戈 齐子初 胡伟武 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期967-973,共7页
功能部件是处理器中进行指令运算的核心单元,它的算法及其实现直接影响到处理器的总体性能.介绍了龙芯2号处理器的功能部件,探讨了从算法到物理设计等不同层次的功能部件设计方法.龙芯2号功能部件分为两个定点ALU和两个浮点ALU实现... 功能部件是处理器中进行指令运算的核心单元,它的算法及其实现直接影响到处理器的总体性能.介绍了龙芯2号处理器的功能部件,探讨了从算法到物理设计等不同层次的功能部件设计方法.龙芯2号功能部件分为两个定点ALU和两个浮点ALU实现,除实现完整的MIPS定、浮点指令集外,还实现了龙芯2号类MMX自定义多媒体指令集以及定点操作在浮点部件(FPU)中的数据通路复用.龙芯2号浮点部件遵照IEEE754和MIPS相关标准,浮点加法4拍完成,浮点乘法5拍完成,浮点除法4~17拍完成.物理设计支持0.18μm工艺下主频500MHz的标准单元实现,浮点单精度峰值性能达到2GFLOPS.双精度峰值性能达到1GFLOPS. 展开更多
关键词 龙芯2号处理器 功能部件设计 浮点部件 多媒体指令集
下载PDF
龙芯2号综合参数测试系统设计
5
作者 蔡晔 程晓宇 《计算机测量与控制》 CSCD 2007年第5期569-570,共2页
基于龙芯2号处理器(Godson 2)研制了一符合PC104 Plus总线标准的处理器模块,介绍了模块结构和系统核心北桥的实现。并结合实际应用的需求,设计了一功能扩展模块,该模块集成了AD、DA通道,IO通道,信号频率测试功能,具有较高的集成度。通... 基于龙芯2号处理器(Godson 2)研制了一符合PC104 Plus总线标准的处理器模块,介绍了模块结构和系统核心北桥的实现。并结合实际应用的需求,设计了一功能扩展模块,该模块集成了AD、DA通道,IO通道,信号频率测试功能,具有较高的集成度。通过两者构建了一具有标准前向通道、后向通道、存储模块的综合参数测试系统,实际验证表明该系统可满足大多数测试测量场合的需求,并可根据需要采用其它标准PC104模块进行功能扩展。 展开更多
关键词 龙芯 PC104 PC104 PLUS 测试系统 AD DA
下载PDF
龙芯2号处理器系统优化关键技术 被引量:3
6
作者 伍鸣 张福新 +3 位作者 林伟 许先超 袁楠 王剑 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期980-986,共7页
系统软件作为处理器和应用程序之间的接口,对于充分利用处理器的特性来维护处理器与应用程序的稳定性和提高应用程序的性能起着极其重要的作用·描述了在Linux内核中解决龙芯2号处理器的Cache别名问题的方法以及通过增加页的大小、... 系统软件作为处理器和应用程序之间的接口,对于充分利用处理器的特性来维护处理器与应用程序的稳定性和提高应用程序的性能起着极其重要的作用·描述了在Linux内核中解决龙芯2号处理器的Cache别名问题的方法以及通过增加页的大小、软TLB和FAST TLB REFILL的方法减小TLB失效的性能损失,还有Uncache Accelerate对媒体播放软件的加速·实验结果表明,在系统软件中增加这些方法的支持,对系统的稳定性和性能都有较大的好处· 展开更多
关键词 龙芯2号处理器 Cache别名 软TLB Uncache Accelerate
下载PDF
一种分片式多核处理器的用户级模拟器 被引量:6
7
作者 黄琨 马可 +2 位作者 曾洪博 张戈 章隆兵 《软件学报》 EI CSCD 北大核心 2008年第4期1069-1080,共12页
随着片上晶体管资源的增多和互连线延迟的加大,分片式多核微处理器已成为多核处理器设计的新方向.为了对这种新型处理器进行体系结构的深入研究和设计空间的探索,设计并实现了针对分片式多核处理器的用户级多核性能模拟器.该多核模拟器... 随着片上晶体管资源的增多和互连线延迟的加大,分片式多核微处理器已成为多核处理器设计的新方向.为了对这种新型处理器进行体系结构的深入研究和设计空间的探索,设计并实现了针对分片式多核处理器的用户级多核性能模拟器.该多核模拟器在龙芯2号单处理器核的基础上,完整地模拟了基于目录的Cache一致性协议和存储转发式片上互联网络的结构模型,详细地刻画了由于系统乱序处理各种请求应答和请求之间的冲突而造成的时序特性,可以通过运行各种串行或并行的工作负载对多核处理器的各种重要性能指标加以评估,为多核处理器的结构设计提供了快速、灵活、高效的研究平台. 展开更多
关键词 分片式CMP(chip multiprocessor) 模拟器 片上网络 性能分析 龙芯2号微处理器
下载PDF
一种基于龙芯CPU的结构级功耗评估新方法 被引量:4
8
作者 黄琨 章隆兵 +1 位作者 胡伟武 张戈 《计算机研究与发展》 EI CSCD 北大核心 2007年第5期782-789,共8页
如何有效地利用处理器消耗的能量而得到尽可能高的性能成为了目前体系结构研究的热点,在研究中,结构级的功耗评估工具无疑具有重要的作用.在现有的结构级功耗模拟器中,往往只考虑了动态电路以及全定制实现方法下的功耗刻画,而忽略了以... 如何有效地利用处理器消耗的能量而得到尽可能高的性能成为了目前体系结构研究的热点,在研究中,结构级的功耗评估工具无疑具有重要的作用.在现有的结构级功耗模拟器中,往往只考虑了动态电路以及全定制实现方法下的功耗刻画,而忽略了以静态电路和标准单元设计为主的ASIC设计方法对处理器功耗带来的影响.由此,结合一款高性能、低功耗通用处理器——龙芯2号的具体实现,对其设计特点和功耗特性进行分析,实现了以龙芯2号处理器为基本研究对象的结构级功耗评估方法.该评估方法充分考虑了CMOS静态电路的结构级功耗刻画方法,因此更加适合目前以ASIC设计方法为主的高性能处理器结构的功耗评估.该结构级功耗评估方法与RTL级的功耗评估方法相比,具有速度快和灵活性好的优点.在2.4GHz的IntelXeon上,该功耗评估方法的速度约为300K/s,是RTL级的评估方法的5000倍,而且误差很小. 展开更多
关键词 功耗 评估方法 龙芯2号微处理器 功耗建模 ASIC设计
下载PDF
结合访存失效队列状态的预取策略 被引量:3
9
作者 郇丹丹 李祖松 +1 位作者 胡伟武 刘志勇 《计算机学报》 EI CSCD 北大核心 2007年第7期1104-1114,共11页
随着存储系统的访问速度与处理器的运算速度的差距越来越显著,访存性能已成为提高计算机系统性能的瓶颈.通过对指令Cache和数据Cache失效行为的分析,提出一种预取策略——结合访存失效队列状态的预取策略.该预取策略保持了指令和数据... 随着存储系统的访问速度与处理器的运算速度的差距越来越显著,访存性能已成为提高计算机系统性能的瓶颈.通过对指令Cache和数据Cache失效行为的分析,提出一种预取策略——结合访存失效队列状态的预取策略.该预取策略保持了指令和数据访问的次序,有利于预取流的提取.并将指令流和数据流的预取相分离,避免相互替换.在预取发起时机的选择上,不但考虑当前总线是否空闲,而且结合访存失效队列的状态,减小对处理器正常访存请求的影响.通过流过滤机制提高预取准确性,降低预取对访存带宽的需求.结果表明,采用结合访存失效队列状态的预取策略,处理器的平均访存延时减少30%,SPEC CPU2000程序的IPC值平均提高8.3%. 展开更多
关键词 预取 Cache失效 龙芯2
下载PDF
Cache自适应写分配策略 被引量:2
10
作者 郇丹丹 李祖松 +1 位作者 胡伟武 刘志勇 《计算机研究与发展》 EI CSCD 北大核心 2007年第2期348-354,共7页
处理器所能提供的有效带宽是目前制约处理器性能提高的关键因素.通过对Cache写失效行为的分析,提出了一种新的提高处理器带宽利用率的Cache写失效处理策略——Cache自适应写分配策略.该策略在访存失效队列中收集全修改Cache块,对全修改C... 处理器所能提供的有效带宽是目前制约处理器性能提高的关键因素.通过对Cache写失效行为的分析,提出了一种新的提高处理器带宽利用率的Cache写失效处理策略——Cache自适应写分配策略.该策略在访存失效队列中收集全修改Cache块,对全修改Cache块采用非写分配策略,并能够自适应地切换为写分配策略.与传统的Cache写失效处理策略相比,Cache自适应写分配策略硬件代价小,避免了不必要的数据传输,降低Cache污染,减少存储管理队列阻塞的频率.结果表明,采用Cache自适应写分配策略,STREAM基准测试程序带宽平均提高62.6%,SPECCPU2000程序的IPC值平均提高5.9%. 展开更多
关键词 CACHE 写失效 写分配 带宽 龙芯2
下载PDF
一种高性能北桥芯片的设计及性能分析 被引量:1
11
作者 曾洪博 胡明昌 +2 位作者 李文 蔡飞 唐志敏 《计算机研究与发展》 EI CSCD 北大核心 2007年第9期1501-1509,共9页
计算机系统整体性能的提高不仅仅依赖于处理器计算能力的提升也需要高性能芯片组的有力支持.芯片组承担着CPU和外围设备通信的重任,而且目前大多数系统中采用把内存控制器集成在北桥中的方法,这更加突出了北桥在访存性能以至于在整个系... 计算机系统整体性能的提高不仅仅依赖于处理器计算能力的提升也需要高性能芯片组的有力支持.芯片组承担着CPU和外围设备通信的重任,而且目前大多数系统中采用把内存控制器集成在北桥中的方法,这更加突出了北桥在访存性能以至于在整个系统中的关键作用.以高性能为目标,龙芯2C处理器配套北桥芯片NB2005的设计和优化采用了很多新的方法和技术,其中包括根据程序行为进行动态Page管理的内存控制电路,一种与内存控制电路状态相结合的预取策略和具备高吞吐量低延迟的PCI通道设计等.性能测试和分析表明,搭配NB2005的龙芯2C系统访存带宽要比搭配Marvell GT64240北桥的系统提高40%以上,运行SPECCPU2000浮点和定点程序的性能分别提高了12.2%和2.5%,磁盘I/O的性能也提高了30%. 展开更多
关键词 北桥 芯片组 龙芯2处理器 内存控制器 PCI
下载PDF
快速地址计算的自适应栈高速缓存 被引量:1
12
作者 郇丹丹 李祖松 +3 位作者 王剑 章隆兵 胡伟武 刘志勇 《计算机研究与发展》 EI CSCD 北大核心 2007年第1期169-176,共8页
随着存储系统的访问速度与处理器运算速度的差距越来越显著,访存性能已成为提高处理器性能的瓶颈.通过对程序的访存行为进行分析,提出快速地址计算的自适应栈高速缓存方案.该方案将栈访问从数据高速缓存的访问中分离出来,充分利用栈空... 随着存储系统的访问速度与处理器运算速度的差距越来越显著,访存性能已成为提高处理器性能的瓶颈.通过对程序的访存行为进行分析,提出快速地址计算的自适应栈高速缓存方案.该方案将栈访问从数据高速缓存的访问中分离出来,充分利用栈空间数据访问的特点,提高指令级并行度,减少数据高速缓存污染,降低数据高速缓存失效率,并采用快速地址计算策略,减少栈访问的命中时间.该栈高速缓存在发生栈溢出时能够自适应地关闭,以避免栈切换对处理器性能的影响.栈高速缓存标志中增加进程标识,进程切换时不需要将数据写到低层存储系统中,适用于多进程环境.SPEC CPU2000程序运行结果表明,采用快速地址计算的自适应栈高速缓存方案,25.8%的访存指令可以并行执行,数据高速缓存失效率平均降低9.4%,IPC值平均提高6.9%. 展开更多
关键词 高速缓存 快速地址计算 自适应 龙芯2
下载PDF
同时多微线程体系结构研究 被引量:1
13
作者 李祖松 许先超 +1 位作者 胡伟武 唐志敏 《计算机研究与发展》 EI CSCD 北大核心 2007年第5期768-774,共7页
随着生产工艺的提高,芯片上能集成越来越多的晶体管,多线程技术也逐步成为一种主流的处理器体系结构技术.提出一种融合同时多线程技术和微线程技术的新型体系结构同时多微线程(simul-taneous multi-microthreading,SMMT),并给出同时多... 随着生产工艺的提高,芯片上能集成越来越多的晶体管,多线程技术也逐步成为一种主流的处理器体系结构技术.提出一种融合同时多线程技术和微线程技术的新型体系结构同时多微线程(simul-taneous multi-microthreading,SMMT),并给出同时多微线程体系结构的实现方案.SMMT有效结合同时多线程技术硬件代价小和微线程技术能够加速单进程应用的优点,通过软硬件协同的方式充分挖掘单进程程序的微线程级并行性.通过在设计的龙芯2号同时多微线程处理器上进行性能评测,结果表明,同时多微线程体系结构能够有效地加速单进程的程序,以很小的硬件代价显著地提高了处理器的性能. 展开更多
关键词 同时多微线程 龙芯2 同时多线程 微线程 体系结构
下载PDF
基于约束的处理器接口随机测试模型 被引量:1
14
作者 郇丹丹 李祖松 刘志勇 《计算机工程》 CAS CSCD 北大核心 2007年第15期227-229,共3页
提出了一种处理器接口测试模型,并给出了具体实现方案。该测试模型将仿真测试的方法应用于处理器接口测试,在激励生成中采用基于约束的随机测试生成方法。结果表明,基于约束的处理器接口随机测试模型的覆盖率达到83.68%,能够快速有效地... 提出了一种处理器接口测试模型,并给出了具体实现方案。该测试模型将仿真测试的方法应用于处理器接口测试,在激励生成中采用基于约束的随机测试生成方法。结果表明,基于约束的处理器接口随机测试模型的覆盖率达到83.68%,能够快速有效地完成处理器接口部件的功能验证。 展开更多
关键词 接口 功能验证 仿真 约束随机测试 覆盖率 龙芯2
下载PDF
一种基于微基准程序和理想上限的处理器性能分析方法
15
作者 马可 章隆兵 《电子学报》 EI CAS CSCD 北大核心 2008年第2期350-357,共8页
随着现代高性能通用处理器结构的不断发展,处理器的性能分析已经变得越来越困难.基于大工作负载和单纯依靠模拟器的性能分析方法复杂度高,且难以直观地反映微体系结构特征.本文针对超标量处理器的特点,提出一种新的处理器性能分析方法,... 随着现代高性能通用处理器结构的不断发展,处理器的性能分析已经变得越来越困难.基于大工作负载和单纯依靠模拟器的性能分析方法复杂度高,且难以直观地反映微体系结构特征.本文针对超标量处理器的特点,提出一种新的处理器性能分析方法,具体包括:设计一个微基准程序集Godson-Microbench,并提出相应的理想性能上限计算公式.这种方法扩充了过去基于约束的性能分析方法,可以更加完整地评估流水线性能并有效地发现性能瓶颈.本文使用这种方法分析比较了龙芯2号处理器和Alpha21264处理器,并依此改进了龙芯2号的结构,使得微基准程序的平均性能提高了13.8%,SPEC程序集的IPC提高了28.8%.本文提出的性能分析方法在龙芯2号的结构优化工作中发挥了重要作用. 展开更多
关键词 性能分析 微基准程序 理想上限 龙芯2号处理器 Alpha21264处理器
下载PDF
龙芯链接后优化器设计与分析 被引量:2
16
作者 陈瑜 朱晓静 +1 位作者 邹琼 刘玲 《计算机研究与发展》 EI CSCD 北大核心 2006年第8期1450-1456,共7页
链接后优化技术是在编译链接后对整个程序再进行优化的一种技术·它克服了传统编译器优化局限于一个函数、一个模块的缺点,将优化范围扩展到整个程序,并且充分利用了链接后确定的信息·参照Arizona大学为Alpha处理器设计的链接... 链接后优化技术是在编译链接后对整个程序再进行优化的一种技术·它克服了传统编译器优化局限于一个函数、一个模块的缺点,将优化范围扩展到整个程序,并且充分利用了链接后确定的信息·参照Arizona大学为Alpha处理器设计的链接后优化器ALTO,针对龙芯2号处理器的微体系结构和指令集的特征,设计了龙芯上的链接后优化器GLTO(Godsonlinktimeoptimizer)·GLTO使得龙芯处理器SPEC2000定点程序ref分值提高了9·4%,具有显著的优化效果·分析了主要优化策略的效果和产生的原因,提出了处理器的结构设计中的改进设想,并将GLTO与ALTO做了对比分析· 展开更多
关键词 链接后优化 GLTO 龙芯2号处理器
下载PDF
Chip Multithreaded Consistency Model
17
作者 李祖松 郇丹丹 +1 位作者 胡伟武 唐志敏 《Journal of Computer Science & Technology》 SCIE EI CSCD 2008年第2期298-304,F0003,共8页
Multithreaded technique is the developing trend of high performance processor. Memory consistency model is essential to the correctness, performance and complexity of multithreaded processor. The chip multithreaded co... Multithreaded technique is the developing trend of high performance processor. Memory consistency model is essential to the correctness, performance and complexity of multithreaded processor. The chip multithreaded consistency model adapting to multithreaded processor is proposed in this paper. The restriction imposed on memory event ordering by chip multithreaded consistency is presented and formalized. With the idea of critical cycle built by Wei-Wu Hu, we prove that the proposed chip multithreaded consistency model satisfies the criterion of correct execution of sequential consistency model. Chip multithreaded consistency model provides a way of achieving high performance compared with sequential consistency model and easures the compatibility of software that the execution result in multithreaded processor is the same as the execution result in uniprocessor. The implementation strategy of chip multithreaded consistency model in Godson-2 SMT processor is also proposed. Godson-2 SMT processor supports chip multithreaded consistency model correctly by exception scheme based on the sequential memory access queue of each thread. 展开更多
关键词 computer architecture godson-2 MULTITHREADING memory consistency model event ordering
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部