期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
基于Trace-Cache的多级动态优化框架设计 被引量:4
1
作者 唐遇星 邓鹍 周兴铭 《电子学报》 EI CAS CSCD 北大核心 2005年第11期1946-1951,共6页
对指令集进行扩展和添加新功能部件是提高处理器性能的有效途径.为了充分利用新的体系结构扩展,已有应用必需经过全新的优化编译.对于跨体系结构优化而言,二进制翻译已经被证明是一种行之有效的技术.本文结合trace技术和动态二进制翻译... 对指令集进行扩展和添加新功能部件是提高处理器性能的有效途径.为了充分利用新的体系结构扩展,已有应用必需经过全新的优化编译.对于跨体系结构优化而言,二进制翻译已经被证明是一种行之有效的技术.本文结合trace技术和动态二进制翻译优化技术,提出一种多级动态优化框架结构,无需静态重新优化编译,在程序动态运行期间,引入多级动态优化方法和扩展指令调度.模拟结果显示该结构具有能有效形成大尺寸的指令调度窗口,准确选择热点代码及优化方法,有效提升旧有应用性能的优点,并有实现灵活,可扩展好等特点. 展开更多
关键词 TRACE 动态优化 指令调度 指令级并行
下载PDF
基于简化Trace的动态隐式断言执行 被引量:1
2
作者 唐遇星 邓鹍 +1 位作者 窦勇 周兴铭 《计算机学报》 EI CSCD 北大核心 2007年第11期1972-1981,共10页
分支指令与分支预测失败限制了处理器发掘指令级并行(ILP)的潜力.通过If-conversion或Predicated执行将程序中的控制相关转化为数据相关,能较好地降低分支预测开销.提出一种基于简化Trace结构的动态隐式断言执行机制(Dynamic Implicit P... 分支指令与分支预测失败限制了处理器发掘指令级并行(ILP)的潜力.通过If-conversion或Predicated执行将程序中的控制相关转化为数据相关,能较好地降低分支预测开销.提出一种基于简化Trace结构的动态隐式断言执行机制(Dynamic Implicit Predication,DIP),而早期的相关研究主要集中于由编译器显式为宽发射处理器产生静态Predicated指令.无需编译器或者其他二进制工具的帮助,DIP可以在程序运行过程中识别可以进行断言变换的指令片断,完成指令转换与优化,并在以后的执行中使用优化后的指令Trace.基于SPEC2000模拟测试表明DIP可以有效避免错误的分支预测,提高并行度,单个程序的IPC平均提高10.3%,基准程序的平均加速比可达7.59%. 展开更多
关键词 指令级并行 断言 动态隐式断言执行 踪迹缓冲 流水线
下载PDF
VISA:基于动态二进制翻译优化技术的可扩展体系结构
3
作者 唐遇星 邓鹍 +1 位作者 窦勇 周兴铭 《计算机工程与科学》 CSCD 2006年第8期95-98,共4页
体系结构设计经常要在代码兼容和结构创新之间进行折衷。保证代码兼容的体系结构难以引入创新性的体系结构技术,或者导致最终结构变得相当复杂。本文提出一种基于动态二进制翻译优化的可扩展处理器结构VISA。VI-SA在实现兼容的前提下拓... 体系结构设计经常要在代码兼容和结构创新之间进行折衷。保证代码兼容的体系结构难以引入创新性的体系结构技术,或者导致最终结构变得相当复杂。本文提出一种基于动态二进制翻译优化的可扩展处理器结构VISA。VI-SA在实现兼容的前提下拓展了体系结构设计的空间。模拟结果显示,VISA性能优于现有的动态二进制翻译优化框架,并有更高的性能潜力和扩展空间。 展开更多
关键词 二进制翻译 动态优化 微处理器 指令集体系结构 可扩展性
下载PDF
GPU异构系统中的存储层次和负载均衡策略研究 被引量:12
4
作者 马安国 成玉 +1 位作者 唐遇星 邢座程 《国防科技大学学报》 EI CAS CSCD 北大核心 2009年第5期38-43,共6页
GPU体系结构的革新和相应开发平台的发展使得GPU广泛地应用于科学计算领域。通过深入地分析GPU体系结构和存储层次的优缺点以及GPU上的关键性能特征,阐明了GPU体系结构、编程模型和存储层次之间的关系。针对GPU异构系统上的应用映射提... GPU体系结构的革新和相应开发平台的发展使得GPU广泛地应用于科学计算领域。通过深入地分析GPU体系结构和存储层次的优缺点以及GPU上的关键性能特征,阐明了GPU体系结构、编程模型和存储层次之间的关系。针对GPU异构系统上的应用映射提出三种基本负载均衡优化策略:预取、流化、任务划分。试验结果揭示了不同的优化因子与优化效率之间的具体关联。 展开更多
关键词 GPGPU 存储层次 负载均衡策略 流计算 任务划分
下载PDF
利用动态二进制翻译加速应用程序行为特征分析 被引量:6
5
作者 赵天磊 唐遇星 +3 位作者 付桂涛 贾小敏 齐树波 张民选 《计算机研究与发展》 EI CSCD 北大核心 2012年第1期35-43,共9页
应用程序运行时典型行为特征分析的一种重要方法是SimPoint,但是为SimPoint生成基本块向量剖析(basic block vector profile,BBV profile)文件非常耗时.首先提出了一个利用动态二进制翻译技术生成BBVprofile的通用框架DBT-BBV,然后详细... 应用程序运行时典型行为特征分析的一种重要方法是SimPoint,但是为SimPoint生成基本块向量剖析(basic block vector profile,BBV profile)文件非常耗时.首先提出了一个利用动态二进制翻译技术生成BBVprofile的通用框架DBT-BBV,然后详细分析了几种降低开销的优化技术,最后基于DBT-BBV和提出的优化技术设计实现了一个高效的BBVProfile收集工具QPoint.利用SPEC2006测试程序集评估了所提出的优化技术和QPoint的性能和开销.与现有工具相比,QPoint有两个优势:①QPoint的性能高于现有工具,在普通PC机上最高速度为292MIPS,平均速度为109MIPS,BBV Profile收集的平均开销小于4%,在同类工具中最低;②QPoint支持众多体系结构平台,包括x86/x86_64,ARM,POWER,SPARC,MIPS等,并且可跨指令集收集BBVProfile.结果显示,动态二进制翻译技术在应用程序行为特征分析加速方面具有非常好的效果. 展开更多
关键词 应用程序行为分析 二进制翻译 SimPoint BBV PROFILE QPoint
下载PDF
一种面向通信特征的3D NoC体系结构设计 被引量:3
6
作者 王谛 赵天磊 +1 位作者 唐遇星 窦强 《计算机研究与发展》 EI CSCD 北大核心 2014年第9期1971-1979,共9页
三维集成电路(three dimensional integrated circuit,3DIC)和片上网络(network on chip,NoC)是集成电路设计发展的两个趋势.将两者结合的三维片上网络(three dimensional networks on chip,3DNoC)是当前研究的热点之一.针对现有3DNoC... 三维集成电路(three dimensional integrated circuit,3DIC)和片上网络(network on chip,NoC)是集成电路设计发展的两个趋势.将两者结合的三维片上网络(three dimensional networks on chip,3DNoC)是当前研究的热点之一.针对现有3DNoC的研究没有充分关注硅片内与硅片间的异构通信特征.提出了面向通信特征的硅片间单跳步(single hop inter dies,SHID)体系结构,该结构采用异构拓扑结构和硅片间扩展路由器(express inter dies router,EIDR).通过实验数据的分析表明,与3DMesh和NoC-Bus这两种已有的3DNoC结构相比,SHID结构有以下特点:1)延迟较低,4层堆叠时比3D-Mesh低15.1%,比NoC-Bus低11.5%;2)功耗与NoC-Bus相当,比3D-Mesh低10%左右;3)吞吐率随堆叠层数增加下降缓慢,16层堆叠时吞吐率比3D-Mesh高66.98%,比NoC-Bus高314.49%.SHID体系结构同时具备性能和可扩展性的优势,是未来3DNoC体系结构良好设计选择. 展开更多
关键词 三维集成电路 片上网络 三维片上网络 硅通孔 路由器
下载PDF
VLSI设计与验证课程实验设计探索 被引量:4
7
作者 陈海燕 唐遇星 陈吉华 《计算机工程与科学》 CSCD 北大核心 2014年第A01期14-17,共4页
超大规模集成电路设计与验证是计算机科学与技术学科以及电子科学与技术学科专业的核心课程。总结了近几年来该课程教学实践方法。参照国外相关课程经验,不断优化、调整教学内容,以及与之配合的课内实验课和课外课程设计实践,探索了基... 超大规模集成电路设计与验证是计算机科学与技术学科以及电子科学与技术学科专业的核心课程。总结了近几年来该课程教学实践方法。参照国外相关课程经验,不断优化、调整教学内容,以及与之配合的课内实验课和课外课程设计实践,探索了基于虚拟机环境一体化EDA工具为载体的实验环境;为学生课后的自主学习和实验创造了条件。 展开更多
关键词 实验 EDA工具 验证 虚拟机 一体化
下载PDF
一种快速有效的L2 Cache可靠性预测方法 被引量:1
8
作者 成玉 马安国 +2 位作者 王永文 唐遇星 张民选 《计算机研究与发展》 EI CSCD 北大核心 2013年第1期181-187,共7页
随着集成电路工艺的不断进步,微处理器的软错误问题日益突出.体系结构弱点因子AVF(architectural vulnerability factor)作为可靠性评估指标之一,常用于软错误的评估.AVF在程序执行过程中呈现明显的动态变化特性,使得基于AVF预测的动态... 随着集成电路工艺的不断进步,微处理器的软错误问题日益突出.体系结构弱点因子AVF(architectural vulnerability factor)作为可靠性评估指标之一,常用于软错误的评估.AVF在程序执行过程中呈现明显的动态变化特性,使得基于AVF预测的动态容错管理技术成为当前软错误研究领域的热门课题.即根据AVF的变化来动态选择是否对微处理器部件进行容错设计,从而在满足软错误可靠性要求的前提下尽量降低容错技术的开销.因此,基于L2 Cache AVF的动态特性研究,提出使用贝叶斯累加树模型BART(Bayesian additive regression trees)对L2 Cache AVF进行准确预测,并使用块搜索(bump hunting)技术来提取由少数几个性能参数组成的、对具有高L2 Cache AVF的执行阶段进行判定的规则,从而实现了对L2 Cache AVF的快速有效预测. 展开更多
关键词 软错误 体系结构弱点因子 AVF预测 贝叶斯累加树 块搜索
下载PDF
一种面向三维微处理器的新型片上网络拓扑 被引量:1
9
作者 王谛 白晗 +2 位作者 赵天磊 唐遇星 窦强 《上海交通大学学报》 EI CAS CSCD 北大核心 2013年第1期86-91,97,共7页
利用三维集成电路中硅通孔具有延迟短、功耗低的特性,针对10层以上硅片堆叠的三维片上网络,设计了一种新的拓扑结构3DE-Mesh,并通过实验数据的分析,验证了3DE-Mesh的性能和可扩展性.结果表明,3DE-Mesh的性能和可扩展性均满足10层以上硅... 利用三维集成电路中硅通孔具有延迟短、功耗低的特性,针对10层以上硅片堆叠的三维片上网络,设计了一种新的拓扑结构3DE-Mesh,并通过实验数据的分析,验证了3DE-Mesh的性能和可扩展性.结果表明,3DE-Mesh的性能和可扩展性均满足10层以上硅片堆叠的三维集成电路的要求. 展开更多
关键词 三维集成电路 三维片上网络 拓扑结构 扩展链路
下载PDF
高准确率的应用程序行为分析方法
10
作者 赵天磊 唐遇星 +3 位作者 齐树波 付桂涛 贾小敏 张民选 《电子科技大学学报》 EI CAS CSCD 北大核心 2011年第6期927-932,共6页
模拟是体系结构研究的重要手段。由于模拟的速度非常慢,有研究提出利用动态二进制翻译技术(DBT)提取程序的代表性模拟点,对代表性模拟点进行详细模拟即可获取程序的准确性能参数,从而缩短模拟时间。然而相关研究并未考虑DBT方法对模拟... 模拟是体系结构研究的重要手段。由于模拟的速度非常慢,有研究提出利用动态二进制翻译技术(DBT)提取程序的代表性模拟点,对代表性模拟点进行详细模拟即可获取程序的准确性能参数,从而缩短模拟时间。然而相关研究并未考虑DBT方法对模拟结果准确度的影响。实验发现,对于某些程序,DBT加速方法会给模拟结果带来近20%的误差。为消除误差,系统分析了引起指令踪迹差异的原因,并提出了一系列消除这些差异的方法。实验结果证实,利用该文提出的方法,可以在不影响DBT方法性能的同时,保证其与传统模拟方法具有完全相同的精确度。 展开更多
关键词 BBV PROFILE 二进制翻译 执行踪迹 应用行为分析 可重现模拟 SimPoint 模拟误差
下载PDF
程序执行的精确重现技术及其在体系结构模拟中的应用
11
作者 赵天磊 唐遇星 +4 位作者 徐炜遐 付桂涛 齐树波 贾小敏 张民选 《计算机学报》 EI CSCD 北大核心 2011年第11期2073-2083,共11页
近年来有研究提出利用动态二进制翻译技术(Dynamic Binary Translation,DBT)加速程序代表性模拟点的提取,然而这些研究并未考虑DBT方法对模拟结果准确度的影响.实验发现,对于某些程序,DBT加速方法会带来将近20%的误差.经分析,误差的根... 近年来有研究提出利用动态二进制翻译技术(Dynamic Binary Translation,DBT)加速程序代表性模拟点的提取,然而这些研究并未考虑DBT方法对模拟结果准确度的影响.实验发现,对于某些程序,DBT加速方法会带来将近20%的误差.经分析,误差的根源在于程序在DBT执行和模拟执行时执行踪迹有巨大差异,即程序执行踪迹的不可重现性.本文系统地分析了引起程序执行踪迹不可重现的原因,提出了解决方法.实验证实,利用文中提出的方法,可以在不影响性能的情况下,实现程序执行踪迹的精确重现,从而保证DBT方法与传统模拟方法具有完全相同的精确度. 展开更多
关键词 应用程序行为分析 模拟误差 可重现模拟 执行踪迹 二进制翻译 SimPoint BBVProfile
下载PDF
用于低开销容错设计的存储部件可靠性评估研究
12
作者 成玉 马安国 +2 位作者 蒋江 唐遇星 张民选 《电子与信息学报》 EI CSCD 北大核心 2011年第11期2753-2758,共6页
低开销容错技术是当前软错误研究领域的热点。为了对微处理器进行低开销容错保护,首先就需要对微处理器可靠性(即体系结构弱点因子AVF(Architectural Vulnerability Factor))进行准确评估。然而,现有的AVF评估工具的精确性和适用范围都... 低开销容错技术是当前软错误研究领域的热点。为了对微处理器进行低开销容错保护,首先就需要对微处理器可靠性(即体系结构弱点因子AVF(Architectural Vulnerability Factor))进行准确评估。然而,现有的AVF评估工具的精确性和适用范围都受到不同程度的限制。该文以微处理器上的核心部件(即存储部件)作为研究对象,对AVF评估方法进行改进,提出了一种访存操作分析和指令分析相结合的AVF评估策略HAES(Hybrid AVFEvaluation Strategy)。该文将HAES融入到通用的模拟器中,实现了更精确和更通用的AVF评估框架。实验结果表明相比其它AVF评估工具,利用该文提出的评估框架得到的AVF平均降低22.6%。基于该评估框架计算得到的AVF更加精确地反映了不同应用程序运行时存储部件的可靠性,对设计人员对微处理器进行低开销的容错设计具有重要指导意义。 展开更多
关键词 软错误 体系结构弱点因子(AVF) 混合AVF评估策略(HAES) 低开销容错
下载PDF
一种新的自适应翻译单元构造算法
13
作者 曹宏嘉 肖勇 +2 位作者 唐遇星 邓昆鸟 周兴铭 《电子学报》 EI CAS CSCD 北大核心 2005年第8期1360-1364,共5页
翻译单元的构造对动态二进制翻译系统的性能有着重要影响.本文提出一种新的硬件支持下的自适应翻译单元构造算法ATUC,动态监测程序执行,根据程序的执行特性动态自适应调整翻译单元的构造,提高翻译后代码的执行成功率,并尽可能提高翻译... 翻译单元的构造对动态二进制翻译系统的性能有着重要影响.本文提出一种新的硬件支持下的自适应翻译单元构造算法ATUC,动态监测程序执行,根据程序的执行特性动态自适应调整翻译单元的构造,提高翻译后代码的执行成功率,并尽可能提高翻译后代码效率.引入了硬件的连续提交地址缓冲,辅助二进制翻译软件进行程序执行特性监测,降低profile开销.SPEC2000程序模拟结果表明,ATUC算法对系统性能提高明显.分析表明ATUC具有很低的时间空间开销与硬件支持实现开销. 展开更多
关键词 动态二进制翻译 翻译单元构造 指令踪迹 轮廓信息
下载PDF
深亚微米工艺下片上存储结构的体系结构级功耗模型
14
作者 任静 唐遇星 徐炜遐 《计算机研究与发展》 EI CSCD 北大核心 2012年第S1期104-110,共7页
半导体工艺的持续发展和芯片集成度的显著提高,导致芯片发热量的增大与可靠性的下降,限制了性能的进一步提升,功耗已经成为微处理器设计领域的一个关键问题.片上存储结构作为微处理器的重要组成部分,在微处理器总功耗中占据了很大的比重... 半导体工艺的持续发展和芯片集成度的显著提高,导致芯片发热量的增大与可靠性的下降,限制了性能的进一步提升,功耗已经成为微处理器设计领域的一个关键问题.片上存储结构作为微处理器的重要组成部分,在微处理器总功耗中占据了很大的比重.Wattch为片上存储结构提供了动态功耗模拟模型,但不能反映最新的结构和工艺变化.结合CACTI中存储结构的峰值功耗估算模型,改进了Wattch中存储结构的动态功耗模拟模型,不仅扩展了模型适用的工艺范围,也反映了10年间存储结构的改进.利用改进的模型探索了片上存储结构在深亚微米工艺下的功耗. 展开更多
关键词 微处理器 存储 功耗 体系结构 深亚微米
下载PDF
一种支持Subcacheline结构的三维Cache模拟器的设计
15
作者 王玉 唐遇星 窦强 《计算机工程与科学》 CSCD 北大核心 2013年第10期154-158,共5页
Cache设计中存在大量的全局互联连线,而三维集成电路技术可以有效地解决深亚微米芯片设计中互联延迟问题。目前已经提出了多种三维Cache结构。在已有的工作基础上,提出了一种新的三维Cache结构——Subcacheline,以及相关功耗延迟模拟工... Cache设计中存在大量的全局互联连线,而三维集成电路技术可以有效地解决深亚微米芯片设计中互联延迟问题。目前已经提出了多种三维Cache结构。在已有的工作基础上,提出了一种新的三维Cache结构——Subcacheline,以及相关功耗延迟模拟工具——3DSCacti。3DSCacti通过遍历分割的子阵列设计空间,根据成本函数进行Cache设计优化。将已有的三维Cache模拟器同3DSCacti优化结果进行对比,实验结果表明,该模拟器可以有效地扩展三维Cache的设计空间。最后,分析了不同工艺条件下模拟器的优化结果。 展开更多
关键词 三维集成电路 CACHE 模拟器 结构设计
下载PDF
SS-SERA:An improved framework for architectural level soft error reliability analysis 被引量:2
16
作者 成玉 马安国 +2 位作者 王永文 唐遇星 张民选 《Journal of Central South University》 SCIE EI CAS 2012年第11期3129-3146,共18页
Integrated with an improved architectural vulnerability factor (AVF) computing model, a new architectural level soft error reliability analysis framework, SS-SERA (soft error reliability analysis based on SimpleSca... Integrated with an improved architectural vulnerability factor (AVF) computing model, a new architectural level soft error reliability analysis framework, SS-SERA (soft error reliability analysis based on SimpleScalar), was developed. SS-SERA was used to estimate the AVFs for various on-chip structures accurately. Experimental results show that the AVFs of issue queue (IQ), register update units (RUU), load store queue (LSQ) and functional unit (FU) are 38.11%, 22.17%, 23.05% and 24.43%, respectively. For address-based structures, i.e., levell data cache (LID), DTLB, level2 unified cache (L2U), levell instruction cache (LII) and ITLB, AVFs of their data arrays are 22.86%, 27.57%, 14.80%, 8.25% and 12.58%, lower than their tag arrays' AVFs which are 30.01%, 28.89%, 17.69%, 10.26% and 13.84%, respectively. Furthermore, using the AVF values obtained with SS-SERA, a qualitative and quantitative analysis of the AVF variation and predictability was performed for the structures studied. Experimental results show that the AVF exhibits significant variations across different structures and workloads, and is influenced by multiple microarchitectural metrics and their interactions. Besides, AVFs of SPEC2K floating point programs exhibit better predictability than SPEC2K integer programs. 展开更多
关键词 soft error architectural vulnerability factor (AVF) AVF estimation model
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部