期刊文献+
共找到47篇文章
< 1 2 3 >
每页显示 20 50 100
基于蜂鸟E203的多级动态分支预测器
1
作者 魏一 杨智杰 +5 位作者 铁俊波 石伟 周理 王耀 王蕾 徐炜遐 《计算机工程与科学》 CSCD 北大核心 2024年第5期785-793,共9页
近年来,以蜂鸟E203为代表的开源RISC-V微处理器由于功耗低、性能好等优势,受到了学术界和工业界的广泛关注和应用。为提高微处理器性能,降低分支指令造成的流水线停顿,指令分支预测技术成为现代微处理器中广泛应用的重要技术之一。然而... 近年来,以蜂鸟E203为代表的开源RISC-V微处理器由于功耗低、性能好等优势,受到了学术界和工业界的广泛关注和应用。为提高微处理器性能,降低分支指令造成的流水线停顿,指令分支预测技术成为现代微处理器中广泛应用的重要技术之一。然而,蜂鸟E203现采用的分支预测器是轻量级的静态分支预测器,面临分支预测准确率较低的挑战。由于使用预测准确率较高的动态分支预测器,可以进一步降低由于预测错误导致的重定向取指所产生的开销,因此,针对上述挑战,在原微架构的基础上探索了多种动态分支预测器的实现,提高了分支预测精度并且兼顾了资源开销。实验结果表明,多种动态分支预测器中获得最优结果的是使用静态分支预测结合基于分支历史寄存器BHR的自适应动态分支预测器,在Dhrystone基准测试程序上其分支预测精度可从原来的84.6%最高提升至94.8%,分数从原来的1.296463提高到1.314418,在Coremark基准测试程序上其分支预测精度可从原来的67%提升至78.7%,分数从原来的2.120000提升至2.138008。 展开更多
关键词 动态分支预测 蜂鸟E203 RISC-V 流水线 微架构
下载PDF
一种自适应负载的I/O调度算法 被引量:1
2
作者 徐炜遐 李琼 蒋艳凰 《计算机工程与科学》 CSCD 北大核心 2009年第11期1-3,29,共4页
I/O调度算法对磁盘阵列(RAID)性能具有至关重要的影响。虽然已有很多典型的I/O调度算法在一定负载情况下可获得较好的性能,但很难有哪一种算法在各种负载情况下均能获得很好的性能。本文提出了一种智能RAID控制模型,结合C4.5决策树和Ada... I/O调度算法对磁盘阵列(RAID)性能具有至关重要的影响。虽然已有很多典型的I/O调度算法在一定负载情况下可获得较好的性能,但很难有哪一种算法在各种负载情况下均能获得很好的性能。本文提出了一种智能RAID控制模型,结合C4.5决策树和AdaBoost算法实现负载自动分类,根据负载变化和性能反馈情况动态调整I/O调度策略,实现面向应用需求的自治调度。模拟实验结果表明,自适应调度算法具有较好的适应性,在各种负载情况下优于现有的I/O调度算法,尤其适用于多线程混合负载环境的I/O性能优化。 展开更多
关键词 调度算法 智能存储控制 负载分类 RAID控制器
下载PDF
一种无缓存光互连网络中的结点饿死问题及其解决
3
作者 徐炜遐 齐星云 +1 位作者 窦强 冯权友 《计算机工程与科学》 CSCD 北大核心 2011年第4期45-49,共5页
本文针对一种无缓存的高性能计算机光互连网络BOIN中存在的结点饿死问题,提出了两种不同的解决方法——尽量回避的X优先路由算法和允许丢弃的X优先路由算法。这两种路由算法利用了报文在向X方向发送时其Y方向链路空闲的特点,使得发生冲... 本文针对一种无缓存的高性能计算机光互连网络BOIN中存在的结点饿死问题,提出了两种不同的解决方法——尽量回避的X优先路由算法和允许丢弃的X优先路由算法。这两种路由算法利用了报文在向X方向发送时其Y方向链路空闲的特点,使得发生冲突的报文可以通过空闲的链路顺利转发。模拟实验结果表明,采用这两种路由算法,能够很好地解决报文在发送时的饿死现象。 展开更多
关键词 高性能计算机系统 光互连技术 冲突 结点饿死 路由
下载PDF
一种异构多核处理器的并行流存储结构 被引量:7
4
作者 邓让钰 陈海燕 +7 位作者 窦强 徐炜遐 谢伦国 戴泽福 李永进 夏军 罗莉 张民选 《电子学报》 EI CAS CSCD 北大核心 2009年第2期312-317,共6页
异构多核处理器可结合多种处理器体系结构的优势,既保留传统通用体系结构的灵活性,又拥有大量计算资源,可提供更高的峰值计算性能.YHFT64-3异构多核处理器中浮点处理部件18套,峰值计算能力强大,设计与之相匹配的存储系统是一项重大挑战... 异构多核处理器可结合多种处理器体系结构的优势,既保留传统通用体系结构的灵活性,又拥有大量计算资源,可提供更高的峰值计算性能.YHFT64-3异构多核处理器中浮点处理部件18套,峰值计算能力强大,设计与之相匹配的存储系统是一项重大挑战.针对YHFT64-3处理器,本文提出了一种并行流层次存储结构,深入阐述了如何体现应用特点、支持并行数据流处理的存储系统的设计思想和方法,从多个层次实现对并行数据流的挖掘或捕获.测试结果表明,这种存储结构体现了应用特点,能够较好地发挥YHFT64-3处理器的性能,同频情况下(500MHz),YHFT64-3比YHFT64-2性能高2—3个数量级,与1.6GHz的Itanium2性能相当,但代价更低. 展开更多
关键词 异构多核处理器 流体系结构 预取 存储调度 优化的锁步执行模型
下载PDF
面向SOC芯片的跨时钟域设计和验证 被引量:5
5
作者 罗莉 何鸿君 +1 位作者 徐炜遐 窦强 《计算机科学》 CSCD 北大核心 2011年第9期279-281,297,共4页
随着高性能、低功耗芯片的发展,多时钟域和跨时钟域(Clock Domain Crossing,CDC)设计越来越多,CDC设计和验证越来越重要。阐述了5种常用的同步器设计模板。验证方法提出了层次化的验证流程:结构化检查,基于断言的验证(assertion-based v... 随着高性能、低功耗芯片的发展,多时钟域和跨时钟域(Clock Domain Crossing,CDC)设计越来越多,CDC设计和验证越来越重要。阐述了5种常用的同步器设计模板。验证方法提出了层次化的验证流程:结构化检查,基于断言的验证(assertion-based verification,ABV),对关键模块进行形式化验证。CDC设计应用于研发的一款65nm工艺SOC芯片(最高主频1GHz、10个时钟域设计、多种工作模式),该芯片已流片回来。经测试,芯片的功能正确,说明设计和验证方法是完备的。 展开更多
关键词 跨时钟域设计 基于断言的验证 PSL属性说明语言 符号模型检查 LTL线性时序逻辑
下载PDF
一种面向不可靠网络的快速RDMA通信方法 被引量:2
6
作者 王绍刚 徐炜遐 +2 位作者 吴丹 庞征斌 夏军 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第8期100-107,共8页
大数据量的远程内存访问(RDMA)传输是并行计算机中最基本的通信模式之一,对系统整体性能的影响很大.随着并行计算机系统的规模扩大,系统的容错性设计面临着很大的挑战,互连网络具有链路不可靠、自适应路由等特点,如何面向不可靠网络实... 大数据量的远程内存访问(RDMA)传输是并行计算机中最基本的通信模式之一,对系统整体性能的影响很大.随着并行计算机系统的规模扩大,系统的容错性设计面临着很大的挑战,互连网络具有链路不可靠、自适应路由等特点,如何面向不可靠网络实现可靠的端到端RDMA传输是并行系统体系结构设计的一大难题.提出一种面向不可靠网络下的快速RDMA传输方法,方法能够在节点控制器芯片上高效实现,对上层驱动软件和应用提供可靠的端到端RDMA传输服务.与传统的建立连接的方法相比,方法的硬件设计复杂度大大降低;方法另一优点是实现了按需重传,避免了传统方法中一次RDMA传输出现错误时,需要重传整个RDMA数据的开销,在相同的错误概率下,新方法的传输效率得到了很大的提升. 展开更多
关键词 远程内存访问 RDMA MPI 滑动窗口
下载PDF
一种128位高性能全流水浮点乘加部件 被引量:4
7
作者 黎铁军 李秋亮 徐炜遐 《国防科技大学学报》 EI CAS CSCD 北大核心 2010年第2期56-60,共5页
高精度的浮点乘加融合(FMA)部件一直是高性能微处理器设计追求的目标。提出了一种128位精度全流水FMA体系结构,采用10级平衡流水线,重点对超宽位的乘法器、加法器、前导零预测和规格化进行了流水优化。设计综合的结果表明,基于SMIC0.13... 高精度的浮点乘加融合(FMA)部件一直是高性能微处理器设计追求的目标。提出了一种128位精度全流水FMA体系结构,采用10级平衡流水线,重点对超宽位的乘法器、加法器、前导零预测和规格化进行了流水优化。设计综合的结果表明,基于SMIC0.13μm工艺,该结构频率可以达到465MHz,比现有128位FMA性能提高了130%;在TSMC65nm工艺下,该结构的频率可达到1.075GHz,基本满足高性能计算的要求。 展开更多
关键词 浮点乘加融合 前导零预测 高性能微处理器
下载PDF
覆盖率驱动的芯片功能验证设计与实现 被引量:3
8
作者 罗莉 何鸿君 +1 位作者 窦强 徐炜遐 《计算机工程与科学》 CSCD 北大核心 2013年第1期36-40,共5页
随着芯片集成度的发展,芯片性能越来越高,而上市时间越来越短,芯片验证在芯片设计中非常关键并贯穿于整个设计过程,验证的效率和质量直接决定着芯片的成败。提出了基于覆盖率驱动的芯片功能验证方法,定义了基于功能点覆盖率驱动的验证流... 随着芯片集成度的发展,芯片性能越来越高,而上市时间越来越短,芯片验证在芯片设计中非常关键并贯穿于整个设计过程,验证的效率和质量直接决定着芯片的成败。提出了基于覆盖率驱动的芯片功能验证方法,定义了基于功能点覆盖率驱动的验证流程,利用PSL语言描述断言检查很有效,通过模拟工具检查断言是否成功,从而判断设计是否满足系统的功能要求。在网络接口芯片实际应用中,有效地降低了验证工作的复杂度,同时提高了验证的速度和质量。利用功能覆盖率数据判断测试激励的正确性和完整性,同时用覆盖率数据定量评价验证进程,提高了整个设计的效率。 展开更多
关键词 覆盖率驱动 功能验证 PSL SYSTEMVERILOG
下载PDF
并行计算机系统容错设计 被引量:3
9
作者 屈婉霞 蒋句平 +1 位作者 杨晓东 徐炜遐 《计算机工程与科学》 CSCD 2005年第9期69-70,84,共3页
容错设计是提高计算机系统可靠性的有效手段。本文提出了一种分布共享主存的并行计算机系统的容错结构,着重分析了结构采用的故障诊断机制,提出了系统中备份节点机配置的优化策略。
关键词 并行计算机系统 容错 可靠性 故障诊断
下载PDF
异步FIFO的模型检验方法 被引量:1
10
作者 罗莉 欧国东 +2 位作者 刘彬 徐炜遐 窦强 《计算机科学》 CSCD 北大核心 2012年第3期268-270,共3页
跨时钟域(Clock Domain Crossing,CDC)设计和验证是SOC系统芯片设计的关键问题。讨论了异步FIFO的模型检验方法,利用模型检验工具SMV,建立了异步FIFO的有限状态机模型,使用时序逻辑LTL对该模型和属性进行了描述和验证。实验结果达到要求... 跨时钟域(Clock Domain Crossing,CDC)设计和验证是SOC系统芯片设计的关键问题。讨论了异步FIFO的模型检验方法,利用模型检验工具SMV,建立了异步FIFO的有限状态机模型,使用时序逻辑LTL对该模型和属性进行了描述和验证。实验结果达到要求,同时表明该方法是行之有效的。与传统的模拟和仿真等验证方法相比较,模型检验具有能够自动进行、验证速度快、不用书写测试激励等优点。 展开更多
关键词 CDC(Clock Domain Crossing) 异步FIFO LTL 符号模型检验 SMV
下载PDF
用于减少远程Cache访问延迟的最后一次写访问预测方法 被引量:1
11
作者 夏军 徐炜遐 +2 位作者 庞征斌 张峻 常俊胜 《国防科技大学学报》 EI CAS CSCD 北大核心 2015年第1期14-20,共7页
为减少远程Cache访问延迟,提高共享存储系统的性能,提出了一种新的基于程序内在写突发特性的最后一次写访问预测方法,并对一个具体的目录协议进行了改造,以支持该预测方法。通过预测Cache块的最后一次写访问并提前对其进行降级,处理器... 为减少远程Cache访问延迟,提高共享存储系统的性能,提出了一种新的基于程序内在写突发特性的最后一次写访问预测方法,并对一个具体的目录协议进行了改造,以支持该预测方法。通过预测Cache块的最后一次写访问并提前对其进行降级,处理器能直接从主存中读取数据,从而减少了远程Cache访问所需的一个网络跳步数。与当前基于指令的预测方法相比,该方法能极大减少存储开销。基准测试程序的评测结果表明,该方法能获得83.1%的预测准确率,并且能提高8.57%的程序执行性能,同时与基于指令的预测方法相比,该方法能分别减少历史踪迹表69%的存储开销和签名表36%的存储开销。 展开更多
关键词 CACHE一致性协议 远程Cache失效 写突发 最后一次写访问 自降级
下载PDF
CERep:一种可信度增强的信誉机制 被引量:1
12
作者 常俊胜 庞征斌 +2 位作者 徐炜遐 夏军 尹刚 《国防科技大学学报》 EI CAS CSCD 北大核心 2014年第2期105-112,共8页
增强信誉机制对信誉信息的有效聚合能力是信誉系统成功的基础。已有的基于局部信誉信息的信誉系统难以有效处理节点的复杂策略不诚实推荐行为,并且可能把提供诚实推荐的节点错误划分为不诚实节点。对此,提出了一种可信度增强的信誉机制C... 增强信誉机制对信誉信息的有效聚合能力是信誉系统成功的基础。已有的基于局部信誉信息的信誉系统难以有效处理节点的复杂策略不诚实推荐行为,并且可能把提供诚实推荐的节点错误划分为不诚实节点。对此,提出了一种可信度增强的信誉机制CERep。该机制中,节点基于自身的经验产生的直接信任评价,包含直接信任评价值和关于此评价值的信心因子两个部分。在此基础上,提出了新的基于信誉的信任评价算法和推荐可信度计算模型,并给出了信誉机制的分布式实现策略。分析和模拟实验表明,CERep信誉机制能够有效应对复杂策略的不诚实推荐行为,提高信任评价的准确性,实现对节点推荐可信度更公平的评价。 展开更多
关键词 信誉机制 推荐 信任 信誉
下载PDF
基于深度优先搜索与增量式求解的极小一阶不可满足子式提取算法 被引量:1
13
作者 张建民 黎铁军 +2 位作者 张峻 徐炜遐 李思昆 《国防科技大学学报》 EI CAS CSCD 北大核心 2012年第5期121-126,共6页
随着寄存器传输级甚至行为级的硬件描述语言应用越来越广泛,基于一阶逻辑的可满足性模理论(Satisfiability Modulo Theories,SMT)逐渐替代布尔可满足性(Boolean Satisfiability,SAT),在VLSI形式化验证领域具有更加重要的应用价值。而极... 随着寄存器传输级甚至行为级的硬件描述语言应用越来越广泛,基于一阶逻辑的可满足性模理论(Satisfiability Modulo Theories,SMT)逐渐替代布尔可满足性(Boolean Satisfiability,SAT),在VLSI形式化验证领域具有更加重要的应用价值。而极小不可满足子式能够帮助EDA工具迅速定位硬件中的逻辑错误。针对极小SMT不可满足子式的求解问题,采用深度优先搜索与增量式求解策略,提出了深度优先搜索的极小SMT不可满足子式求解算法。与目前最优的宽度优先搜索算法对比实验表明:该算法能够有效地求解极小不可满足子式,随着公式的规模逐渐增大时,深度优先搜索算法优于宽度优先搜索算法。 展开更多
关键词 形式化验证 硬件错误定位 可满足性模理论 极小不可满足子式
下载PDF
PMESI:一种优化进程私有数据访问的缓存一致性协议 被引量:1
14
作者 王绍刚 徐炜遐 +3 位作者 庞征斌 吴丹 戴艺 陆平静 《国防科技大学学报》 EI CAS CSCD 北大核心 2013年第1期97-102,共6页
并行应用程序中绝大部分的访存是对私有数据的访问,在cache一致性协议上不会产生冲突。传统一致性协议没有根据程序私有数据的访问模式进行针对性设计,存在着很大的优化空间。针对以上的问题,提出了一种支持私有状态的cache一致性协议PM... 并行应用程序中绝大部分的访存是对私有数据的访问,在cache一致性协议上不会产生冲突。传统一致性协议没有根据程序私有数据的访问模式进行针对性设计,存在着很大的优化空间。针对以上的问题,提出了一种支持私有状态的cache一致性协议PMESI,通过动态关闭和激活内存空间的cache一致性目录,优化私有内存空间的访问延迟和功耗。通过时钟精确模拟器的测试,PMESI协议优化了程序中54%的访存,并行程序的执行时间平均缩短了9%。 展开更多
关键词 PMESI协议 私有内存空间 目录协议 操作系统
下载PDF
面向HPC互连网络的低延迟前向纠错编码研究与实现 被引量:1
15
作者 王超 曹继军 +2 位作者 罗章 赖明澈 徐炜遐 《计算机工程与科学》 CSCD 北大核心 2020年第11期1965-1972,共8页
当前主流高性能互连网络的端口速率已达到100~400 Gbps,其单通道速率已达到25~50 Gbps。在这种高速率的网络上传输数据,前向纠错编码是提高其可靠性的必要技术。以太网国际规范IEEE 802.3采用的前向纠错编码为RS(528,514)和RS(544,514)... 当前主流高性能互连网络的端口速率已达到100~400 Gbps,其单通道速率已达到25~50 Gbps。在这种高速率的网络上传输数据,前向纠错编码是提高其可靠性的必要技术。以太网国际规范IEEE 802.3采用的前向纠错编码为RS(528,514)和RS(544,514),但是这2种码型难以满足高性能互连网络在低延迟方面的性能需求。首先,分析了RS的编码和译码结构,并定量研究了RS码型参数与编解码延迟之间的关系。接着,提出了一种面向当前高性能互连网络的新型低延迟编码—RS(271,257),并比较了该码型在占用带宽和纠错能力等方面的优缺点。最后,实现了基于RS(271,257)的低延迟网络编码子层,并对其进行了资源消耗评估和延迟性能模拟。综合考虑资源消耗、纠错能力和延迟性能3方面因素,RS(271,257)是一种理想的低延迟前向纠错码型,可满足当前面向HPC的低延迟高性能互连网络的编码子层的设计需求。 展开更多
关键词 高性能互连网络 前向纠错编码 RS编码 RS(271 257) 低延迟
下载PDF
一种基于FPGA实现的高速多路交换开关 被引量:2
16
作者 罗莉 庞征斌 +1 位作者 何鸿君 徐炜遐 《计算机工程与科学》 CSCD 2007年第8期151-152,F0003,共3页
多路交换开关是高性能交换部件的核心。本文描述了基于Xilinx公司Virtex-II系列FPGA的特点设计和实现的一种高速多路交换开关,它由输入信道组织、内部无阻塞crossbar交换和仲裁调度器三部分组成。仲裁调度器的设计是多路交换开关的关键... 多路交换开关是高性能交换部件的核心。本文描述了基于Xilinx公司Virtex-II系列FPGA的特点设计和实现的一种高速多路交换开关,它由输入信道组织、内部无阻塞crossbar交换和仲裁调度器三部分组成。仲裁调度器的设计是多路交换开关的关键,申请和仲裁许可的完成时间关系到整个实现的综合频率和性能。我们提出一种改进的行波流水仲裁器设计,它公平有效,工作频率达到135MHz,在实际应用中效果良好。 展开更多
关键词 FPGA 多路交换开关 行波仲裁
下载PDF
CC-NUMA系统分布共享I/O的数据一致性维护 被引量:1
17
作者 庞征斌 李琼 +2 位作者 李永进 张峻 徐炜遐 《计算机研究与发展》 EI CSCD 北大核心 2007年第z1期226-232,共7页
Cache一致性维护是构建共享存储多处理器系统的关键,分布共享I/O系统和I/O数据一致性维护的实现方式将直接影响CC-NUMA系统的性能.基于大规模CC-NUMA系统SCCMP (scalable cache coherence multi-processors),构造并实现了基于HyperTrans... Cache一致性维护是构建共享存储多处理器系统的关键,分布共享I/O系统和I/O数据一致性维护的实现方式将直接影响CC-NUMA系统的性能.基于大规模CC-NUMA系统SCCMP (scalable cache coherence multi-processors),构造并实现了基于HyperTransport互连架构的分布共享I/O子系统,由硬件维护I/O设备DMA访问的数据一致性,解决分布式缓存一致性问题.重点分析了I/O访问对Cache协议的影响,介绍了I/O数据一致性维护策略和硬件实现机制,并基于FPGA验证平台进行了系统I/O性能分析与评测. 展开更多
关键词 CACHE一致性 分布共享I/O CC-NUMA
下载PDF
CC-NUMA系统中一种块传输通讯机制的设计与实现 被引量:1
18
作者 张峻 庞征斌 +3 位作者 郑义 谢旻 徐炜遐 周兴铭 《计算机工程与科学》 CSCD 2008年第1期138-141,共4页
本文描述了一种CC-NUMA结点控制器内实现的通信机制,通信请求通过描述符进行提交,利用CC-NUMA硬件实现的Cache一致性协议,实现高性能的一致性数据传输。基于这种通信机制,实现了高速通信软件接口,使用用户级通信技术,将硬件的通讯功能... 本文描述了一种CC-NUMA结点控制器内实现的通信机制,通信请求通过描述符进行提交,利用CC-NUMA硬件实现的Cache一致性协议,实现高性能的一致性数据传输。基于这种通信机制,实现了高速通信软件接口,使用用户级通信技术,将硬件的通讯功能抽象出来给应用层使用,在测试中获得了较好的性能。 展开更多
关键词 CC-NUMA 描述符 一致性块传输 通信接口
下载PDF
一种低延迟高带宽路由器芯片的研究 被引量:1
19
作者 孙锁林 徐炜遐 胡封林 《计算机工程与科学》 CSCD 1999年第2期70-74,共5页
本文研究了三维环形拓扑结构高性能路由器芯片,该路由芯片能形成多计算机系统的开关网络。
关键词 路由器芯片 互联网络 计算机系统 流量控制
下载PDF
程序执行的精确重现技术及其在体系结构模拟中的应用
20
作者 赵天磊 唐遇星 +4 位作者 徐炜遐 付桂涛 齐树波 贾小敏 张民选 《计算机学报》 EI CSCD 北大核心 2011年第11期2073-2083,共11页
近年来有研究提出利用动态二进制翻译技术(Dynamic Binary Translation,DBT)加速程序代表性模拟点的提取,然而这些研究并未考虑DBT方法对模拟结果准确度的影响.实验发现,对于某些程序,DBT加速方法会带来将近20%的误差.经分析,误差的根... 近年来有研究提出利用动态二进制翻译技术(Dynamic Binary Translation,DBT)加速程序代表性模拟点的提取,然而这些研究并未考虑DBT方法对模拟结果准确度的影响.实验发现,对于某些程序,DBT加速方法会带来将近20%的误差.经分析,误差的根源在于程序在DBT执行和模拟执行时执行踪迹有巨大差异,即程序执行踪迹的不可重现性.本文系统地分析了引起程序执行踪迹不可重现的原因,提出了解决方法.实验证实,利用文中提出的方法,可以在不影响性能的情况下,实现程序执行踪迹的精确重现,从而保证DBT方法与传统模拟方法具有完全相同的精确度. 展开更多
关键词 应用程序行为分析 模拟误差 可重现模拟 执行踪迹 二进制翻译 SimPoint BBVProfile
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部