期刊文献+
共找到112篇文章
< 1 2 6 >
每页显示 20 50 100
Dynamic I/O-Aware Scheduling for Batch-Mode Applications on Chip Multiprocessor Systems of Cluster Platforms 被引量:2
1
作者 吕方 崔慧敏 +4 位作者 王蕾 刘磊 武成岗 冯晓兵 游本中 《Journal of Computer Science & Technology》 SCIE EI CSCD 2014年第1期21-37,共17页
Efficiency of batch processing is becoming increasingly important for many modern commercial service centers, e.g., clusters and cloud computing datacenters. However, periodical resource contentions have become the ma... Efficiency of batch processing is becoming increasingly important for many modern commercial service centers, e.g., clusters and cloud computing datacenters. However, periodical resource contentions have become the major performance obstacles for concurrently running applications on mainstream CMP servers. I/O contention is such a kind of obstacle, which may impede both the co-running performance of batch jobs and the system throughput seriously. In this paper, a dynamic I/O-aware scheduling algorithm is proposed to lower the impacts of I/O contention and to enhance the co-running performance in batch processing. We set up our environment on an 8-socket, 64-core server in Dawning Linux Cluster. Fifteen workloads ranging from 8 jobs to 256 jobs are evaluated. Our experimental results show significant improvements on the throughputs of the workloads, which range from 7% to 431%. Meanwhile, noticeable improvements on the slowdown of workloads and the average runtime for each job can be achieved. These results show that a well-tuned dynamic I/O-aware scheduler is beneficial for batch-mode services. It can also enhance the resource utilization via throughput improvement on modern service platforms. 展开更多
关键词 chip multiprocessor batch processing co-running I/0 contention SCHEDULING
原文传递
A Resource-Efficient Communication Architecture for Chip Multiprocessors on FPGAs 被引量:1
2
作者 Maggie Swetha Thota 《Journal of Computer Science & Technology》 SCIE EI CSCD 2011年第3期434-447,共14页
Significant advances in field-programmable gate arrays (FPGAs) have made it viable to explore innovative multiprocessor solutions on a single FPGA chip. For multiprocessors, an efficient communication network that m... Significant advances in field-programmable gate arrays (FPGAs) have made it viable to explore innovative multiprocessor solutions on a single FPGA chip. For multiprocessors, an efficient communication network that matches the needs of the target application is always critical to the overall performance. Wormhole packet-switching network-on-chip (NoC) solutions are replacing conventional shared buses to deal with scalability and complexity challenges coming along with the increasing number of processing elements (PEs). However, the quest for high performance networks has led to very complex and resource-expensive NoC designs, leaving little room for the real computing force, i.e., PEs. Moreover, many techniques offer very small performance gains or none at all when network traffic is light while increasing the resource usage of routers. We argue that computation is still the primary task of multiprocessors and sufficient resources should be reserved for PEs. This paper presents our novel design and implementation of a resource-efficient communication network for multiprocessors on FPGAs. We reduce not only the required number of routers for a given number of PEs by introducing a new PE-router topology, but also the resource requirement of each router. Our communication network relies on the NEWS channels to transfer packets in a pipelined fashion following the path determined by the routing network, The implementation results on various Xilinx FPGAs show good performance in the typical range of network load for multiprocessor applications. 展开更多
关键词 chip multiprocessors FPGA network on chip mesh topology resource efficient
原文传递
CCNoC:Cache-Coherent Network on Chip for Chip Multiprocessors 被引量:1
3
作者 王惊雷 薛一波 +4 位作者 Member, CCF, IEEE 王海霞 李崇民 汪东升 Senior Member,CCF 《Journal of Computer Science & Technology》 SCIE EI CSCD 2010年第2期257-266,共10页
As the number of cores in chip multiprocessors (CMPs) increases, cache coherence protocol has become a key issue in integration of chip multiprocessors. Supporting cache coherence protocol in large chip multiprocess... As the number of cores in chip multiprocessors (CMPs) increases, cache coherence protocol has become a key issue in integration of chip multiprocessors. Supporting cache coherence protocol in large chip multiprocessors still faces three hurdles: design complexity, performance and scalability. This paper proposes Cache Coherent Network on Chip (CCNoC), a scheme that decouples cache coherency maintenance from processors and shared L2 caches and implements it completely in network on chip to free up processors and shared L2 caches from the chore of maintaining coherency, thereby reduces design complexity of CMPs. In this way, CCNoC also improves the performance of cache coherence protocol through reducing directory access latency and enhances scalability by avoiding massive directories overhead in shared L2 caches. In CCNoC, coherence state caches and active directory caches are implemented in the network interface components of network on chip to maintain cache coherence states for blocks in L1 caches and manage directory information for recently accessed blocks in L2 caches respectively. CCNoC provides a scalable CMP framework to tackle cache coherency which is the foundation of CMP. This paper evaluates the performance of CCNoC. Experimental results show that for a 16-core system, CCNoC improves performance by 3% on average over the conventional chip multiprocessor and by 10% at best, while reduces storage overhead by 1.8% and saves directory storage by 88%, showing good scalability. 展开更多
关键词 chip multiprocessor network on chip cache coherence protocol
原文传递
Improving the Off-chip Bandwidth Utilization of Chip-Multiprocessors Using Early Write-Back
4
作者 Mutaz A1-Tarawneh NazeihBotros 《通讯和计算机(中英文版)》 2013年第1期33-41,共9页
关键词 带宽利用率 多处理器 早期 芯片 二级高速缓存 需求获取 层次结构 主存储器
下载PDF
Development of FPGA Based NURBS Interpolator and Motion Controller with Multiprocessor Technique 被引量:2
5
作者 ZHAO Huan ZHU Limin +1 位作者 XIONG Zhenhua DING Han 《Chinese Journal of Mechanical Engineering》 SCIE EI CAS CSCD 2013年第5期940-947,共8页
The high-speed computational performance is gained at the cost of huge hardware resource,which restricts the application of high-accuracy algorithms because of the limited hardware cost in practical use.To solve the p... The high-speed computational performance is gained at the cost of huge hardware resource,which restricts the application of high-accuracy algorithms because of the limited hardware cost in practical use.To solve the problem,a novel method for designing the field programmable gate array(FPGA)-based non-uniform rational B-spline(NURBS) interpolator and motion controller,which adopts the embedded multiprocessor technique,is proposed in this study.The hardware and software design for the multiprocessor,one of which is for NURBS interpolation and the other for position servo control,is presented.Performance analysis and experiments on an X-Y table are carried out,hardware cost as well as consuming time for interpolation and motion control is compared with the existing methods.The experimental and comparing results indicate that,compared with the existing methods,the proposed method can reduce the hardware cost by 97.5% using higher-accuracy interpolation algorithm within the period of 0.5 ms.A method which ensures the real-time performance and interpolation accuracy,and reduces the hardware cost significantly is proposed,and it’s practical in the use of industrial application. 展开更多
关键词 NURBS interpolator FPGA-based interpolation multiprocessor system on a programmable chip (SOPC) motion controller
下载PDF
Energy-Efficient Scheduling Based on Task Migration Policy Using DPM for Homogeneous MPSoCs
6
作者 Hamayun Khan Irfan Ud din +1 位作者 Arshad Ali Sami Alshmrany 《Computers, Materials & Continua》 SCIE EI 2023年第1期965-981,共17页
Increasing the life span and efficiency of Multiprocessor System on Chip(MPSoC)by reducing power and energy utilization has become a critical chip design challenge for multiprocessor systems.With the advancement of te... Increasing the life span and efficiency of Multiprocessor System on Chip(MPSoC)by reducing power and energy utilization has become a critical chip design challenge for multiprocessor systems.With the advancement of technology,the performance management of central processing unit(CPU)is changing.Power densities and thermal effects are quickly increasing in multi-core embedded technologies due to shrinking of chip size.When energy consumption reaches a threshold that creates a delay in complementary metal oxide semiconductor(CMOS)circuits and reduces the speed by 10%–15%because excessive on-chip temperature shortens the chip’s life cycle.In this paper,we address the scheduling&energy utilization problem by introducing and evaluating an optimal energy-aware earliest deadline first scheduling(EA-EDF)based technique formultiprocessor environments with task migration that enhances the performance and efficiency in multiprocessor systemon-chip while lowering energy and power consumption.The selection of core andmigration of tasks prevents the system from reaching itsmaximumenergy utilization while effectively using the dynamic power management(DPM)policy.Increase in the execution of tasks the temperature and utilization factor(u_(i))on-chip increases that dissipate more power.The proposed approach migrates such tasks to the core that produces less heat and consumes less power by distributing the load on other cores to lower the temperature and optimizes the duration of idle and sleep times across multiple CPUs.The performance of the EA-EDF algorithm was evaluated by an extensive set of experiments,where excellent results were reported when compared to other current techniques,the efficacy of the proposed methodology reduces the power and energy consumption by 4.3%–4.7%on a utilization of 6%,36%&46%at 520&624 MHz operating frequency when particularly in comparison to other energy-aware methods for MPSoCs.Tasks are running and accurately scheduled to make an energy-efficient processor by controlling and managing the thermal effects on-chip and optimizing the energy consumption of MPSoCs. 展开更多
关键词 Dynamic power management dynamic voltage&frequency scaling dynamic thermal management multiprocessor system on chip complementary metal oxide semiconductor reliability
下载PDF
An Optimal DPM Based Energy-Aware Task Scheduling for Performance Enhancement in Embedded MPSoC
7
作者 Hamayun Khan Irfan Ud Din +1 位作者 Arshad Ali Mohammad Husain 《Computers, Materials & Continua》 SCIE EI 2023年第1期2097-2113,共17页
Minimizing the energy consumption to increase the life span and performance of multiprocessor system on chip(MPSoC)has become an integral chip design issue for multiprocessor systems.The performance measurement of com... Minimizing the energy consumption to increase the life span and performance of multiprocessor system on chip(MPSoC)has become an integral chip design issue for multiprocessor systems.The performance measurement of computational systems is changing with the advancement in technology.Due to shrinking and smaller chip size power densities onchip are increasing rapidly that increasing chip temperature in multi-core embedded technologies.The operating speed of the device decreases when power consumption reaches a threshold that causes a delay in complementary metal oxide semiconductor(CMOS)circuits because high on-chip temperature adversely affects the life span of the chip.In this paper an energy-aware dynamic power management technique based on energy aware earliest deadline first(EA-EDF)scheduling is proposed for improving the performance and reliability by reducing energy and power consumption in the system on chip(SOC).Dynamic power management(DPM)enables MPSOC to reduce power and energy consumption by adopting a suitable core configuration for task migration.Task migration avoids peak temperature values in the multicore system.High utilization factor(ui)on central processing unit(CPU)core consumes more energy and increases the temperature on-chip.Our technique switches the core bymigrating such task to a core that has less temperature and is in a low power state.The proposed EA-EDF scheduling technique migrates load on different cores to attain stability in temperature among multiple cores of the CPU and optimized the duration of the idle and sleep periods to enable the low-temperature core.The effectiveness of the EA-EDF approach reduces the utilization and energy consumption compared to other existing methods and works.The simulation results show the improvement in performance by optimizing 4.8%on u_(i) 9%,16%,23%and 25%at 520 MHz operating frequency as compared to other energy-aware techniques for MPSoCs when the least number of tasks is in running state and can schedule more tasks to make an energy-efficient processor by controlling and managing the energy consumption of MPSoC. 展开更多
关键词 Dynamic power management dynamic voltage&frequency scaling dynamic thermal management multiprocessor system on chip complementary metal oxide semiconductor reliability
下载PDF
多处理器结构的Lon Works网络智能控制器设计与实现 被引量:10
8
作者 陈岚 张泰山 +1 位作者 彭可 陈际达 《小型微型计算机系统》 CSCD 北大核心 2003年第12期2342-2345,共4页
基于LON总线的LonWorks控制网络中 ,Neuron芯片是控制节点的核心 .但是 ,其处理能力不足以胜任复杂的外部事件 .为了增强节点的控制能力 ,本文提出了一种非对称结构、模块化的多处理器控制网络节点设计方案 ,并将几种通用多处理器间通... 基于LON总线的LonWorks控制网络中 ,Neuron芯片是控制节点的核心 .但是 ,其处理能力不足以胜任复杂的外部事件 .为了增强节点的控制能力 ,本文提出了一种非对称结构、模块化的多处理器控制网络节点设计方案 ,并将几种通用多处理器间通信的方法进行了分析和比较 .Neuron芯片和两片MCU(89C5 2 )根据不同事件处理任务以并行和串行方式连接 ,分别完成了相应的通讯和控制功能 .在具体实现中 ,运用了模块化、非对称结构、流量控制以及外部事件处理优化等技术手段 . 展开更多
关键词 LONWORKS控制网络 NEURON芯片 多处理器 非对称结构 模块化 外部事件处理优化 智能控制器
下载PDF
一种分片式多核处理器的用户级模拟器 被引量:6
9
作者 黄琨 马可 +2 位作者 曾洪博 张戈 章隆兵 《软件学报》 EI CSCD 北大核心 2008年第4期1069-1080,共12页
随着片上晶体管资源的增多和互连线延迟的加大,分片式多核微处理器已成为多核处理器设计的新方向.为了对这种新型处理器进行体系结构的深入研究和设计空间的探索,设计并实现了针对分片式多核处理器的用户级多核性能模拟器.该多核模拟器... 随着片上晶体管资源的增多和互连线延迟的加大,分片式多核微处理器已成为多核处理器设计的新方向.为了对这种新型处理器进行体系结构的深入研究和设计空间的探索,设计并实现了针对分片式多核处理器的用户级多核性能模拟器.该多核模拟器在龙芯2号单处理器核的基础上,完整地模拟了基于目录的Cache一致性协议和存储转发式片上互联网络的结构模型,详细地刻画了由于系统乱序处理各种请求应答和请求之间的冲突而造成的时序特性,可以通过运行各种串行或并行的工作负载对多核处理器的各种重要性能指标加以评估,为多核处理器的结构设计提供了快速、灵活、高效的研究平台. 展开更多
关键词 分片式CMP(chip multiprocessor) 模拟器 片上网络 性能分析 龙芯2号微处理器
下载PDF
片上二维网络互连性能分析 被引量:8
10
作者 王炜 乔林 +1 位作者 杨广文 汤志忠 《计算机研究与发展》 EI CSCD 北大核心 2009年第10期1601-1611,共11页
片上互连网络已日益成为影响片上多处理器性能的重要因素之一.几乎所有的互连结构均是在二维网络的基础上演变发展而来的.首先分析了几种常见的内部结点度均为4的二维网络的静态特性,提出了一种新的二维片上网络互连路由结构和通信协议... 片上互连网络已日益成为影响片上多处理器性能的重要因素之一.几乎所有的互连结构均是在二维网络的基础上演变发展而来的.首先分析了几种常见的内部结点度均为4的二维网络的静态特性,提出了一种新的二维片上网络互连路由结构和通信协议,基于全局均匀随机通信模型,通过改变网络规模和变换通信强度,分析了不同结构网络的动态特性,然后用链接数表示通信成本,提出了一种新的网络互连综合性能评估指标网络单位成本延迟负载能力,最后对二维网络片上互连的综合性能进行了对比分析,指出了其各自适用的场合. 展开更多
关键词 片上多处理器 片上网络 拓扑 性能分析 单位成本延迟负载能力
下载PDF
分级环片上网络互连 被引量:5
11
作者 王炜 乔林 +1 位作者 杨广文 汤志忠 《计算机学报》 EI CSCD 北大核心 2010年第2期326-334,共9页
在大规模、超大规模片上互连网络中,因为二维互连方式的性能较差而使多维互连方式成为可选方案之一.文中首先基于区域划分设计了一种分级环互连结构,分析了其静态互连特性,然后基于卡诺图编码设计了一种分级环互连的路由结构以及寻径方... 在大规模、超大规模片上互连网络中,因为二维互连方式的性能较差而使多维互连方式成为可选方案之一.文中首先基于区域划分设计了一种分级环互连结构,分析了其静态互连特性,然后基于卡诺图编码设计了一种分级环互连的路由结构以及寻径方法,在均匀通信模式测试了不同的分级环级联链路缓冲区设置方法下网络的性能,详细分析了按照等比序列设置分级环级联链路缓冲区时分级环互连方式的动态网络特性,最后根据互连性能与Mesh等二维片上互连方式比较的结果,给出了分级环互连方式的使用场合.实验结果表明,虽然在较小规模网络中性能较差,但是分级环互连方式能以较低的成本、较高的性能实现大规模、超大规模片上网络的互连,其中单环分级互连方式在较低网络负载下综合性能更好,而双环分级互连方式则具有更大的网络负载能力,在较高网络负载下性能更好. 展开更多
关键词 片上多处理器 片上网络 分级环 性能分析
下载PDF
片上网络互连拓扑综述 被引量:6
12
作者 王炜 乔林 汤志忠 《计算机科学》 CSCD 北大核心 2011年第10期1-5,12,共6页
随着器件、工艺和应用技术的不断发展,片上多处理器已经成为主流技术,而且片上多处理器的规模越来越大、片内集成的处理器核数目越来越多,用于片内处理器核及其它部件之间互连的片上网络逐渐成为影响片上多处理器性能的瓶颈之一。片上... 随着器件、工艺和应用技术的不断发展,片上多处理器已经成为主流技术,而且片上多处理器的规模越来越大、片内集成的处理器核数目越来越多,用于片内处理器核及其它部件之间互连的片上网络逐渐成为影响片上多处理器性能的瓶颈之一。片上网络的拓扑结构定义网络内部结点的物理布局和互连方法,决定和影响片上网络的成本、延迟、吞吐率、面积、容错能力和功耗等,同时影响网络路由策略和网络芯片的布局布线方法,是片上网络研究中的关键之一。对比了不同片上网络的拓扑结构,分析了各种结构的性能,并对未来片上网络拓扑研究提出建议。 展开更多
关键词 片上多处理器 片上网络 拓扑 性能分析
下载PDF
面向并发性能下降的调度策略的综述 被引量:4
13
作者 吕方 崔慧敏 +1 位作者 霍玮 冯晓兵 《计算机研究与发展》 EI CSCD 北大核心 2014年第1期17-30,共14页
随着行业应用的飞速扩张,数据中心以及云等日益成为主流服务平台.高性能的片上多核系统也随之成为重要的可分配资源之一.然而,在对多用户提供服务(并发执行、并置执行)时,其所固有的共享资源会引发严重的并发性能下降.在此背景下,多核... 随着行业应用的飞速扩张,数据中心以及云等日益成为主流服务平台.高性能的片上多核系统也随之成为重要的可分配资源之一.然而,在对多用户提供服务(并发执行、并置执行)时,其所固有的共享资源会引发严重的并发性能下降.在此背景下,多核系统的性能以及资源利用率问题成为研究热点.软件调度策略作为一种性价比较高的调节手段对于缓解资源冲突一直行之有效,然而,硬件技术的变迁对其调节的效力将产生一定影响.首先从片上多核结构关键技术入手,对共享资源的变化进行了详细阐述,在此基础上,对当前主流应用领域中两种不同类型的软件调度策略进行介绍和分析.在总结现有策略的局限性以及面临的新挑战的同时,对未来的研究趋势作了展望. 展开更多
关键词 片上多核处理器 共享资源 并发性能下降 并置执行 映射 调度
下载PDF
单片多处理器的研究 被引量:7
14
作者 史莉雯 樊晓桠 张盛兵 《计算机应用研究》 CSCD 北大核心 2007年第9期46-49,共4页
单片多处理器结构支持较高线程级的并行,能显著提高性能。介绍了单片多处理器的结构,对一些结构模型和实际的商用处理器进行举例,并对关键技术进行了研究分析。
关键词 单片多处理器 线程级并行 存储层次 核间互连 多核任务调度
下载PDF
基于CMP的多种并行蚁群算法及比较 被引量:3
15
作者 何丽莉 王克淼 +1 位作者 白洪涛 胡成全 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2010年第5期787-792,共6页
基于片上多核处理器(Chip Multi-processor,CMP)的多种并行蚁群算法,包括并行最大最小蚂蚁系统、并行蚁群系统及两者的混合等5个并行算法,提出一种在CMP的每个处理器核心上模拟一个子蚁群,整体蚁群共享同一信息素矩阵,实现信息素隐式交... 基于片上多核处理器(Chip Multi-processor,CMP)的多种并行蚁群算法,包括并行最大最小蚂蚁系统、并行蚁群系统及两者的混合等5个并行算法,提出一种在CMP的每个处理器核心上模拟一个子蚁群,整体蚁群共享同一信息素矩阵,实现信息素隐式交流的方法.用多线程实时优先级实现该算法,并用若干旅行商问题实例进行了测试,分析了不同并行策略的影响.测试结果表明,基于CMP的并行蚁群具有相对于核心数目的线性加速比,异种蚁群混合策略在解的稳定性上更具优势。 展开更多
关键词 蚁群优化 共享信息素矩阵 并行计算 片上多核处理器
下载PDF
单芯片多处理器的性能优势 被引量:11
16
作者 黄光奇 周兴铭 《计算机工程与科学》 CSCD 2001年第1期35-38,64,共5页
本文以一个面积为 30 0 mm2左右的芯片设计为目标 ,描述了三种不同的芯片结构 :一种超标量结构 ,两种单芯片多处理器结构。模拟结果表明 ,由于超标量技术本身的局限性 ,单芯片多处理器结构相对于超标量结构具有明显的性能优势 ,对并行... 本文以一个面积为 30 0 mm2左右的芯片设计为目标 ,描述了三种不同的芯片结构 :一种超标量结构 ,两种单芯片多处理器结构。模拟结果表明 ,由于超标量技术本身的局限性 ,单芯片多处理器结构相对于超标量结构具有明显的性能优势 ,对并行性的开发更加有效。 展开更多
关键词 单芯片多处理器 超标量 执行时间 集成电路 微处理器
下载PDF
片上多处理器中延迟和容量权衡的cache结构 被引量:3
17
作者 肖俊华 冯子军 章隆兵 《计算机研究与发展》 EI CSCD 北大核心 2009年第1期167-175,共9页
片上多处理器中二级cache的设计面临着延迟和容量不能同时满足的矛盾,私有结构有较小的命中延迟但是减少了cache的有效容量,共享结构能增加cache的有效容量但是有较长的命中延迟.提出了一种适用于CMP的cache结构——延迟和容量权衡的ca... 片上多处理器中二级cache的设计面临着延迟和容量不能同时满足的矛盾,私有结构有较小的命中延迟但是减少了cache的有效容量,共享结构能增加cache的有效容量但是有较长的命中延迟.提出了一种适用于CMP的cache结构——延迟和容量权衡的cache结构(TCLC).该结构是一种混合私有结构和共享结构的设计,核心思想是动态识别cache块的共享类型,根据不同共享类型分别对其进行优化,对私有cache块采用迁移的优化策略,对共享只读cache块采用复制的优化策略,对共享读写cache块采用中心放置的优化策略,以期达到访问延迟接近私有结构,有效容量接近共享结构的目的,从而缓解线延迟的影响,减少平均内存访问延迟.全系统模拟的实验结果表明,采用TCLC结构,相对于私有结构性能平均提高13.7%,相对于共享结构性能平均提高12%. 展开更多
关键词 片上多处理器 TCLC 二级CACHE 复制 迁移 中心放置
下载PDF
二维片上网络局部均匀随机通信性能分析 被引量:2
18
作者 王炜 乔林 +1 位作者 杨广文 汤志忠 《计算机研究与发展》 EI CSCD 北大核心 2010年第3期532-540,共9页
作为对全局均匀随机通信二维片上网络性能分析的延续和深入,首先描述了全局均匀随机通信模式和局部均匀随机通信模式的数学模型,分析了二者的关系;然后用链路数表示通信成本,基于作者独立设计的片上网络路由与通信协议,分析了不同结构... 作为对全局均匀随机通信二维片上网络性能分析的延续和深入,首先描述了全局均匀随机通信模式和局部均匀随机通信模式的数学模型,分析了二者的关系;然后用链路数表示通信成本,基于作者独立设计的片上网络路由与通信协议,分析了不同结构和规模各结构网络性能随局部通信概率变化而变化的规律,并依据几种结构的性能相互关系及结构特点对它们进行了简单分类.结果表明,全局均匀随机通信模式其实是局部均匀随机通信模式的特例,随着局部通信概率的增大,各种结构的网络性能逐步提高;相比较而言,四边形、三角形网眼Mesh网络及其变形结构更适合于在本地通信概率较小或者通信密集型的应用,而当本地通信概率较大或者通信强度较低的情况下应用六边形网眼Mesh及其变形结构、多环相切及其回绕结构可能会取得更好的综合性能. 展开更多
关键词 片上多处理器 二维片上网络 随机通信模式 局部均匀 性能分析
下载PDF
片上多核处理器容软错误执行模型 被引量:3
19
作者 龚锐 戴葵 王志英 《计算机学报》 EI CSCD 北大核心 2008年第11期2047-2059,共13页
随着工艺的进步,微处理器将面临越来越严重的软错误威胁.文中提出了两种片上多核处理器容软错误执行模型:双核冗余执行模型DCR和三核冗余执行模型TCR.DCR在两个冗余的内核上以一定的时间间距运行两份相同的线程,store指令只有在进行了... 随着工艺的进步,微处理器将面临越来越严重的软错误威胁.文中提出了两种片上多核处理器容软错误执行模型:双核冗余执行模型DCR和三核冗余执行模型TCR.DCR在两个冗余的内核上以一定的时间间距运行两份相同的线程,store指令只有在进行了结果比较以后才能提交.每个内核增加了硬件实现的现场保存与恢复机制,以实现对软错误的恢复.文中选择的现场保存点有利于隐藏现场保存带来的时间开销,并且采用了特殊的机制保证恢复执行和原始执行过程中load数据的一致性.TCR执行模型通过在3个不同的内核上运行相同的线程实现对软错误的屏蔽.在检测到软错误以后,TCR可以进行动态重构,屏蔽被软错误破坏的内核.实验结果表明,与传统的软错误恢复执行模型CRTR相比,DCR和TCR对核间通信带宽的需求分别降低了57.5%和54.2%.在检测到软错误的情况下,DCR的恢复执行带来5.2%的性能开销,而TCR的重构带来的性能开销为1.3%.错误注入实验表明,DCR能够恢复99.69%的软错误,而TCR实现了对SEU(Single Event Upset)型故障的全面屏蔽. 展开更多
关键词 片上多核处理器 执行模型 软错误恢复 软错误屏蔽 双核冗余 三核冗余
下载PDF
片上多处理器中基于步长和指针的预取 被引量:3
20
作者 肖俊华 冯子军 章隆兵 《计算机工程》 CAS CSCD 北大核心 2009年第4期58-60,共3页
在对大量程序访存行为进行分析的基础上,提出基于步长和指针的预取方法。能捕获规整的数据访问模式和指针访问模式。在L2 cache和内存之间采用全局历史缓存实现该预取方法。全系统模拟结果表明,该预取方法对商业应用测试程序的性能平均... 在对大量程序访存行为进行分析的基础上,提出基于步长和指针的预取方法。能捕获规整的数据访问模式和指针访问模式。在L2 cache和内存之间采用全局历史缓存实现该预取方法。全系统模拟结果表明,该预取方法对商业应用测试程序的性能平均提高14%,对科学计算测试程序的性能平均提高34.5%。 展开更多
关键词 片上多处理器 步长预取 指针预取
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部