期刊文献+
共找到757篇文章
< 1 2 38 >
每页显示 20 50 100
Using Tensilica Xtensa configures a dual-core processor based-on SoC
1
作者 TU Jih -Fu WU Chang-Jo 《通讯和计算机(中英文版)》 2009年第2期1-10,共10页
关键词 多核心处理器 数字信号 计算机技术 虚拟内存
下载PDF
Cooperative Computing Techniques for a Deeply Fused and Heterogeneous Many-Core Processor Architecture 被引量:13
2
作者 郑方 李宏亮 +3 位作者 吕晖 过锋 许晓红 谢向辉 《Journal of Computer Science & Technology》 SCIE EI CSCD 2015年第1期145-162,共18页
Due to advances in semiconductor techniques, many-core processors have been widely used in high performance computing. However, many applications still cannot be carried out efficiently due to the memory wall, which h... Due to advances in semiconductor techniques, many-core processors have been widely used in high performance computing. However, many applications still cannot be carried out efficiently due to the memory wall, which has become a bottleneck in many-core processors. In this paper, we present a novel heterogeneous many-core processor architecture named deeply fused many-core (DFMC) for high performance computing systems. DFMC integrates management processing ele- ments (MPEs) and computing processing elements (CPEs), which are heterogeneous processor cores for different application features with a unified ISA (instruction set architecture), a unified execution model, and share-memory that supports cache coherence. The DFMC processor can alleviate the memory wall problem by combining a series of cooperative computing techniques of CPEs, such as multi-pattern data stream transfer, efficient register-level communication mechanism, and fast hardware synchronization technique. These techniques are able to improve on-chip data reuse and optimize memory access performance. This paper illustrates an implementation of a full system prototype based on FPGA with four MPEs and 256 CPEs. Our experimental results show that the effect of the cooperative computing techniques of CPEs is significant, with DGEMM (double-precision matrix multiplication) achieving an efficiency of 94%, FFT (fast Fourier transform) obtaining a performance of 207 GFLOPS and FDTD (finite-difference time-domain) obtaining a performance of 27 GFLOPS. 展开更多
关键词 heterogeneous many-core processor data stream transfer register-level communication mechanism hardwaresynchronization technique processor prototype
原文传递
System Architecture of Godson-3 Multi-Core Processors 被引量:7
3
作者 高翔 陈云霁 +2 位作者 王焕东 唐丹 胡伟武 《Journal of Computer Science & Technology》 SCIE EI CSCD 2010年第2期181-191,共11页
Godson-3 is the latest generation of Godson microprocessor family. It takes a scalable multi-core architecture with hardware support for accelerating applications including X86 emulation and signal processing. This pa... Godson-3 is the latest generation of Godson microprocessor family. It takes a scalable multi-core architecture with hardware support for accelerating applications including X86 emulation and signal processing. This paper introduces the system architecture of Godson-3 from various aspects including system scalability, organization of memory hierarchy, network-on-chip, inter-chip connection and I/O subsystem. 展开更多
关键词 multi-core processor scalable interconnection cache coherent non-uniform memory access/non-uniform cache access (CC-NUMA/NUCA) MESH CROSSBAR cache coherence reliability availability and serviceability (RAS)
原文传递
Parallel computing of discrete element method on multi-core processors 被引量:6
4
作者 Yusuke Shigeto Mikio Sakai 《Particuology》 SCIE EI CAS CSCD 2011年第4期398-405,共8页
This paper describes parallel simulation techniques for the discrete element method (DEM) on multi-core processors. Recently, multi-core CPU and GPU processors have attracted much attention in accelerating computer ... This paper describes parallel simulation techniques for the discrete element method (DEM) on multi-core processors. Recently, multi-core CPU and GPU processors have attracted much attention in accelerating computer simulations in various fields. We propose a new algorithm for multi-thread parallel computation of DEM, which makes effective use of the available memory and accelerates the computation. This study shows that memory usage is drastically reduced by using this algorithm. To show the practical use of DEM in industry, a large-scale powder system is simulated with a complicated drive unit. We compared the performance of the simulation between the latest GPU and CPU processors with optimized programs for each processor. The results show that the difference in performance is not substantial when using either GPUs or CPUs with a multi-thread parallel algorithm. In addition, DEM algorithm is shown to have high scalabilitv in a multi-thread parallel computation on a CPU. 展开更多
关键词 Discrete element method Parallel computing Multi-core processor GPGPU
原文传递
Fault Tolerance Mechanism in Chip Many-Core Processors 被引量:1
5
作者 张磊 韩银和 +1 位作者 李华伟 李晓维 《Tsinghua Science and Technology》 SCIE EI CAS 2007年第S1期169-174,共6页
As semiconductor technology advances, there will be billions of transistors on a single chip. Chip many-core processors are emerging to take advantage of these greater transistor densities to deliver greater performan... As semiconductor technology advances, there will be billions of transistors on a single chip. Chip many-core processors are emerging to take advantage of these greater transistor densities to deliver greater performance. Effective fault tolerance techniques are essential to improve the yield of such complex chips. In this paper, a core-level redundancy scheme called N+M is proposed to improve N-core processors’ yield by providing M spare cores. In such architecture, topology is an important factor because it greatly affects the processors’ performance. The concept of logical topology and a topology reconfiguration problem are introduced, which is able to transparently provide target topology with lowest performance degradation as the presence of faulty cores on-chip. A row rippling and column stealing (RRCS) algorithm is also proposed. Results show that PRCS can give solutions with average 13.8% degradation with negligible computing time. 展开更多
关键词 chip many-core processors YIELD fault tolerance RECONFIGURATION NETWORK-ON-CHIP
原文传递
Energy Efficiency of a Multi-Core Processor by Tag Reduction
6
作者 郑龙 董冕雄 +3 位作者 Kaoru Ota 金海 Song Guo 马俊 《Journal of Computer Science & Technology》 SCIE EI CSCD 2011年第3期491-503,共13页
We consider the energy saving problem for caches on a multi-core processor. In the previous research on low power processors, there are various methods to reduce power dissipation. Tag reduction is one of them. This p... We consider the energy saving problem for caches on a multi-core processor. In the previous research on low power processors, there are various methods to reduce power dissipation. Tag reduction is one of them. This paper extends the tag reduction technique on a single-core processor to a multi-core processor and investigates the potential of energy saving for multi-core processors. We formulate our approach as an equivalent problem which is to find an assignment of the whole instruction pages in the physical memory to a set of cores such that the tag-reduction conflicts for each core can be mostly avoided or reduced. We then propose three algorithms using different heuristics for this assignment problem. We provide convincing experimental results by collecting experimental data from a real operating system instead of the traditional way using a processor simulator that cannot simulate operating system functions and the full memory hierarchy. Experimental results show that our proposed algorithms can save total energy up to 83.93% on an 8-core processor and 76.16% on a 4-core processor in average compared to the one that the tag-reduction is not used for. They also significantly outperform the tag reduction based algorithm on a single-core processor. 展开更多
关键词 tag reduction multi-core processor energy efficiency
原文传递
Schedule refinement for homogeneous multi-core processors in the presence of manufacturing-caused heterogeneity
7
作者 Zhi-xiang CHEN Zhao-lin LI +2 位作者 Shan CAO Fang WANG Jie ZHOU 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2015年第12期1018-1033,共16页
Multi-core homogeneous processors have been widely used to deal with computation-intensive embedded applications. However, with the continuous down scaling of CMOS technology, within-die variations in the manufacturin... Multi-core homogeneous processors have been widely used to deal with computation-intensive embedded applications. However, with the continuous down scaling of CMOS technology, within-die variations in the manufacturing process lead to a significant spread in the operating speeds of cores within homogeneous multi-core processors. Task scheduling approaches, which do not consider such heterogeneity caused by within-die variations,can lead to an overly pessimistic result in terms of performance. To realize an optimal performance according to the actual maximum clock frequencies at which cores can run, we present a heterogeneity-aware schedule refining(HASR) scheme by fully exploiting the heterogeneities of homogeneous multi-core processors in embedded domains.We analyze and show how the actual maximum frequencies of cores are used to guide the scheduling. In the scheme,representative chip operating points are selected and the corresponding optimal schedules are generated as candidate schedules. During the booting of each chip, according to the actual maximum clock frequencies of cores, one of the candidate schedules is bound to the chip to maximize the performance. A set of applications are designed to evaluate the proposed scheme. Experimental results show that the proposed scheme can improve the performance by an average value of 22.2%, compared with the baseline schedule based on the worst case timing analysis. Compared with the conventional task scheduling approach based on the actual maximum clock frequencies, the proposed scheme also improves the performance by up to 12%. 展开更多
关键词 Schedule refining Multi-core processor HETEROGENEITY Representative chip operating point
原文传递
用于单片机实验教学的红外激光气体检测仪
8
作者 郑传涛 华莹 +3 位作者 刘洋 刘大勇 宋芳 张宇 《实验室研究与探索》 CAS 北大核心 2024年第1期50-55,共6页
为了实现科研反哺教学、促进教学与科研的深度融合,研制了一种基于嵌入式多核处理器和数字信号处理器的实验教学用红外激光气体检测仪。该检测仪包括光学系统和电学系统,其中电学系统包含光谱信息感知模块和嵌入式控制模块。利用研制的... 为了实现科研反哺教学、促进教学与科研的深度融合,研制了一种基于嵌入式多核处理器和数字信号处理器的实验教学用红外激光气体检测仪。该检测仪包括光学系统和电学系统,其中电学系统包含光谱信息感知模块和嵌入式控制模块。利用研制的检测仪开展了氨制冷冷库现场的泄漏氨气浓度的检测应用。结果表明,与传统气体检测仪相比,该检测仪实现了检测仪的网络化与智能化,而且性能满足实验教学要求。 展开更多
关键词 红外吸收光谱 气体检测 多核处理器 数字信号处理器 微型处理器
下载PDF
MVSim:面向VLIW多核向量处理器的快速、可扩展和精确的体系结构模拟器
9
作者 刘仲 李程 +3 位作者 田希 刘胜 邓让钰 钱程东 《计算机工程与科学》 CSCD 北大核心 2024年第2期191-199,共9页
设计了一个面向VLIW多核向量处理器的快速、可扩展、精确的体系结构模拟器MVSim。设计了可扩展的VLIW多核向量处理器模型、多级存储体系结构模型和多核性能模型;实现了指令集架构的节拍精准模拟,Cache、DMA和多核同步部件的高效功能模拟... 设计了一个面向VLIW多核向量处理器的快速、可扩展、精确的体系结构模拟器MVSim。设计了可扩展的VLIW多核向量处理器模型、多级存储体系结构模型和多核性能模型;实现了指令集架构的节拍精准模拟,Cache、DMA和多核同步部件的高效功能模拟,采用多线程技术实现了多核处理器的高效和可扩展模拟。实验结果表明,MVSim能够准确模拟多核处理器的目标程序执行,模拟结果完全正确,具有良好的可扩展性。MVSim的平均模拟速度分别是RTL模拟和CCS的227倍和5倍,平均性能误差约为2.9%。 展开更多
关键词 体系结构模拟器 VLIW 多核向量处理器模型 性能模型 节拍精准模拟器
下载PDF
多核处理器公平共享并行总线的方法
10
作者 邵龙 《现代电子技术》 北大核心 2024年第3期25-28,共4页
针对综合化电子系统中多个功能运行于同一多核处理器的不同核同时访问同一并行总线的冲突避免以及实时性问题,提出一种基于最小访问颗粒度的多核处理器公平共享并行总线的方法,并详细介绍了该方法的设计实现及验证。该方法不仅通过为每... 针对综合化电子系统中多个功能运行于同一多核处理器的不同核同时访问同一并行总线的冲突避免以及实时性问题,提出一种基于最小访问颗粒度的多核处理器公平共享并行总线的方法,并详细介绍了该方法的设计实现及验证。该方法不仅通过为每核分配一个总线操作缓冲队列保障了同一核的总线操作先到先服务,而且通过单个读写操作周期的公平队列算法保障了每核总线操作的实时性。工程实践表明,该方法是一种多核处理器公平共享并行总线的有效方法。 展开更多
关键词 综合化电子系统 多核处理器 共享并行总线 冲突 公平队列算法 缓冲队列
下载PDF
基于交叉开关互连的多核堆栈处理器架构设计
11
作者 刘欢庆 周永录 +1 位作者 刘宏杰 代红兵 《计算机工程与设计》 北大核心 2024年第7期2212-2219,共8页
为满足堆栈处理器对于并行化程序应用的需求,提出一种多核堆栈处理器架构。在单核堆栈处理器的基础上,以交叉开关作为核间互连结构,通过对指令集、高速缓存器、一致性协议以及中断机制的设计,可在一个时钟周期内完成取指、译码、执行、... 为满足堆栈处理器对于并行化程序应用的需求,提出一种多核堆栈处理器架构。在单核堆栈处理器的基础上,以交叉开关作为核间互连结构,通过对指令集、高速缓存器、一致性协议以及中断机制的设计,可在一个时钟周期内完成取指、译码、执行、核间数据传输和中断响应操作。在Xilinx FPGA芯片上进行单核、双核和四核堆栈处理器的实现,通过矩阵乘法计算进行性能实验验证,在100 MHz时钟频率的情况下,四核堆栈处理器的最大性能相当于单核堆栈处理器的3.99倍。实验结果表明,基于交叉开关互连的多核堆栈处理器架构可较好发挥多核堆栈处理器中每一个核心的性能。 展开更多
关键词 堆栈处理器 多核处理器 交叉开关 高速缓存 一致性协议 中断控制器 现场可编程门阵列
下载PDF
国产SW26010-Pro处理器上3级BLAS函数众核并行优化
12
作者 胡怡 陈道琨 +5 位作者 杨超 马文静 刘芳芳 宋超博 孙强 史俊达 《软件学报》 EI CSCD 北大核心 2024年第3期1569-1584,共16页
BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发... BLAS(basic linear algebra subprograms)是最基本、最重要的底层数学库之一.在一个标准的BLAS库中,BLAS 3级函数涵盖的矩阵-矩阵运算尤为重要,在许多大规模科学与工程计算应用中被广泛调用.另外,BLAS 3级属于计算密集型函数,对充分发挥处理器的计算性能有至关重要的作用.针对国产SW26010-Pro处理器研究BLAS 3级函数的众核并行优化技术.具体而言,根据SW26010-Pro的存储层次结构,设计多级分块算法,挖掘矩阵运算的并行性.在此基础上,基于远程内存访问(remote memory access,RMA)机制设计数据共享策略,提高从核间的数据传输效率.进一步地,采用三缓冲、参数调优等方法对算法进行全面优化,隐藏直接内存访问(direct memory access,DMA)访存开销和RMA通信开销.此外,利用SW26010-Pro的两条硬件流水线和若干向量化计算/访存指令,还对BLAS 3级函数的矩阵-矩阵乘法、矩阵方程组求解、矩阵转置操作等若干运算进行手工汇编优化,提高了函数的浮点计算效率.实验结果显示,所提出的并行优化技术在SW26010-Pro处理器上为BLAS 3级函数带来了明显的性能提升,单核组BLAS 3级函数的浮点计算性能最高可达峰值性能的92%,多核组BLAS 3级函数的浮点计算性能最高可达峰值性能的88%. 展开更多
关键词 BLAS 3级 SW26010-Pro众核处理器 直接内存访问 远程内存访问 浮点计算效率
下载PDF
多核堆栈处理器研究与设计
13
作者 刘自昂 周永录 +1 位作者 代红兵 刘宏杰 《计算机工程与设计》 北大核心 2024年第4期1256-1263,共8页
为满足日趋复杂的嵌入式环境对堆栈处理器和Forth技术的应用需求,在单核堆栈处理器模型研究的基础上,设计一种多核堆栈处理器模型。基于J1单核堆栈处理器模型,针对多核目标,增加计时器、中断等功能,形成新的L32单核堆栈处理器模型,并以... 为满足日趋复杂的嵌入式环境对堆栈处理器和Forth技术的应用需求,在单核堆栈处理器模型研究的基础上,设计一种多核堆栈处理器模型。基于J1单核堆栈处理器模型,针对多核目标,增加计时器、中断等功能,形成新的L32单核堆栈处理器模型,并以该单核模型为内核,引入共享总线和十字开关互联方式的Wishbone总线、多端口存储器和面向多任务Forth系统的指令集,建立一种多核堆栈处理器模型L32-MC。利用该多核模型,在FPGA上实现4核和8核的L32-MC原型多核堆栈处理器。实验结果表明,4核和8核的L32-MC原型堆栈处理器满足高性能低功耗的多核处理器设计目标。 展开更多
关键词 多核堆栈处理器 Forth技术 Wishbone片上总线 多端口存储器 指令集 现场可编程门阵列 嵌入式
下载PDF
面向车载功能安全的低开销超标量双核锁步处理器架构设计
14
作者 张承译 王明羽 +1 位作者 虞志益 李兆麟 《汽车工程学报》 2024年第2期313-320,共8页
在车载功能安全领域,双核锁步架构是一种被广泛应用于解决处理器故障的冗余架构。为支持细粒度故障处理的超标量处理器提出一种新颖的双核锁步架构,通过以分支跳转指令的形式执行程序回滚,该架构能在故障发生的同一时钟周期内检测和纠... 在车载功能安全领域,双核锁步架构是一种被广泛应用于解决处理器故障的冗余架构。为支持细粒度故障处理的超标量处理器提出一种新颖的双核锁步架构,通过以分支跳转指令的形式执行程序回滚,该架构能在故障发生的同一时钟周期内检测和纠正故障,且不需要额外的专用硬件模块来满足细粒度回滚的需求。还提出一种虚拟写回机制,该机制将特定数据传送到只读寄存器以防止故障衍生,使处理器无需在程序执行期间持续保存现场,从而显著节省了面积开销。试验结果表明,该架构对注入处理器的故障实现了较彻底的故障覆盖,对处理器原型的性能影响很小,与先前双核锁步相关的工作相比,时间和面积开销更小。 展开更多
关键词 双核锁步 处理器 故障处理 程序回滚
下载PDF
面向SW26010Pro处理器的全局符号重定位优化
15
作者 钱宏 王飞 +3 位作者 刘沙 郑天宇 宋佳伟 安虹 《计算机系统应用》 2024年第2期62-71,共10页
申威异构众核处理器运算核心访问主存的延迟很大,程序中应尽量避免运算核心代码访问主存的操作.全局偏移表存放程序中全局变量和函数的地址,不适合保存在珍稀的运算核心局部存储空间中,并且其访问模式通常比较离散,因而也不适合对其做Ca... 申威异构众核处理器运算核心访问主存的延迟很大,程序中应尽量避免运算核心代码访问主存的操作.全局偏移表存放程序中全局变量和函数的地址,不适合保存在珍稀的运算核心局部存储空间中,并且其访问模式通常比较离散,因而也不适合对其做Cache预取,访问全局偏移表引入的访问主存操作对程序性能影响较大.本文针对异构众核程序静态链接与动态链接的使用场景,分析链接器relaxation优化的使用限制,通过“gp基地址+扩展偏移”的方法实现避免访问主存操作的全局符号重定位优化.实验结果表明,该重定位优化方法能够以增加少量代码为代价,在运算核心代码调用函数与访问全局变量时有效避免访问全局偏移表引入的访问主存的操作,提高众核程序的运行性能. 展开更多
关键词 众核处理器 全局偏移表 重定位 链接器优化 性能
下载PDF
一种空间多核操作系统容错调度算法
16
作者 王宇思 杨桦 徐建 《微电子学与计算机》 2024年第5期49-56,共8页
目前计算机系统逐步采用多核处理器来提升性能,空间操作系统如何管理多核资源是发挥处理器性能的关键。在航天等安全关键领域中,采用固定点任务与定期任务混合调度,在保证可靠性的前提下提高效率。现有针对混合任务模型的多核调度算法... 目前计算机系统逐步采用多核处理器来提升性能,空间操作系统如何管理多核资源是发挥处理器性能的关键。在航天等安全关键领域中,采用固定点任务与定期任务混合调度,在保证可靠性的前提下提高效率。现有针对混合任务模型的多核调度算法仅考虑任务分配问题,没有考虑到系统中某一核心出现故障时如何进行容错。FT-RTA算法是一种空间多核操作系统容错调度算法,当一个核心上出现瞬时故障,将故障核心上在故障时间段内的所有任务迁移至正常核心上执行,使计算机系统不会感知到此次核心故障,成功屏蔽故障。经过实际应用中的典型参数验证,算法可以成功屏蔽核心故障,进行系统无感知的容错。 展开更多
关键词 空间操作系统 多核处理器 容错调度算法 混合任务模型
下载PDF
神威超级计算机运行时故障定位方法
17
作者 高剑刚 郑岩 +6 位作者 于康 彭达佳 李宏亮 刘勇 何王全 陈德训 王飞 《计算机研究与发展》 EI CSCD 北大核心 2024年第1期86-97,共12页
随着高性能计算机的性能不断提升、系统规模不断提高,系统和应用的错误率也不可避免地持续增多.快速发现和定位系统及应用级的错误、为用户提供高质量服务,成为了超级计算机系统设计开发过程中急需考虑的问题.超级计算机系统中硬件故障... 随着高性能计算机的性能不断提升、系统规模不断提高,系统和应用的错误率也不可避免地持续增多.快速发现和定位系统及应用级的错误、为用户提供高质量服务,成为了超级计算机系统设计开发过程中急需考虑的问题.超级计算机系统中硬件故障与异常、软件程序的错误等都会导致用户大规模并行应用的错误、挂死与退出.如何快速准确定位错误现场,让管理员或用户以此为基础查看异常发生的故障进行高精度、高效率的诊断,是维护高性能计算系统可靠性的重要基础.高性能计算机传统的故障定位主要通过硬件异常跟踪、系统日志分析和程序主动探测等方法,缺乏对无日志信息、无明显故障现象的程序挂死问题的定位手段,并且技术的扩展性也面临挑战.针对“新一代神威超级计算机”体系结构和SW26010-Pro众核处理器特点,提出一种运行时故障定位方法,包括基于消息传递的故障关联分析、基于全局聚合信息的在线综合分析诊断、面向申威众核处理器的异常线程过滤方法等关键技术,阐述了如何有效检测、收集、处理大量系统资源和并行进程的异常信息问题,为应对未来超大规模高性能计算中故障高效定位难题提供有效支撑. 展开更多
关键词 E级计算机 可靠性 错误定位 运行时 众核处理器
下载PDF
面向申威众核处理器的规则处理优化技术
18
作者 张振东 王彤 刘鹏 《计算机研究与发展》 EI CSCD 北大核心 2024年第1期66-85,共20页
高性能口令恢复系统是申威众核处理器的重要应用场景之一,规则处理是主流口令恢复工具中被广泛应用的一种口令生成方式.现有相关研究工作缺少对规则处理算法的优化,导致申威处理器上基于规则的口令生成速度成为口令恢复系统的性能瓶颈.... 高性能口令恢复系统是申威众核处理器的重要应用场景之一,规则处理是主流口令恢复工具中被广泛应用的一种口令生成方式.现有相关研究工作缺少对规则处理算法的优化,导致申威处理器上基于规则的口令生成速度成为口令恢复系统的性能瓶颈.通过分析规则处理算法的多层次可并行性,提出了面向申威众核处理器的线程级、数据级优化方案.在线程级优化方案中,探索了规则处理算法的最优任务映射方式,设计了主从核任务分配机制、从核缓冲区配比优化机制、负载均衡机制、变长规则存储机制等技术以提高并行效率;在数据级优化方案中,分析了规则处理算法中规则函数的计算模式,并通过申威SIMD指令集对规则函数进行向量优化以提高执行效率.在SW26010处理器上的实验结果表明,上述优化方案有效解除了规则处理的性能瓶颈,使规则模式下的口令恢复速度提升了30~101倍. 展开更多
关键词 申威众核处理器 口令恢复 规则处理 异构计算 单指令多数据流
下载PDF
适用于S-NUCA异构处理器的任务调度与热管理系统
19
作者 周义涛 李阳 +3 位作者 韩超 赵玉来 汪玲 李建华 《计算机工程》 CAS CSCD 北大核心 2024年第2期196-205,共10页
异构多核处理器凭借其高性能、低功耗和广泛的应用场景而成为当前计算机平台的主流方案,且大容量的非均匀缓存架构(S-NUCA)具有较低的平均访问时间。然而,不断上升的晶体管规模给异构多核处理器的资源调度和功耗控制带来挑战,传统的调... 异构多核处理器凭借其高性能、低功耗和广泛的应用场景而成为当前计算机平台的主流方案,且大容量的非均匀缓存架构(S-NUCA)具有较低的平均访问时间。然而,不断上升的晶体管规模给异构多核处理器的资源调度和功耗控制带来挑战,传统的调度算法在面对基于S-NUCA的多核处理器时忽略了核心之间的缓存访问延迟,且传统热管理方案只提供芯片级功率约束,容易使得系统因核心使用率降低而造成性能下降。为此,提出一种适用于S-NUCA异构多核系统、满足热安全约束的动态线程调度机制TSCDM。利用基于动态每周期指令(IPC)值的阶段检测技术,并基于人工神经网络预测线程的IPC值,以获取线程与核心类型的最佳绑定关系,依据S-NUCA缓存特性获得最优映射和基于任务分类的任务迁移策略。在此基础上,TSCDM基于片上热模型为每个核心实时分配功率预算。在HotSniper上运行SPLASH-2性能测试套件进行实验,结果表明,相较于传统调度方案与基于机器学习的调度方案,TSCDM在加速比和资源利用率上均表现出优势,TSCDM中使用的基于瞬态温度的安全功率算法相比传统热安全功率算法能够降低核心热余量,同时处理器的全频段均有更高的能效比。 展开更多
关键词 异构多核处理器 人工神经网络 线程调度 阶段检测 热安全功率
下载PDF
一种多核处理器中混合关键级任务半分区调度算法
20
作者 李俊何 杨康 张凤登 《小型微型计算机系统》 CSCD 北大核心 2024年第5期1264-1271,共8页
目前用于混合关键级系统的任务调度算法存在资源分配不合理、中低关键级任务的运行受限等情况,造成系统整体服务质量被降低.本文提出了有效改进系统服务质量的半分区调度算法,该调度算法将用于多核处理器的空闲资源回收计算,能够在触发... 目前用于混合关键级系统的任务调度算法存在资源分配不合理、中低关键级任务的运行受限等情况,造成系统整体服务质量被降低.本文提出了有效改进系统服务质量的半分区调度算法,该调度算法将用于多核处理器的空闲资源回收计算,能够在触发了高关键级模式的情况下,为被抛弃的低关键级任务分配空闲时间片.此外,该算法还可以利用系统中的空闲时间片推迟系统关键等级的提升,并提出系统关键等级平稳回落策略,两者可以确保系统关键等级不会过于频繁变化.最后,通过算法仿真和实验证明了本文所提方法在混合关键级任务调度问题上的有效性和优越性. 展开更多
关键词 混合关键级系统 动态需求边界函数 半分区划分算法 多核处理器 任务调度
下载PDF
上一页 1 2 38 下一页 到第
使用帮助 返回顶部