期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
面向E级超算系统的众核片上存储层次研究
1
作者 方燕飞 刘齐 +5 位作者 董恩铭 李雁冰 过锋 王谛 何王全 漆锋滨 《计算机工程》 CAS CSCD 北大核心 2023年第12期10-24,共15页
当前众核已成为构建高性能计算(HPC)超级计算机的主流微处理器架构,为HPC领域E级超算提供强大的算力。随着众核处理器片上集成的运算核心数量不断增加,众多核心对存储资源竞争愈加激烈,“访存墙”问题越来越突出。众核片上存储层次是缓... 当前众核已成为构建高性能计算(HPC)超级计算机的主流微处理器架构,为HPC领域E级超算提供强大的算力。随着众核处理器片上集成的运算核心数量不断增加,众多核心对存储资源竞争愈加激烈,“访存墙”问题越来越突出。众核片上存储层次是缓解“访存墙”问题并帮助HPC应用更好地发挥众核处理器的计算优势以提升实际应用性能的重要结构。众核片上存储层次的设计对众核片上系统性能、功耗和面积具有重要影响,是众核结构设计中的重要环节,也是业界的研究热点。由于众核芯片发展历史和片上微体系结构设计技术的不同,以及所面向的应用领域需求不同等原因,目前的HPC主流众核片上存储层次结构并不单一,但从横向比较和各处理器自身纵向发展趋势,以及从HPC与数据科学、机器学习不断融合发展带来的应用需求变化来看,SPM+Cache的混合结构最可能成为今后HPC E级超算系统众核处理器片上存储层次设计的主流选择。在面向E级计算的软件和算法层面,开展针对众核存储层次特点的设计与优化,可以帮助HPC应用更好地发挥众核处理器的计算优势,从而有效提升实际应用性能,因此面向众核片上存储层次特点的软件及算法设计与优化技术也是业界的研究热点之一。首先按照不同的组织方式将片上存储层次分为多级Cache结构、SPM结构和SPM+Cache混合结构,并总结分析3种结构的优缺点。然后分析国际主流GPU、同构众核、国产众核等面向主流E级超算系统的众核处理器片上存储层次设计现状与发展趋势。最后从众核LLC管理与缓存一致性协议、SPM空间管理与数据移动优化、SPM+Cache混合结构的全局视角优化等角度综述国际上的存储层次设计与优化相关软硬件技术的研究现状。在此基础上,从软硬件及算法设计等不同角度展望了片上存储层次的未来研究方向。 展开更多
关键词 E级超算 众核处理器 存储层次 高性能计算 便签式存储器 末级缓存
下载PDF
ORACLE数据库中SQL优化解析 被引量:2
2
作者 陈伟 郭伟 周平 《中国高新技术企业》 2007年第10期103-104,共2页
本文介绍了SQL的执行过程,ORACLE优化器的基本原理,优化器的选择和应用,以及如何建立和管理索引来提高程序的执行效率。并以实际工作经验介绍了优化工具以及提出对SQL优化的体会。
关键词 优化 RBO CBO 索引 优化模式 SQL scratchpad
下载PDF
针对能耗热点的SPM静态分配管理策略 被引量:4
3
作者 胡志刚 石金锋 蒋湘涛 《计算机工程与应用》 CSCD 北大核心 2010年第3期58-61,75,共5页
综合考虑程序的指令块、数据块、全局变量对程序执行能耗的影响,使用带权重扩展控制流图(WECFG)将应用程序划分成各类逻辑节点,通过SPM平均访问能耗值计算出逻辑节点平均能耗,以及各逻辑节点的能耗密度。以能耗热点为依据构造SPM分配的... 综合考虑程序的指令块、数据块、全局变量对程序执行能耗的影响,使用带权重扩展控制流图(WECFG)将应用程序划分成各类逻辑节点,通过SPM平均访问能耗值计算出逻辑节点平均能耗,以及各逻辑节点的能耗密度。以能耗热点为依据构造SPM分配的整数线性规划算法(ILP),转化成以能耗密度为优先权的0-1背包算法。仿真结果表明,使用该分配策略的SPM空间分配,比不使用SPM时的能耗量平均减少34.8%左右。 展开更多
关键词 能耗热点 片上存储器 静态分配策略
下载PDF
支持程序无缝切换的高性能硬件堆栈
4
作者 陈志坚 孟建熠 +1 位作者 葛海通 严晓浪 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2011年第9期1587-1592,共6页
针对函数调用中上下文切换产生的性能损失,提出一种支持程序无缝切换的嵌入式处理器高性能硬件堆栈.高性能硬件堆栈包括数据栈和返回栈,采用动态可重构的两级缓存机制,消除程序切换的性能开销.数据栈实现单周期多数据压栈/出栈,隐藏程... 针对函数调用中上下文切换产生的性能损失,提出一种支持程序无缝切换的嵌入式处理器高性能硬件堆栈.高性能硬件堆栈包括数据栈和返回栈,采用动态可重构的两级缓存机制,消除程序切换的性能开销.数据栈实现单周期多数据压栈/出栈,隐藏程序切换中的堆栈操作;返回栈实现指令超前预取,消除程序返回时流水线气泡.数据栈与返回栈分别复用数据和指令高速暂存器,实现用户可重构的二级缓存.实验结果显示:本方法平均提升性能10%以上,功耗降低2%. 展开更多
关键词 硬件堆栈 无缝切换 嵌入式处理器 高速暂存器
下载PDF
MACT:高通量众核处理器离散访存请求批量处理机制
5
作者 李文明 叶笑春 +5 位作者 王达 郑方 李宏亮 林晗 范东睿 孙凝晖 《计算机研究与发展》 EI CSCD 北大核心 2015年第6期1254-1265,共12页
网络服务等新型高通量应用的迅速兴起给传统处理器设计带来了巨大的挑战.高通量众核处理器作为面向此类应用的新型处理器结构成为研究热点.然而,随着片上处理核数量的剧增,加之高通量应用的数据密集型特点,"存储墙"问题进一... 网络服务等新型高通量应用的迅速兴起给传统处理器设计带来了巨大的挑战.高通量众核处理器作为面向此类应用的新型处理器结构成为研究热点.然而,随着片上处理核数量的剧增,加之高通量应用的数据密集型特点,"存储墙"问题进一步加剧.通过分析高通量应用访存行为,发现此类应用存在着大量的细粒度访存,降低了访存带宽的有效利用率.基于此分析,在高通量处理器设计中通过添加访存请求收集表(memory access collection table,MACT)硬件机制,结合消息式内存机制,用于收集离散的访存请求并进行批量处理.MACT硬件机制的实现,提高了访存带宽的有效利用率,同时也提高了执行效率;并通过时间窗口机制,确保访存请求在最晚期限之前发送出去,保证任务的实时性.实验以典型高通量应用WordCount,TeraSort,Search为基准测试程序.添加MACT硬件机制后,访存数量减少约49%,访存带宽提高约24%,平均执行速度提高约89%. 展开更多
关键词 高通量处理器 访存请求收集表 时间窗口机制 高速缓冲存储器 便签式存储器
下载PDF
嵌入式多媒体应用中的片上存储器分配
6
作者 温淑鸿 崔慧娟 唐昆 《电子学报》 EI CAS CSCD 北大核心 2005年第11期1937-1940,共4页
为了提高嵌入式多媒体应用的运行速度并降低功耗,本文提出一种高效利用片上存储器的方法.将数据矩阵划分成合理大小的子块,分阶段地将数据子块转移到片上,并尽可能重复利用已经转移到片上的数据,以便有效地减少片外存储器与片上存储器... 为了提高嵌入式多媒体应用的运行速度并降低功耗,本文提出一种高效利用片上存储器的方法.将数据矩阵划分成合理大小的子块,分阶段地将数据子块转移到片上,并尽可能重复利用已经转移到片上的数据,以便有效地减少片外存储器与片上存储器之间的数据转移.通过对汇编语言中存储器阵操作数适当分配,避免读写数据延迟.根据汇编语言代码写出不产生流水线停滞的各个矩阵操作数的存储器位置限制条件,根据限制条件,本文提出求解矩阵分配的方法. 展开更多
关键词 存储器 片上存储器 存储器分配 数据再利用
下载PDF
基于SPM的多核SoC访存结构设计与优化
7
作者 刘磊 严明 李思昆 《计算机工程》 CAS CSCD 北大核心 2009年第18期234-236,共3页
针对"一个RISC主处理器核+几个专用协处理器核"结构的计算密集型SoC,设计一种以执行命令方式完成大块数据传输的高效访存结构。通过增加组传输和流水传输模式,对该结构进行优化。实验结果表明,该访存结构设计及优化方案的数... 针对"一个RISC主处理器核+几个专用协处理器核"结构的计算密集型SoC,设计一种以执行命令方式完成大块数据传输的高效访存结构。通过增加组传输和流水传输模式,对该结构进行优化。实验结果表明,该访存结构设计及优化方案的数据传输效率高、实现开销小,并且对同类SoC系统,该设计具有良好的适用性。 展开更多
关键词 便签式存储器 多核SoC 访存
下载PDF
低码率语音编码器实现中的片上Cache分配策略
8
作者 涂卫平 《电声技术》 2011年第11期54-59,共6页
针对DSP上低码率语音编码器的实现和优化问题,研究了片上Cache的分配策略。根据指令Cache的大小,以及程序处理的数据量的大小,将程序分成大小合理的段,分阶段载入Cache中。对数据Cache的分配考虑了Cache结构和数据本身的特点,使有限的数... 针对DSP上低码率语音编码器的实现和优化问题,研究了片上Cache的分配策略。根据指令Cache的大小,以及程序处理的数据量的大小,将程序分成大小合理的段,分阶段载入Cache中。对数据Cache的分配考虑了Cache结构和数据本身的特点,使有限的数据Cache得到充分的利用。全面考察数据的生命期,使已经载入数据Cache的数据尽可能得到重复利用,从而有效地减少片外存储器和Cache之间的数据传送。 展开更多
关键词 存储器 片上存储器 存储器分配 CACHE
下载PDF
Utilization-Aware Data Variable Allocation on NVM- Based SPM in Real-Time Embedded Systems
9
作者 Jin-Yu Zhan Yi-Xin Li +1 位作者 Wei Jiang Jun-Huan Yang 《Journal of Electronic Science and Technology》 CAS CSCD 2021年第2期163-172,共10页
With the development of the nonvolatile memory(NVM),using NVM in the design of the cache and scratchpad memory(SPM)has been increased.This paper presents a data variable allocation(DVA)algorithm based on the genetic a... With the development of the nonvolatile memory(NVM),using NVM in the design of the cache and scratchpad memory(SPM)has been increased.This paper presents a data variable allocation(DVA)algorithm based on the genetic algorithm for NVM-based SPM to prolong the lifetime.The lifetime can be formulated indirectly as the write counts on each SPM address.Since the differences between global variables and stack variables,our optimization model has three constraints.The constraints of the central processing unit(CPU)utilization and size are used for all variables,while no-overlay constraint is only used for stack variables.To satisfy the constraints of the optimization model,we use the greedy strategy to generate the initial population which can determine whether data variables are allocated to SPM and distribute them evenly on SPM addresses.Finally,we use the Mälardalen worst case executive time(WCET)benchmark to evaluate our algorithm.The experimental results show that the DVA algorithm can not only obtain close-to-optimal solutions,but also prolong the lifetime by 9.17% on average compared with SRAM-based SPM. 展开更多
关键词 Data variables allocation genetic algorithm nonvolatile momory(NVM) scratchpad memory(SPM)
下载PDF
基于能耗热点的SPM静态分配策略
10
作者 胡志刚 石金锋 蒋湘涛 《微计算机应用》 2009年第1期57-63,共7页
提出一种基于能耗热点的片上存储器静态分配策略。该分配策略依据带权重扩展控制流图将应用程序划分成不同的逻辑节点,并通过SPM平均访问能耗值计算出逻辑节点被放入SPM后产生的访问能耗的大小,以及各节点的能耗密度。构造SPM空间分配... 提出一种基于能耗热点的片上存储器静态分配策略。该分配策略依据带权重扩展控制流图将应用程序划分成不同的逻辑节点,并通过SPM平均访问能耗值计算出逻辑节点被放入SPM后产生的访问能耗的大小,以及各节点的能耗密度。构造SPM空间分配的整数线性规划算法(ILP),转化成以能耗密度为优先权的0-1背包算法来选择要放入SPM的节点。实验结果表明,使用该分配策略来管理SPM空间分配,比不使用SPM时的能耗量平均减少34%左右。 展开更多
关键词 片上存储器 能耗热点 分配策略
下载PDF
一种基于随机采样的SPM管理机制 被引量:1
11
作者 邓宁 计卫星 +1 位作者 石峰 宋红 《计算机研究与发展》 EI CSCD 北大核心 2011年第5期897-905,共9页
嵌入式系统对于功耗和面积具有很高的要求.便签存储器(scratchpad memory,SPM)与同等容量Cache相比具有能耗低、片上面积小等优点,现已成为嵌入式处理器中广泛采用的片上存储器.高效的SPM管理策略对于降低系统功耗具有重要意义.传统的SP... 嵌入式系统对于功耗和面积具有很高的要求.便签存储器(scratchpad memory,SPM)与同等容量Cache相比具有能耗低、片上面积小等优点,现已成为嵌入式处理器中广泛采用的片上存储器.高效的SPM管理策略对于降低系统功耗具有重要意义.传统的SPM管理策略通过编译器采用软件方式进行.随着移动设备及网络互联设备的发展,嵌入式程序的部署方式已趋于多样化,致使传统基于程序特征分析(profiling)的SPM管理方式在某些方面存在局限.提出了一种软硬件结合的基于随机采样(random sampling)的动态SPM管理策略,通过实时监控程序访存特征等手段在运行时动态预测核心工作集(core workingset).该方法区别于传统方法之处在于无需依赖profiling信息和编译器进行SPM管理,而通过跟踪程序运行时访存动态特征指导SPM管理.实验表明,该方法可以充分发挥SPM在功耗、面积等方面的优势;通过与一种经典的SPM管理策略相比,所提出的方法在保证系统性能不降低的前提下,提高了SPM管理的灵活性、通用性. 展开更多
关键词 嵌入式处理器 片上存储 核心工作集 便签存储器 随机采样
下载PDF
一种高效多标准视频解码器架构研究与设计 被引量:2
12
作者 刘慧超 王志君 梁利平 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第10期117-124,共8页
针对目前视频解码器实现方案存在的灵活度低、开发周期长、不能适应快速变化的算法升级等问题,提出一种面向多种视频编解码标准的通用视频解码器架构设计方案.采用软硬件协同设计方法,基于可编程同构多核处理器+协处理器的硬件架构,同... 针对目前视频解码器实现方案存在的灵活度低、开发周期长、不能适应快速变化的算法升级等问题,提出一种面向多种视频编解码标准的通用视频解码器架构设计方案.采用软硬件协同设计方法,基于可编程同构多核处理器+协处理器的硬件架构,同构多核处理器采用指令级和任务级并行加速,协处理器采用硬件定制单元实现矢量加速,同时利用分布式片上便笺式存储器(Scratchpad Memory,SPM)代替数据Cache实现高效的数据存储系统,以应用广泛的H.264视频标准为验证实例.实验结果表明,基于本文所提架构实现的H.264视频解码器高效可行,平均并行加速比为9.12,相比于传统多核并行解码算法提高了1.31倍. 展开更多
关键词 多标准 视频解码器 可编程 协处理器 便笺存储器 H.264解码器 架构设计
下载PDF
基于置换图的便笺存储器分配
13
作者 汪黎 杨学军 戴华东 《中国科学:信息科学》 CSCD 2013年第7期932-946,共15页
在当今的嵌入式系统中,广泛地将片上存储器组织为软件管理的便笺存储器(SPM).Li等研究发现,对于很多嵌入式应用,其相干图中的数组生存期满足包含性.他们证明了满足生存期包含性的数组相干图为超完美图,并提出了一个基于超完美图的SPM分... 在当今的嵌入式系统中,广泛地将片上存储器组织为软件管理的便笺存储器(SPM).Li等研究发现,对于很多嵌入式应用,其相干图中的数组生存期满足包含性.他们证明了满足生存期包含性的数组相干图为超完美图,并提出了一个基于超完美图的SPM分配算法.他们的算法在面向嵌入式应用的SPM分配上获得了当前最好的性能.本文进一步证明满足生存期包含性的数组相干图为置换图.置换图是超完美图的一个子类.在现有技术的情况下,置换图在判定及区间着色方面比超完美图有优势,如存在线性时间的识别算法,存在线性时间的最优区间着色算法.基于此理论结果,我们将Li等的算法在保留原算法逻辑的基础上,改进为基于置换图.实验表明,改进后的算法在很多不满足生存期包含性的相干图上仍能取得最优SPM分配,获得比基于超完美图的分配算法更好的分配结果. 展开更多
关键词 便笺存储器SPM分配 区间着色 超完美图 置换图
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部