期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
面向多核CPU与GPU平台的图处理系统关键技术综述
1
作者 张园 曹华伟 +5 位作者 张婕 申玥 孙一鸣 敦明 安学军 叶笑春 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1401-1428,共28页
图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处... 图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处理加速的常用平台.但由于图处理具有处理数据规模大、数据依赖复杂、访存计算比高等特性,加之现实应用场景下的图数据分布不规则且图中的顶点与边呈现动态变化,给图处理的性能提升和高可扩展性带来严峻挑战.为应对上述挑战,大量基于多核CPU与GPU平台的图处理系统被提出,并在该领域取得显著成果.为了让读者了解多核CPU与GPU平台上图处理优化相关技术的演化,首先剖析了图数据、图算法、图应用特性,并阐明图处理所面临的挑战.然后分类梳理了当前已有的基于多核CPU与GPU平台的图处理系统,并从加速图处理设计的角度,详细、系统地总结了关键优化技术,包括图数据预处理、访存优化、计算加速和数据通信优化等.最后对已有先进图处理系统的性能、可扩展性等进行分析,并从不同角度对图处理未来发展趋势进行展望,希望对从事图处理系统研究的学者有一定的启发. 展开更多
关键词 多核CPU与GPU平台 图处理系统 图数据表示 负载均衡 不规则访存 动态图处理
下载PDF
cache profiling信息指导的软件流水 被引量:1
2
作者 周谦 冯晓兵 张兆庆 《计算机研究与发展》 EI CSCD 北大核心 2008年第5期834-840,共7页
软件流水是一种重要的指令调度技术,它通过同时执行来自不同循环迭代的指令来加快循环的执行时间.随着处理器速度和访存速度差距越拉越大,访存指令尤其是cache miss的访存指令日益成为系统性能提高的瓶颈.由于这些指令的延迟不是固定的... 软件流水是一种重要的指令调度技术,它通过同时执行来自不同循环迭代的指令来加快循环的执行时间.随着处理器速度和访存速度差距越拉越大,访存指令尤其是cache miss的访存指令日益成为系统性能提高的瓶颈.由于这些指令的延迟不是固定的,如何在软件流水中预测并掩盖这些访存指令的延迟是非常重要的.与前人预测访存延迟的方法不同,引入cache profiling技术,通过动态收集到profile信息来预测访存延迟,并进行适当的调度.当增加模调度循环中的访存指令的延迟时,启动间隔也会随之增大,导致性能不会随之上升.CSMS算法和FLMS算法在尽量不增大启动间隔的情况下,改变访存指令的延迟.改进了CSMS算法和FLMS算法,根据cache profiling的信息来改变访存延迟,所以比前人的方法更为准确.实验表明,新方法可以有效地提高程序性能,对SPEC2000测试程序平均性能提高1%左右,个别例子的性能改进高达11%. 展开更多
关键词 软件流水 模调度 CACHE PRofILING 访存延迟 高性能计算
下载PDF
基于RDMA的区块传输机制设计与实现 被引量:2
3
作者 孙栋 王彪 徐云 《计算机应用》 CSCD 北大核心 2023年第2期484-489,共6页
随着区块链技术的不断发展,区块的传输延迟成为区块链系统可扩展性的性能瓶颈。远程直接内存访问(RDMA)技术能够支持高带宽和低时延的数据传输,为低延迟区块传输提供了新的思路。因此,结合RDMA原语的特性,设计了用于区块信息共享的区块... 随着区块链技术的不断发展,区块的传输延迟成为区块链系统可扩展性的性能瓶颈。远程直接内存访问(RDMA)技术能够支持高带宽和低时延的数据传输,为低延迟区块传输提供了新的思路。因此,结合RDMA原语的特性,设计了用于区块信息共享的区块目录结构,并在此基础上设计并实现了区块传输的基本工作过程。实验结果表明,相较于基于TCP的方案,在1 MB大小的区块上基于RDMA的区块传输机制将节点间的区块传输延迟降低了44%,全网络的区块传输延迟降低了24.4%,在10000节点规模的区块链上,区块链发生临时分叉的数量降低了22.6%。可见,基于RDMA的区块传输机制充分发挥了高速网络的性能优势,降低了区块传输延迟及临时分叉的数量,提高了现有区块链系统的可扩展性。 展开更多
关键词 区块链 远程直接内存访问 可扩展性 区块传输 低延迟
下载PDF
软件流水中隐藏存储延迟的方法 被引量:6
4
作者 刘利 李文龙 +2 位作者 陈彧 李胜梅 汤志忠 《软件学报》 EI CSCD 北大核心 2005年第10期1833-1841,共9页
软件流水是一种重要的指令调度技术,它通过同时执行来自不同循环体的指令来加快循环的执行速度.随着处理机运行速度的逐渐提高,存储访问延迟成为性能提高的瓶颈.为了减轻存储系统影响,软件流水结合了一些存储优化技术,通过隐藏存储延迟... 软件流水是一种重要的指令调度技术,它通过同时执行来自不同循环体的指令来加快循环的执行速度.随着处理机运行速度的逐渐提高,存储访问延迟成为性能提高的瓶颈.为了减轻存储系统影响,软件流水结合了一些存储优化技术,通过隐藏存储延迟来提高性能.提出了一种延迟可预测的模调度算法(foresightedlatencymoduloscheduling,简称FLMS),它根据循环的特点来确定load指令延迟.实验结果表明,FLMS算法减少了阻塞时间,提高了程序性能. 展开更多
关键词 软件流水 模调度涪储延迟 FLMS(foresighted latency modulo scheduling)
下载PDF
EPIC微体系结构的存储级并行执行模型的研究 被引量:1
5
作者 邓让钰 陈海燕 +2 位作者 邢座程 谢伦国 曾献君 《计算机学报》 EI CSCD 北大核心 2007年第1期74-80,共7页
描述了一种可以有效提高存储级并行(Memory Level Parallelism,MLP)的指令优化锁步执行模型———OLSM(Opti mized Lock-Step execution Model)执行模型,并建立了一种能体现OLSM模型思想的层次存储结构.OLSM允许显示并行指令计算(Explic... 描述了一种可以有效提高存储级并行(Memory Level Parallelism,MLP)的指令优化锁步执行模型———OLSM(Opti mized Lock-Step execution Model)执行模型,并建立了一种能体现OLSM模型思想的层次存储结构.OLSM允许显示并行指令计算(Explicit Parallel Instruction Computing,EPIC)微处理器实现一定程度的乱序执行,解决了传统超长指令字(Very Long Instruction Word,VLI W)锁步执行的缺陷,可以充分利用结构中的大量计算和存储资源,最大化隐藏存储延迟、提高MLP. 展开更多
关键词 显示并行指令计算 单位延迟 非单位延迟 存储级并行 优化的锁步执行模型
下载PDF
一种改进的多核处理器硬件预取技术 被引量:2
6
作者 方娟 张红波 《计算机科学》 CSCD 北大核心 2012年第S2期48-50,64,共4页
存储访问延迟一直是制约计算机系统整体性能的瓶颈,多核处理器的出现使"存储墙"问题更加严重。预取技术可以隐藏存储访问延迟,因此基于多核处理器的预取技术最近成为学术界研究的热点。研究了目前较为新颖的多核处理器预取技... 存储访问延迟一直是制约计算机系统整体性能的瓶颈,多核处理器的出现使"存储墙"问题更加严重。预取技术可以隐藏存储访问延迟,因此基于多核处理器的预取技术最近成为学术界研究的热点。研究了目前较为新颖的多核处理器预取技术Future execution,然后针对其缺陷提出改进,即提出了FE-Runahead架构,其减少了二级Cache访问缺失,提高了二级Cache命中率。实验结果表明,改进后的预取架构的二级Cache命中率提高了约9%,相对执行时间减少了8%。 展开更多
关键词 CMP 访存模式 存储访问延迟 指令窗口
下载PDF
大规模点云内外存调度绘制技术 被引量:5
7
作者 张毅 吕秀琴 《计算机工程》 CAS CSCD 2014年第1期49-54,共6页
为实现大规模点云的快速绘制,提出以部分内存访问机制为基础、以节点点数上限为叶节点形成条件的平衡八叉树存储结构。设计点云内外存调度绘制流程,包括节点可见性判断、内外存数据调度和点云绘制等环节。为提高可见性判断的效率,在视... 为实现大规模点云的快速绘制,提出以部分内存访问机制为基础、以节点点数上限为叶节点形成条件的平衡八叉树存储结构。设计点云内外存调度绘制流程,包括节点可见性判断、内外存数据调度和点云绘制等环节。为提高可见性判断的效率,在视点与节点距离、夹角约束条件的基础上给出节点可视半径约束。利用实测大规模点云数据进行实验,结果证明,该技术可以在有限的内存资源条件下,以较小的内存消耗实现上亿级规模点云从整体到局部的流畅绘制。 展开更多
关键词 大规模点云 平衡八叉树 内外存调度 部分内存访问 可见性判断 点云绘制
下载PDF
多核处理器预取策略的研究 被引量:1
8
作者 方娟 张红波 《微电子学与计算机》 CSCD 北大核心 2010年第8期74-76,共3页
多核处理器的内存和Cache共享策略使内存访问延迟成为影响多核处理器性能的瓶颈,预取技术能够隐藏访问延迟,对提高多核处理器的性能有重要意义.分析并比较了一系列典型的预取策略,讨论了它们的优缺点,对几种新颖的基于硬件的多核预取技... 多核处理器的内存和Cache共享策略使内存访问延迟成为影响多核处理器性能的瓶颈,预取技术能够隐藏访问延迟,对提高多核处理器的性能有重要意义.分析并比较了一系列典型的预取策略,讨论了它们的优缺点,对几种新颖的基于硬件的多核预取技术提出了改进方案,讨论了在多核处理器体系结构下,预取策略面临的挑战和必须考虑的设计问题,为多核预取提供了创新的思路. 展开更多
关键词 指令窗口 预执行预取 存储访问延迟 乱序执行
下载PDF
片上网络的访存延迟均衡性
9
作者 李洋 陈小文 +1 位作者 赵晓晖 杨勇 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2015年第5期1624-1630,共7页
对片上网络访存延迟均衡性展开了研究,提出基于总延迟预测的访存报文仲裁技术。首先,依据访存报文后续路径的拥塞信息预测访存报文未来等待延迟,并计算出总延迟。其次,基于预测的总延迟对竞争同一链路的访存报文进行仲裁。在Mesh片上网... 对片上网络访存延迟均衡性展开了研究,提出基于总延迟预测的访存报文仲裁技术。首先,依据访存报文后续路径的拥塞信息预测访存报文未来等待延迟,并计算出总延迟。其次,基于预测的总延迟对竞争同一链路的访存报文进行仲裁。在Mesh片上网络路由器中,对该技术进行了设计和实现。实验结果表明:在不同的网络规模和报文注入率下,与经典Round-Robin仲裁机制相比,本文技术能够极大减少片上访存的最大延迟和延迟标准差,减少平均延迟,证明能够获得更佳的访存延迟均衡性。 展开更多
关键词 通信技术 片上网络 访存延迟 众核架构 仲裁技术 均衡性
下载PDF
基于多重分割结构上的矩阵分割算法
10
作者 陈军 李晓梅 《计算机工程与应用》 CSCD 北大核心 1999年第2期31-33,共3页
文章在虚共享存储并行系统上建立了矩阵分割的多重结构,提出了一个基于此结构上的矩阵分割算法,能有效避免多处理机间的访存冲突问题,并基本实现分配的负载平衡。文章中所建立的这种多重结构,通用性较强,如用于矩阵乘和矩阵求逆操... 文章在虚共享存储并行系统上建立了矩阵分割的多重结构,提出了一个基于此结构上的矩阵分割算法,能有效避免多处理机间的访存冲突问题,并基本实现分配的负载平衡。文章中所建立的这种多重结构,通用性较强,如用于矩阵乘和矩阵求逆操作。另外还给出了能嵌入矩阵操作之前的程序流程图,并给出了实验数据。 展开更多
关键词 虚共享存储 矩阵分割 负载平衡 算法 计算机
下载PDF
NUMA架构内多个节点间访存延时平衡的内存分配策略 被引量:4
11
作者 李慧娟 栾钟治 +2 位作者 王辉 杨海龙 钱德沛 《计算机学报》 EI CSCD 北大核心 2017年第9期2111-2126,共16页
随着多核架构的发展和普及,NUMA多核架构凭借其本地访存低延时的优势,被各大商业数据中心以及科学计算集群广泛采用.NUMA架构通过增加多个内存控制器,缓解了多核架构下对同一个内存控制器的争用问题,但同时也增加了内存管理的负担.Linu... 随着多核架构的发展和普及,NUMA多核架构凭借其本地访存低延时的优势,被各大商业数据中心以及科学计算集群广泛采用.NUMA架构通过增加多个内存控制器,缓解了多核架构下对同一个内存控制器的争用问题,但同时也增加了内存管理的负担.Linux的系统开发者为了实现充分利用NUMA本地访存低延时的特点,在为进程分配内存时,选择进程当前正在运行的NUMA节点作为分配内存的目标节点.这种分配会导致进/线程之间共享内存的不公平.例如,一个在当前本地节点被分配很多内存的进程,可能被调度到远端节点运行,这样会导致进程的性能波动.针对这一问题,该文设计了一种保证NUMA架构内各内存节点间访存延时平衡的内存分配策略,并在Linux系统中实现和验证.延时的获取方法依赖平台,但是系统内核的策略是通用的.实验结果表明,与Linux默认的内存分配策略相比,进/线程间的不公平性平均降低了16%(最多34%),并且各进/线程的性能没有较大抖动. 展开更多
关键词 NUMA架构 内存分配策略 访存延时 访存延时感知 访存延时平衡
下载PDF
基于ESCA系统的层次化显式访存机制研究 被引量:2
12
作者 饶金理 吴丹 +4 位作者 陈攀 董冕 邓承诺 戴葵 邹雪城 《计算机工程》 CAS CSCD 北大核心 2011年第22期24-27,34,共5页
针对高性能混合计算系统中的存储墙问题,在分析其计算模式特点及传统访存机制局限性的基础上,提出适用于混合计算系统的层次化显式存储访问机制,并基于ESCA多核处理器系统进行实现和评测。实验结果显示,针对核心应用程序DGEMM,延迟隐藏... 针对高性能混合计算系统中的存储墙问题,在分析其计算模式特点及传统访存机制局限性的基础上,提出适用于混合计算系统的层次化显式存储访问机制,并基于ESCA多核处理器系统进行实现和评测。实验结果显示,针对核心应用程序DGEMM,延迟隐藏能够占据整体运行时间的56%,并获得1.5倍的加速比,能弥补计算与存储访问间的速度差异,提高系统计算效率。 展开更多
关键词 混合计算 存储墙 多核处理器 ESCA系统 层次化显示存储访问 延迟隐藏
下载PDF
图计算加速架构综述 被引量:5
13
作者 严明玉 李涵 +5 位作者 邓磊 胡杏 叶笑春 张志敏 范东睿 谢源 《计算机研究与发展》 EI CSCD 北大核心 2021年第4期862-887,共26页
在大数据时代,图被用于各种领域表示具有复杂联系的数据.图计算应用被广泛用于各种领域,以挖掘图数据中潜在的价值.图计算应用特有的不规则执行行为,引发了不规则负载、密集读改写更新操作、不规则访存和不规则通信等挑战.现有通用架构... 在大数据时代,图被用于各种领域表示具有复杂联系的数据.图计算应用被广泛用于各种领域,以挖掘图数据中潜在的价值.图计算应用特有的不规则执行行为,引发了不规则负载、密集读改写更新操作、不规则访存和不规则通信等挑战.现有通用架构无法有效地应对上述挑战.为了克服加速图计算应用面临的挑战,大量的图计算硬件加速架构设计被提出.它们为图计算应用定制了专用的计算流水线、访存子系统、存储子系统和通信子系统.得益于这些定制的硬件设计,图计算加速架构相比于传统的通用处理器架构,在性能和能效上均取得了显著的提升.为了让相关的研究学者深入了解图计算硬件加速架构,首先基于计算机的金字塔组织结构,从上到下对现有工作进行分类和总结,并以多个完整架构实例分析应用于不同层次的优化技术之间的关系.接着以图神经网络加速架构的具体案例讨论新兴图计算应用的加速架构设计.最后对该领域的前沿研究方向进行了总结,并放眼于未来探讨图计算加速架构的发展趋势. 展开更多
关键词 图计算 图神经网络 加速架构 不规则访存 数据局部性 动态访存调度 负载均衡
下载PDF
利用数据预取机制降低块执行模型的访存延迟 被引量:2
14
作者 从明 安虹 +1 位作者 张军 任永青 《小型微型计算机系统》 CSCD 北大核心 2010年第8期1692-1696,共5页
块执行模型通过将串行程序划分成一系列可并行执行的指令块来挖掘应用中潜在的指令级并行性.访存延迟是阻碍块执行模型提高指令级并行性的主要因素之一,而数据预取技术在传统执行模型中可有效降低访存延迟,对块执行模型也同样具有较强... 块执行模型通过将串行程序划分成一系列可并行执行的指令块来挖掘应用中潜在的指令级并行性.访存延迟是阻碍块执行模型提高指令级并行性的主要因素之一,而数据预取技术在传统执行模型中可有效降低访存延迟,对块执行模型也同样具有较强的适应性.本文分析了在块执行模型中引入数据预取机制的可行性,并从cache命中率、访存指令的延迟等方面验证了数据预取在块执行模型中的作用,仿真结果表明数据预取可有效降低块执行模型中的访存延迟. 展开更多
关键词 数据预取 块执行模型 分片式处理器 访存延迟 访存命中率
下载PDF
软件流水循环缓冲的设计与实现 被引量:4
15
作者 陈纪孝 李勇 《计算机科学》 CSCD 北大核心 2013年第4期35-37,共3页
设计了一种软件流水循环缓冲,用于存储和派发循环体指令,减少执行循环程序时的访存次数,从而减少访存延迟对性能的影响。在详细研究软件流水和循环展开的基础上,完成了软件流水循环缓冲的设计。所设计的循环缓冲可以存储112条32位指令,... 设计了一种软件流水循环缓冲,用于存储和派发循环体指令,减少执行循环程序时的访存次数,从而减少访存延迟对性能的影响。在详细研究软件流水和循环展开的基础上,完成了软件流水循环缓冲的设计。所设计的循环缓冲可以存储112条32位指令,用循环专用指令来控制循环程序的执行。对设计进行了模拟验证,并用Design Com-plier对设计进行了综合。 展开更多
关键词 软件流水 循环缓冲 模调度 储存延迟
下载PDF
存储体系构建和存储系统性能研究
16
作者 胡勇 《电脑知识与技术》 2009年第9期7303-7304,7307,共3页
存储系是计算机系统的关键,它的性能的好坏、怎样组织直接影响着计算机的性能,本文重点在深入分析存储系统的性能的基础上来探讨存储体系的构建,构建良好的存储系统是计算机控制系统,单片机控制系统的关键,存储系统构建的好坏,直... 存储系是计算机系统的关键,它的性能的好坏、怎样组织直接影响着计算机的性能,本文重点在深入分析存储系统的性能的基础上来探讨存储体系的构建,构建良好的存储系统是计算机控制系统,单片机控制系统的关键,存储系统构建的好坏,直接影响着前端的数据采集和系统控制。 展开更多
关键词 频带平衡 并行访问 交叉访问 存储系统
下载PDF
面向分布式内存访问的低延迟InfiniBand接口 被引量:1
17
作者 刘英文 唐玉华 易晓东 《计算机研究与发展》 EI CSCD 北大核心 2014年第S1期123-129,共7页
分布式内存文件系统将所有数据存放在内存中,能够大大提高数据吞吐率和降低数据访问延迟.采用高带宽、低延迟的互联方案连接各个存储节点,是实现高性能分布式内存文件系统的关键.主要研究InfiniBand接口技术,通过通信接口直连、层次结... 分布式内存文件系统将所有数据存放在内存中,能够大大提高数据吞吐率和降低数据访问延迟.采用高带宽、低延迟的互联方案连接各个存储节点,是实现高性能分布式内存文件系统的关键.主要研究InfiniBand接口技术,通过通信接口直连、层次结构精简和报文格式优化等途径,基于FPGA设计并实现一种低延迟的互联方案.测试结果表明,采用该方案在16B数据负载的情况下可以达到1.31μs的低延迟. 展开更多
关键词 INFINIBAND HCA 低延迟 内存访问 FPGA
下载PDF
优化内存系统能效的DRAM架构研究综述 被引量:1
18
作者 展旭升 包云岗 孙凝晖 《高技术通讯》 EI CAS 北大核心 2018年第9期794-812,共19页
介绍了不同层次优化内存系统能效研究的现状,对通过修改动态随机存取存储器(DRAM)架构优化内存系统能效的研究进行了详细论述。概述了通过修改内存控制器和操作系统实现的高能效DRAM系统的研究。着重介绍了通过修改DRAM架构实现内存系... 介绍了不同层次优化内存系统能效研究的现状,对通过修改动态随机存取存储器(DRAM)架构优化内存系统能效的研究进行了详细论述。概述了通过修改内存控制器和操作系统实现的高能效DRAM系统的研究。着重介绍了通过修改DRAM架构实现内存系统能效优化的研究,并将这些研究分为"低延迟的DRAM架构"和"低功耗的DRAM架构"两大类进行介绍,其中低延迟架构的研究包括优化关键操作、降低平均访存延迟以及提升请求并发度等3个方面;低功耗的架构研究包括细粒度激活、低功耗与低频率芯片、优化写操作、优化刷新操作以及多粒度访存等5个方面。最后给出了关于修改DRAM架构实现内存能效优化的总结和展望。 展开更多
关键词 内存 动态随机存取存储器(DRAM) 内存控制器 架构 能效 低延迟 低功耗
下载PDF
多核处理器P2020的访存实时性分析与优化 被引量:4
19
作者 段宇博 王乐 《航空计算技术》 2015年第3期108-112,共5页
多核处理器以其高集成度、高性能功耗比的特点,获得了军事、电信、网络等领域的关注,但多个处理核心对共享资源的抢占带来的实时性问题阻碍了多核处理器在上述领域的应用。面向实时性的代表指标——访存时间,以P2020为研究对象,分析了... 多核处理器以其高集成度、高性能功耗比的特点,获得了军事、电信、网络等领域的关注,但多个处理核心对共享资源的抢占带来的实时性问题阻碍了多核处理器在上述领域的应用。面向实时性的代表指标——访存时间,以P2020为研究对象,分析了其实时性的影响因素,采用可变步长的模型,对各种影响因素进行了定量的测试与分析,为多核处理器访存实时性的优化提供了参考。 展开更多
关键词 多核 实时性 访存延迟 测试
下载PDF
CC-NUMA结构下共享变量并行计算的研究
20
作者 李岱峰 许忆南 《计算机工程》 CAS CSCD 北大核心 2004年第B12期89-90,113,共3页
探讨了如何提高CC-NUMA结构下共享变量程序的并行效率。主要介绍了几种有效的负载均衡策略和减少共享存储访问延迟的优化 手段。通过分析可以看出,通过合适的优化方法,CC-NUMA结构下共享变量的应用程序可以取得好的并行效率。
关键词 Cache一致性非均匀存储器访问 负载均衡 任务粒度 访问延迟
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部