期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
CC-NUMA系统分布共享I/O的数据一致性维护 被引量:1
1
作者 庞征斌 李琼 +2 位作者 李永进 张峻 徐炜遐 《计算机研究与发展》 EI CSCD 北大核心 2007年第z1期226-232,共7页
Cache一致性维护是构建共享存储多处理器系统的关键,分布共享I/O系统和I/O数据一致性维护的实现方式将直接影响CC-NUMA系统的性能.基于大规模CC-NUMA系统SCCMP (scalable cache coherence multi-processors),构造并实现了基于HyperTrans... Cache一致性维护是构建共享存储多处理器系统的关键,分布共享I/O系统和I/O数据一致性维护的实现方式将直接影响CC-NUMA系统的性能.基于大规模CC-NUMA系统SCCMP (scalable cache coherence multi-processors),构造并实现了基于HyperTransport互连架构的分布共享I/O子系统,由硬件维护I/O设备DMA访问的数据一致性,解决分布式缓存一致性问题.重点分析了I/O访问对Cache协议的影响,介绍了I/O数据一致性维护策略和硬件实现机制,并基于FPGA验证平台进行了系统I/O性能分析与评测. 展开更多
关键词 CACHE一致性 分布共享I/O cc-numa
下载PDF
CC-NUMA系统中一种块传输通讯机制的设计与实现 被引量:1
2
作者 张峻 庞征斌 +3 位作者 郑义 谢旻 徐炜遐 周兴铭 《计算机工程与科学》 CSCD 2008年第1期138-141,共4页
本文描述了一种CC-NUMA结点控制器内实现的通信机制,通信请求通过描述符进行提交,利用CC-NUMA硬件实现的Cache一致性协议,实现高性能的一致性数据传输。基于这种通信机制,实现了高速通信软件接口,使用用户级通信技术,将硬件的通讯功能... 本文描述了一种CC-NUMA结点控制器内实现的通信机制,通信请求通过描述符进行提交,利用CC-NUMA硬件实现的Cache一致性协议,实现高性能的一致性数据传输。基于这种通信机制,实现了高速通信软件接口,使用用户级通信技术,将硬件的通讯功能抽象出来给应用层使用,在测试中获得了较好的性能。 展开更多
关键词 cc-numa 描述符 一致性块传输 通信接口
下载PDF
基于CC-NUMA系统模拟器的并行程序性能分析 被引量:1
3
作者 陈渝 庞立会 +1 位作者 杨学军 陈福接 《计算机工程与科学》 CSCD 2001年第1期86-89,96,共5页
针对 CC- NUMA并行系统的特点 ,本文描述了模拟器—AMY的设计与实现。该模拟器运行在 x86PC机上的 L inux操作系统环境下 ,采用多项优化技术 ,能够较精确地统计并行程序的时间开销和 CC- NUMA并行系统的各项参数 ,具有执行速度快、精度... 针对 CC- NUMA并行系统的特点 ,本文描述了模拟器—AMY的设计与实现。该模拟器运行在 x86PC机上的 L inux操作系统环境下 ,采用多项优化技术 ,能够较精确地统计并行程序的时间开销和 CC- NUMA并行系统的各项参数 ,具有执行速度快、精度高和内存开销小等特点。在 AMY模拟器环境下 ,通过对几个典型的并行测试程序的模拟执行 ,文章给出了统计的模拟结果 ,分析了并行测试程序的执行行为和开销 ,最后得出了在 CC- NUMA并行系统中对并行程序进行性能优化的有益的指导原则。 展开更多
关键词 cc-numa 并行系统模拟器 性能分析 并行程序
下载PDF
CC-NUMA并行系统通信优化的变换技术
4
作者 陈渝 nudt.edu.cn +2 位作者 李春江 杨学军 陈福接 《软件学报》 EI CSCD 北大核心 2000年第4期507-514,共8页
减少通信开销是并行编译优化的主要目标之一 .该文针对具有 cache一致性的非一致存储访问并行系统 ( CC- NUMA)的特点 ,提出通过结合计算变换和数据变换 ,在统一的代数框架下对并行程序进行通信优化的策略和方法 .通过实验测试 。
关键词 并行编译 通信优化 数据变换 cc-numa
下载PDF
一种CC-NUMA系统模拟环境的研究与实现
5
作者 庞立会 陈渝 《计算机工程》 EI CAS CSCD 北大核心 2005年第3期82-85,共4页
描述了CC-NUMA模拟环境——AMY的研究与实现。它采用多项优化技术,能在X86 PC机上的Linux操作系统环境下运行,能够较精确地统计并行程序的时间开销和CC-NUMA并行系统的各项参数,它特别适合于分析并行程序在CC-NUMA系统下的执行行为和开... 描述了CC-NUMA模拟环境——AMY的研究与实现。它采用多项优化技术,能在X86 PC机上的Linux操作系统环境下运行,能够较精确地统计并行程序的时间开销和CC-NUMA并行系统的各项参数,它特别适合于分析并行程序在CC-NUMA系统下的执行行为和开销,能够有效指导并行程序的优化和对CC-NUMA并行系统进行深入研究。最后将AMY模拟环境与CC-NUMA系统以及其它的模拟环境进行比较分析,对它的精确性、灵活性和有效性进行了检验。 展开更多
关键词 并行程序 cc-numa 并行系统 LINUX操作系统 开销 PC机 模拟环境 有效指导 灵活性 有效性
下载PDF
面向多核NUCA共享数据竞争问题的Bank一致性技术
6
作者 吴俊杰 潘晓辉 《计算机工程与科学》 CSCD 北大核心 2009年第11期21-24,49,共5页
非一致Cache体系结构(NUCA)几乎已经成为未来片上大容量cache的发展方向。多核处理器的NUCA结构中,多个处理器核对共享数据的竞争访问,可能导致数据经常处于中部的cache Bank,增加NUCA的访问延迟。本文提出支持数据副本的Bank一致性技术... 非一致Cache体系结构(NUCA)几乎已经成为未来片上大容量cache的发展方向。多核处理器的NUCA结构中,多个处理器核对共享数据的竞争访问,可能导致数据经常处于中部的cache Bank,增加NUCA的访问延迟。本文提出支持数据副本的Bank一致性技术,通过有选择地在NUCA中为访问的处理器核创建不同的数据副本,Bank一致性技术能够缓解多核处理器对共享数据的竞争问题。本文详细地介绍了Bank一致性协议的设计方法。最后,使用全系统模拟器对8个NPB基准测试程序进行了详细评测。实验结果表明,Bank一致性技术能够有效缓解多核处理器中共享数据的竞争访问问题。相比不支持Bank一致性技术的CMP-DNUCA结构,本文的方法能将系统IPC性能平均提升5.95%。 展开更多
关键词 非一致高速缓存 数据竞争 多核 存储体一致性 高速缓存一致性
下载PDF
面向CC-NUMA体系结构的事务内存冲突规避方法 被引量:1
7
作者 王睿伯 卢锡城 +1 位作者 卢凯 王绍刚 《计算机学报》 EI CSCD 北大核心 2011年第4期676-683,共8页
现有的事务内存研究主要面向多核处理器和SMP机器,缺少对CC-NUMA系统的研究.而CC-NUMA是高端服务器的重要体系结构,随着用户对并行处理能力需求的不断上升,高端服务器将占据越来越重要的地位.文中概要阐述事务内存研究的基本情况,通过... 现有的事务内存研究主要面向多核处理器和SMP机器,缺少对CC-NUMA系统的研究.而CC-NUMA是高端服务器的重要体系结构,随着用户对并行处理能力需求的不断上升,高端服务器将占据越来越重要的地位.文中概要阐述事务内存研究的基本情况,通过详尽的实验数据,深入分析了CC-NUMA结构的本地、远程访存差异特性对事务内存性能的影响,提出了一种面向CC-NUMA体系结构的冲突规避方法PBC.PBC在事务启动之前,对冲突可能性进行预测,并根据预测结果对事务进行调度,以降低事务的失败率.实验表明,文中提出的PBC方法可以显著提高CC-NUMA机器上运行事务内存的整体性能. 展开更多
关键词 事务内存 cc-numa 冲突规避
下载PDF
CC-NUMA架构下4路龙芯3B服务器设计与实现 被引量:2
8
作者 张鹏 《计算机工程与科学》 CSCD 北大核心 2018年第12期2141-2145,共5页
针对特定领域中服务器的高性能计算、高带宽通信以及自主可控需求,在分析龙芯3B3000处理器架构特点的基础上,设计了基于CC-NUMA并行处理架构的4路龙芯3B3000高性能服务器核心模块,通过使用TOE芯片提高了网络响应效率,同时大幅降低了10G... 针对特定领域中服务器的高性能计算、高带宽通信以及自主可控需求,在分析龙芯3B3000处理器架构特点的基础上,设计了基于CC-NUMA并行处理架构的4路龙芯3B3000高性能服务器核心模块,通过使用TOE芯片提高了网络响应效率,同时大幅降低了10G以太网接口对处理器资源的占用消耗,有效提高了服务器的综合性能。通过测试验证,该服务器能够实现高效的并行计算能力和10G以太网通信能力,且国产元器件种类占比和数量占比均可达95%以上。 展开更多
关键词 服务器 cc-numa 龙芯3B3000 TOE 自主可控
下载PDF
CC-NUMA多处理机操作系统设计
9
作者 冯朝辉 潘清 《装备指挥技术学院学报》 2002年第1期61-66,共6页
多处理机系统是实现并行处理的高效低价的选择,要发挥多处理机系统的性能必须要有相应的软件支撑,这中间最为重要的就是操作系统.CC-NUMA结构的多处理机系统以其紧耦合性和良好的可扩展性而得到了日益广泛的应用,本文讨论了CC-NUMA技术... 多处理机系统是实现并行处理的高效低价的选择,要发挥多处理机系统的性能必须要有相应的软件支撑,这中间最为重要的就是操作系统.CC-NUMA结构的多处理机系统以其紧耦合性和良好的可扩展性而得到了日益广泛的应用,本文讨论了CC-NUMA技术的特点,并重点论述了CC-NUMA结构的多处理机系统S1000的操作系统设计及其扩展. 展开更多
关键词 多处理机系统 分布共享存储器 操作系统 cc-numa
下载PDF
基于NUCA结构的同构单芯片多处理器 被引量:1
10
作者 陈宏铭 林昶志 陈麒安 《中国集成电路》 2011年第11期32-38,54,共8页
非一致Cache体系结构(NUCA)几乎已经成为未来片上大容量Cache的发展方向。本文指出同构单芯片多处理器的设计主要有多级Cache设计的数据一致性问题,核间通信问题与外部总线效率问题,我们也说明多处理器设计上的相应解决办法。最后给出... 非一致Cache体系结构(NUCA)几乎已经成为未来片上大容量Cache的发展方向。本文指出同构单芯片多处理器的设计主要有多级Cache设计的数据一致性问题,核间通信问题与外部总线效率问题,我们也说明多处理器设计上的相应解决办法。最后给出单核与双核在性能、功耗的比较,以及双核处理器的布局规划图。利用双核处理器,二级Cache控制器与AXI总线控制器等IP提出一个可供设计AXI总线SoC的非一致Cache体系结构平台。 展开更多
关键词 非一致Cache体系结构 同构单芯片多处理器 FMP626 缓存 AXI SOC
下载PDF
CC-NUMA时代到来——谈新一代可扩展共享存储并行处理机的发展
11
作者 孟念青 袁国兴 《中国经济和信息化》 1999年第19期25-26,共2页
在实际应用对高计算性能永无休止的追求过程中,随着众多新技术、新材料和新工艺的出现,并行处理技术已取得长足进步。自进入以存储系统为中心的体系结构时代,并行处理技术已经成为现代计算机设计的关键技术。
关键词 并行处理机 cc-numa 分布共享存储 体系结构 可扩展性 NUMA 存储带宽 存储系统 节点内 系统利用率
下载PDF
MPD:结点具有多个并行缓存一致性域的CC-NUMA系统
12
作者 陈继承 赵雅倩 +3 位作者 李一韩 王恩东 史宏志 唐士斌 《计算机研究与发展》 EI CSCD 北大核心 2017年第4期775-786,共12页
大规模高速缓存一致性非均匀存储访问(cache coherence non-uniform memory access,CC-NUMA)系统通常采用两级一致性域方法来降低缓存一致性协议维护开销,提升系统性能.两级一致性域系统中,多个处理器互连,形成结点内一致性域;多个结点... 大规模高速缓存一致性非均匀存储访问(cache coherence non-uniform memory access,CC-NUMA)系统通常采用两级一致性域方法来降低缓存一致性协议维护开销,提升系统性能.两级一致性域系统中,多个处理器互连,形成结点内一致性域;多个结点互连,形成结点间一致性域.然而,受限于处理器直连能力与处理器可识别ID数,系统的单结点规模有限,系统规模的扩展不得不依靠增加结点数来实现,使得大规模CC-NUMA系统的结点间互连复杂度上升,跨结点访问带宽和延迟急剧增长,影响了系统性能的有效扩展.MPD系统通过在结点内构建多个并行缓存一致性域,突破了处理器直连能力与可识别ID数对单结点规模的限制,能够大幅减少结点数量,并将部分结点间访问转化为结点内访问,实现系统性能的有效扩展.理论分析和实验结果表明:采用同规格处理器的32路系统中,结点内4个并行缓存一致性域的MPD系统可实现结点数目减少75%、一致性目录存储开销节省40%以上、平均访问延迟降低约27.9%、系统整体性能提升约14.4%. 展开更多
关键词 cc-numa系统 两级一致性域 并行缓存一致性域 一致性协同芯片 系统可扩展性
下载PDF
CC-NUMA体系结构的超立方体连接
13
作者 明欣 《中国经济和信息化》 1998年第26期36-36,共1页
在商用高端服务器领域,带宽瓶颈是性能提高的主要局限所在。CC-NUMA技术为普通的商业用户带来良好的性能价格比,它摈弃了传统的总线方式而采取了一种超立方体连接的体系结构。本文将向读者介绍这一技术。 为使讨论简化,我们可把CC-NUMA... 在商用高端服务器领域,带宽瓶颈是性能提高的主要局限所在。CC-NUMA技术为普通的商业用户带来良好的性能价格比,它摈弃了传统的总线方式而采取了一种超立方体连接的体系结构。本文将向读者介绍这一技术。 为使讨论简化,我们可把CC-NUMA体系结构看作由两个基本部件组成:结点和路由器。结点是一个装有2个CPN的线路板,路由器是一个纵横开关芯片,该芯片装在路由器板上。 展开更多
关键词 超立方体连接 cc-numa 路由器 体系结构 超立方体结构 带宽瓶颈 连接数 结点板 高端服务器 二等分
下载PDF
机群Open MP系统的设计与实现 被引量:8
14
作者 吴少刚 章隆兵 +2 位作者 蔡飞 顾丽红 唐志敏 《计算机学报》 EI CSCD 北大核心 2004年第7期904-912,共9页
OpenMP以其易用性和支持增量并行的特点成为共享存储体系结构的编程标准 .目前机群系统已成为高性能计算的主流平台 ,研究机群OpenMP系统对推进并行应用的开发和普及非常有意义 .该文作者以软件DSM系统JIAJIA作为OpenMP的运行时系统 ,... OpenMP以其易用性和支持增量并行的特点成为共享存储体系结构的编程标准 .目前机群系统已成为高性能计算的主流平台 ,研究机群OpenMP系统对推进并行应用的开发和普及非常有意义 .该文作者以软件DSM系统JIAJIA作为OpenMP的运行时系统 ,结合一个前端编译器OMP2JIA ,在机群系统上实现了OpenMP/JIAJIA计算环境 ,同时在提高性能方面根据机群系统特点扩展了OpenMP制导 ,优化了后端运行时库 .通过 11个OpenMP应用 ,作者比较了该计算环境和一个支持OpenMP的硬件cc NUMA系统 (SGI 2 10 0 )的性能 .结果表明 ,作者的机群OpenMP系统的 7机平均加速比为 4 .6 2 ;SGI 2 10 0系统为 4 .5 5 ,二者性能相当 . 展开更多
关键词 OPENMP cc-numa 软件DSM系统 机群计算 JIAJIA
下载PDF
新型高性能RapidIO互连技术研究 被引量:20
15
作者 尹亚明 李琼 +1 位作者 郭御风 刘光明 《计算机工程与科学》 CSCD 2004年第12期85-87,107,共4页
本文较为全面地介绍了RapidIO的主要技术特点 ,从RapidIO的体系结构、系统拓扑结构、物理接口、流控机制、报文特征、性能特点等多个方面对RapidIO互连技术进行了深入研究 ,并提出了一种基于RapidIO互连技术的CC
关键词 互连技术 IO cc-numa 共享存储 体系结构 流控 物理接口 拓扑结构 报文 主要技术
下载PDF
面向非一致Cache的智能多跳提升技术 被引量:4
16
作者 吴俊杰 潘晓辉 杨学军 《计算机学报》 EI CSCD 北大核心 2009年第10期1887-1895,共9页
非一致Cache体系结构(Non-Uniform Cache Architecture,NUCA)几乎已经成为未来片上大容量Cache的设计趋势.非一致Cache中,数据提升技术通过将经常访问的数据放置在距离处理器较近的Cache bank中减少处理器对该数据访问的等待时间,对NUC... 非一致Cache体系结构(Non-Uniform Cache Architecture,NUCA)几乎已经成为未来片上大容量Cache的设计趋势.非一致Cache中,数据提升技术通过将经常访问的数据放置在距离处理器较近的Cache bank中减少处理器对该数据访问的等待时间,对NUCA的性能有着重要影响.然而,目前已有的数据提升技术使用固定的提升策略,没有考虑所要提升到目标bank的实际状态,容易将目标bank中更有用的数据"挤"得远离处理器,从而产生Cache污染问题,严重制约了提升技术的性能发挥.针对这一问题,文中提出智能多跳提升技术.智能多跳提升技术能够感知候选目标bank的状态,为被提升的数据动态地选择合适的目标bank,从而提高了提升效率,减少了Cache污染.同时,智能多跳提升技术的设计巧妙地利用了处理器访问的反向路径,只是简单地扩充了处理器访问报文的格式,并没有增加对Cachebank的额外访问.最后使用全系统模拟器对来自NAS Parallel Benchmark和Livermore Benchmark的15个基准测试程序进行了详细测试,智能多跳提升技术单位提升操作节省的时钟周期数是已有提升技术的1.50倍,最多达到2.61倍;系统的IPC性能平均提高了6.24%,最高达到19.03%. 展开更多
关键词 高速缓存 非一致高速缓存 提升 数据迁移 智能
下载PDF
多核处理机系统Cache管理技术研究现状 被引量:2
17
作者 所光 杨学军 《计算机工程与科学》 CSCD 北大核心 2010年第7期65-68,共4页
多核处理器的Cache结构设计和管理是微处理器设计领域的重要问题。当前主流的商用微处理器均采用共享最后一级Cache的系统结构,而片上最后一级Cache的性能通常对处理器的性能影响较大,因此共享Cache的管理问题成为当前研究热点。本文首... 多核处理器的Cache结构设计和管理是微处理器设计领域的重要问题。当前主流的商用微处理器均采用共享最后一级Cache的系统结构,而片上最后一级Cache的性能通常对处理器的性能影响较大,因此共享Cache的管理问题成为当前研究热点。本文首先介绍当前主流多核处理器及其设计问题,然后介绍了共享Cache管理的三项重要技术:线程调度、NUCA和Cache划分,最后给出多核处理器Cache管理技术的发展方向。 展开更多
关键词 多核处理器 共享CACHE 线程调度 nuca CACHE划分
下载PDF
多核处理器片上存储系统研究 被引量:5
18
作者 黄安文 高军 张民选 《计算机工程》 CAS CSCD 北大核心 2010年第4期4-6,共3页
针对多核处理器计算能力和访存速度间差异不断增大对多核系统性能提升的制约问题,分析几款典型多核处理器存储系统的设计特点,探讨多核处理器片上存储系统发展的关键技术,包括延迟造成的非一致cache访问、核与cache互连形式对访存性能... 针对多核处理器计算能力和访存速度间差异不断增大对多核系统性能提升的制约问题,分析几款典型多核处理器存储系统的设计特点,探讨多核处理器片上存储系统发展的关键技术,包括延迟造成的非一致cache访问、核与cache互连形式对访存性能的束缚以及片上cache设计的复杂化等。 展开更多
关键词 多核 存储系统 非一致cache访问
下载PDF
未知互耦条件下基于四阶累量的非均匀圆阵波达方向估计算法(英文) 被引量:2
19
作者 叶中付 戴继生 《中国科学技术大学学报》 CAS CSCD 北大核心 2008年第7期770-775,共6页
基于互耦矩阵的特殊结构,给出了一种更具一般性的非均匀圆阵模型,提出了一种在未知互耦条件下的非均匀圆阵波达方向估计算法.由于采用了四阶累量,该算法可以估计出比阵元数更多信号的波达方向,并且对高斯噪声不敏感.由于未采用迭代算法... 基于互耦矩阵的特殊结构,给出了一种更具一般性的非均匀圆阵模型,提出了一种在未知互耦条件下的非均匀圆阵波达方向估计算法.由于采用了四阶累量,该算法可以估计出比阵元数更多信号的波达方向,并且对高斯噪声不敏感.由于未采用迭代算法,从而降低了算法运算复杂度.仿真实验证实了该算法的有效性. 展开更多
关键词 非均匀圆阵 互耦 波达方向 四阶累量 校准
下载PDF
页迁移系统中反向页表技术的设计与实现 被引量:1
20
作者 杜静 戴华东 杨学军 《计算机科学》 CSCD 北大核心 2004年第12期210-213,共4页
页迁移技术是实现CC-NUMA存储优化的一种重要策略,它动态开发了数据的局部性。页迁移策略的实现涉及到虚存系统中物理地址到虚拟地址的转换,传统做法需要遍历所有进程的虚拟地址空间,效率低、开销大。针对此问题,本文介绍了一种能够高... 页迁移技术是实现CC-NUMA存储优化的一种重要策略,它动态开发了数据的局部性。页迁移策略的实现涉及到虚存系统中物理地址到虚拟地址的转换,传统做法需要遍历所有进程的虚拟地址空间,效率低、开销大。针对此问题,本文介绍了一种能够高效实现物理地址到虚拟地址转换的技术——反向页表技术,着重介绍了反向页表的设计、实现和维护方法。 展开更多
关键词 页表 虚拟地址 物理地址 cc-numa 进程 遍历 迁移技术 系统 效率 策略
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部