期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
基于混合粒子群优化的CMP线程调度方法 被引量:1
1
作者 李静梅 张博 《计算机工程》 CAS CSCD 2012年第20期113-115,共3页
为提高片上多核处理器(CMP)架构中线程调度的执行效率,发挥CMP的并行性能,提出一种基于混合粒子群优化算法的线程调度方法。根据设计的线程调度模型,利用有向无环图表述线程及线程间的相互依赖关系,并采用改进的混合粒子群算法对其进行... 为提高片上多核处理器(CMP)架构中线程调度的执行效率,发挥CMP的并行性能,提出一种基于混合粒子群优化算法的线程调度方法。根据设计的线程调度模型,利用有向无环图表述线程及线程间的相互依赖关系,并采用改进的混合粒子群算法对其进行合理调度。实验结果表明,该方法的执行效率优于现有的遗传算法,能有效地降低任务的执行时间,充分发挥多核架构的优势。 展开更多
关键词 片上多核处理器 线程调度 粒子群优化算法 全局最优 局部最优 有向无环图 调度方法
下载PDF
Performance modeling of positive degraded task-pair with helper-thread in CMP
2
作者 Gu Zhimin Zheng Ninghan +3 位作者 Zhang Yi Liu Changding Tang Jie Huang Yan 《High Technology Letters》 EI CAS 2010年第3期221-226,共6页
Helper-thread of a task can hide the memory access time of irregular data on the chip muhi-core processor (CMP). For constructing a compiler that effectively supports the helper-thread of a task in the multi-core sc... Helper-thread of a task can hide the memory access time of irregular data on the chip muhi-core processor (CMP). For constructing a compiler that effectively supports the helper-thread of a task in the multi-core scenario based on the last level shared cache, this paper studies its performance stable condi- tions. Unfortunately, there is no existing model that allows extensive investigation of the impact of stable conditions, we present the base of pre-computation that is formalized by our degraded task-pair 〈 T, T' 〉 with the helper-thread, and its stable conditions are analyzed. Finally, a novel performance model and a constructing method of pre-computation based on our positive degraded task-pair are proposed. The efficient results are shown by our experiments. If we further exploit memory level parallelism (MLP) for our task-pair, the task-pair 〈 T, T' 〉 can reach better performance. 展开更多
关键词 chip multi-core processor (cmp helper-thread pre-computation performance model
下载PDF
Schedule refinement for homogeneous multi-core processors in the presence of manufacturing-caused heterogeneity
3
作者 Zhi-xiang CHEN Zhao-lin LI +2 位作者 Shan CAO Fang WANG Jie ZHOU 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2015年第12期1018-1033,共16页
Multi-core homogeneous processors have been widely used to deal with computation-intensive embedded applications. However, with the continuous down scaling of CMOS technology, within-die variations in the manufacturin... Multi-core homogeneous processors have been widely used to deal with computation-intensive embedded applications. However, with the continuous down scaling of CMOS technology, within-die variations in the manufacturing process lead to a significant spread in the operating speeds of cores within homogeneous multi-core processors. Task scheduling approaches, which do not consider such heterogeneity caused by within-die variations,can lead to an overly pessimistic result in terms of performance. To realize an optimal performance according to the actual maximum clock frequencies at which cores can run, we present a heterogeneity-aware schedule refining(HASR) scheme by fully exploiting the heterogeneities of homogeneous multi-core processors in embedded domains.We analyze and show how the actual maximum frequencies of cores are used to guide the scheduling. In the scheme,representative chip operating points are selected and the corresponding optimal schedules are generated as candidate schedules. During the booting of each chip, according to the actual maximum clock frequencies of cores, one of the candidate schedules is bound to the chip to maximize the performance. A set of applications are designed to evaluate the proposed scheme. Experimental results show that the proposed scheme can improve the performance by an average value of 22.2%, compared with the baseline schedule based on the worst case timing analysis. Compared with the conventional task scheduling approach based on the actual maximum clock frequencies, the proposed scheme also improves the performance by up to 12%. 展开更多
关键词 Schedule refining multi-core processor HETEROGENEITY Representative chip operating point
原文传递
环连接CMP模拟器:Godson-Ring
4
作者 曹非 《计算机工程与应用》 CSCD 2013年第9期13-18,49,共7页
片上互连结构和cache一致性协议是片上多核处理器(CMP)设计的关键。为了探索使用环形互连结构CMP的cache一致性协议设计空间,需要使用对环形互连结构和cache一致性协议进行精确模拟的CMP模拟器平台。Godson-Ring是一个环连接CMP的用户... 片上互连结构和cache一致性协议是片上多核处理器(CMP)设计的关键。为了探索使用环形互连结构CMP的cache一致性协议设计空间,需要使用对环形互连结构和cache一致性协议进行精确模拟的CMP模拟器平台。Godson-Ring是一个环连接CMP的用户态模拟器平台,采用功能和时序相分离的模拟方式,使用了事件驱动和执行驱动相结合的方法,周期精确地模拟了环形互连结构和cache一致性协议的硬件行为。该模拟器具有速度快和灵活性高的特点,能模拟多种cache一致性协议,可以快速、有效地探索环连接CMP的cache一致性协议设计空间。 展开更多
关键词 片上多核处理器 CACHE一致性协议 模拟器
下载PDF
一种分片式多核处理器的用户级模拟器 被引量:6
5
作者 黄琨 马可 +2 位作者 曾洪博 张戈 章隆兵 《软件学报》 EI CSCD 北大核心 2008年第4期1069-1080,共12页
随着片上晶体管资源的增多和互连线延迟的加大,分片式多核微处理器已成为多核处理器设计的新方向.为了对这种新型处理器进行体系结构的深入研究和设计空间的探索,设计并实现了针对分片式多核处理器的用户级多核性能模拟器.该多核模拟器... 随着片上晶体管资源的增多和互连线延迟的加大,分片式多核微处理器已成为多核处理器设计的新方向.为了对这种新型处理器进行体系结构的深入研究和设计空间的探索,设计并实现了针对分片式多核处理器的用户级多核性能模拟器.该多核模拟器在龙芯2号单处理器核的基础上,完整地模拟了基于目录的Cache一致性协议和存储转发式片上互联网络的结构模型,详细地刻画了由于系统乱序处理各种请求应答和请求之间的冲突而造成的时序特性,可以通过运行各种串行或并行的工作负载对多核处理器的各种重要性能指标加以评估,为多核处理器的结构设计提供了快速、灵活、高效的研究平台. 展开更多
关键词 分片式cmp(chip multiprocessor) 模拟器 片上网络 性能分析 龙芯2号微处理器
下载PDF
片上多核处理器共享资源分配与调度策略研究综述 被引量:9
6
作者 王磊 刘道福 +2 位作者 陈云霁 陈天石 李玲 《计算机研究与发展》 EI CSCD 北大核心 2013年第10期2212-2227,共16页
对于片上多核处理器,如何在多线程间公平有效地分配调度有限的共享资源是一个很重要的问题.随着处理器核规模的增长,多线程对于系统中有限的共享资源的争夺将愈发激烈,由此导致的对于系统性能的影响也将更加显著.为了缓解乃至解决这一问... 对于片上多核处理器,如何在多线程间公平有效地分配调度有限的共享资源是一个很重要的问题.随着处理器核规模的增长,多线程对于系统中有限的共享资源的争夺将愈发激烈,由此导致的对于系统性能的影响也将更加显著.为了缓解乃至解决这一问题,除了增加可用共享资源外,一个能够公平有效地在多线程间分配共享资源的调度算法也至关重要.在各类共享资源中,对于系统性能有着最大影响的是共享缓存和动态随机存储器(dynamic random-access memory,DRAM)系统.对于共享缓存,可以通过缓存分区来降低由于线程间的争夺所带来的影响;对于DRAM系统,可以采取适当的调度算法来调节各个线程发出的访存请求的服务优先级,从而改善系统性能.首先分别以系统吞吐量和公平性为优化目标介绍了一系列对共享缓存的分区调度算法,并针对缓存分区粒度过大的问题给出了相关解决方案.然后从利用线程的访存行为特征和借鉴网络路由算法等多个角度介绍了DRAM的调度算法.研究了从全局出发的联合调度算法,以解决针对不同共享资源的调度算法间相互矛盾的问题.最后从不同角度对于今后的研究进行了展望. 展开更多
关键词 片上多核处理器 多线程 共享缓存 缓存分区 访存调度
下载PDF
面向多核处理器的空间数据库索引性能分析 被引量:2
7
作者 吴烨 熊伟 +1 位作者 蔡蕾 景宁 《计算机科学与探索》 CSCD 2011年第8期707-718,共12页
空间数据库索引是提高空间查询性能的重要方法,片上多核处理器的出现,在提高数据库性能的同时,也给空间索引结构提出了新的挑战。面向多核处理器,还缺乏对各种主要空间数据库索引结构和性能的综合实验比较,从而无法定量分析影响索引性... 空间数据库索引是提高空间查询性能的重要方法,片上多核处理器的出现,在提高数据库性能的同时,也给空间索引结构提出了新的挑战。面向多核处理器,还缺乏对各种主要空间数据库索引结构和性能的综合实验比较,从而无法定量分析影响索引性能的重要因素。针对目前主流的共享cache多核处理器,对R树、HilbertR树、四叉树及CR树在内存中的性能进行了测试,分析了不同处理器硬件、不同索引结点大小、不同选择率、不同输入数据等多种因素对索引性能的影响。实验表明,在多核环境下,为了提高空间索引性能,必须充分利用多核处理器的硬件特性。 展开更多
关键词 多核处理器 空间索引 cache敏感
下载PDF
面向低功耗的多核处理器Cache设计方法 被引量:2
8
作者 方娟 郭媚 +1 位作者 杜文娟 雷鼎 《计算机应用》 CSCD 北大核心 2013年第9期2404-2409,共6页
针对多核处理器下的共享二级缓存(L2 Cache)提出了一种面向低功耗的Cache设计方案(LPD)。在LPD方案中,分别通过低功耗的共享Cache混合划分算法(LPHP)、可重构Cache算法(CRA)和基于Cache划分的路预测算法(WPP-L2)来达到降低Cache功耗的目... 针对多核处理器下的共享二级缓存(L2 Cache)提出了一种面向低功耗的Cache设计方案(LPD)。在LPD方案中,分别通过低功耗的共享Cache混合划分算法(LPHP)、可重构Cache算法(CRA)和基于Cache划分的路预测算法(WPP-L2)来达到降低Cache功耗的目的,同时保证系统的性能良好。在LPHP和CRA中,程序运行时动态地关闭Cache中空闲的Cache列,节省了对空闲列的访问功耗。在WPP-L2中,利用路预测技术在Cache访问前给出预测路信息,预测命中时则可用最短的访问延时和最少的访问功耗完成Cache访问;预测失效时,则结合Cache划分策略,降低由路预测失效导致的额外功耗开销。通过SPEC2000测试程序验证,与传统使用最近最少使用(LRU)替换策略的共享L2 Cache相比,本方案提出的三种算法虽然对程序执行时间稍有影响,但分别节省了20.5%、17%和64.6%的平均L2 Cache访问功耗,甚至还提高了系统吞吐率。实验表明,所提方法在保持系统性能的同时可以显著降低多核处理器的功耗。 展开更多
关键词 片上多核处理器 二级缓存 动态划分 低功耗 性能
下载PDF
Linux系统中多核实时调度平台的设计 被引量:2
9
作者 黄姝娟 朱怡安 赵聪 《计算机工程》 CAS CSCD 2012年第11期225-227,246,共4页
为使各种实时调度算法能够在Linux环境中得到运行和验证,设计一种Linux系统中的公共多核调度平台。该平台由调度模块和跟踪测试模块组成,调度模块实现系统调用、调度处理以及同步功能,跟踪测试模块实现日志和跟踪功能。测试结果表明,该... 为使各种实时调度算法能够在Linux环境中得到运行和验证,设计一种Linux系统中的公共多核调度平台。该平台由调度模块和跟踪测试模块组成,调度模块实现系统调用、调度处理以及同步功能,跟踪测试模块实现日志和跟踪功能。测试结果表明,该平台可正确显示调度算法的运行结果。 展开更多
关键词 片上多核处理器 多核调度平台 实时任务 调度算法 调度模型
下载PDF
基于WCET的多核共享资源冲突分析与约束研究 被引量:1
10
作者 甘志华 古志民 +1 位作者 安立奎 赵鑫 《计算机科学》 CSCD 北大核心 2014年第8期19-24,54,共7页
随着片上多核处理器在嵌入式实时系统中的应用,片上共享资源给任务的WCET分析带来诸多挑战,使得对多核共享资源冲突问题的研究变得非常重要。依据研究的目标,可以把目前已有的研究分为面向共享资源冲突分析和面向共享资源冲突约束两大... 随着片上多核处理器在嵌入式实时系统中的应用,片上共享资源给任务的WCET分析带来诸多挑战,使得对多核共享资源冲突问题的研究变得非常重要。依据研究的目标,可以把目前已有的研究分为面向共享资源冲突分析和面向共享资源冲突约束两大类。对于面向共享资源冲突分析问题,探讨了不同共享资源冲突产生的原因,概括和比较了典型的冲突分析方法的优势和局限性;对于面向共享资源冲突约束问题,给出了其主要的研究内容,并评述和分析了几种主流的冲突约束方法。最后针对目前的研究状况指出了一些研究方向。 展开更多
关键词 片上多核处理器 最坏执行时间 冲突分析 冲突约束
下载PDF
高密度集成与单芯片多核系统及其研究进展 被引量:2
11
作者 李东生 高明伦 《半导体技术》 CAS CSCD 北大核心 2012年第2期89-95,共7页
在体积、重量和功耗有严格约束的情况下,系统小型化遇到多种技术挑战,为了满足高密度计算和小型化的要求,高密度系统集成和单芯片多核处理器至关重要。讨论了高密度集成与单芯片多核处理器技术及其研究进展,其中包括单芯片多核处理器(C... 在体积、重量和功耗有严格约束的情况下,系统小型化遇到多种技术挑战,为了满足高密度计算和小型化的要求,高密度系统集成和单芯片多核处理器至关重要。讨论了高密度集成与单芯片多核处理器技术及其研究进展,其中包括单芯片多核处理器(CMP)、片上网络(NoC)、3D集成电路、高密度封装。提出了CMP的两个发展特征,即小核大数量和层次型簇结构。指出高密度集成设计与高密度封装设计逐渐融合,并为单芯片多核系统的物理实现提供了技术保证,为最终实现高密度计算和小型化系统提供了硬件解决方案。 展开更多
关键词 单芯片多核处理器 3D集成电路 小型化 高密度集成 片上网络
下载PDF
基于缓存行为特征的线程数据预取距离控制策略 被引量:1
12
作者 黄艳 张启坤 +1 位作者 段赵磊 古志民 《电子与信息学报》 EI CSCD 北大核心 2015年第7期1633-1638,共6页
针对目前大多数面向指针应用程序的线程数据预取方法在预取距离控制方面的不足,该文提出一种基于缓存行为特征的数据预取距离控制策略。该策略利用指针应用程序执行时的数据缓存特征构建预取距离控制模型,以避免共享缓存污染,降低系统... 针对目前大多数面向指针应用程序的线程数据预取方法在预取距离控制方面的不足,该文提出一种基于缓存行为特征的数据预取距离控制策略。该策略利用指针应用程序执行时的数据缓存特征构建预取距离控制模型,以避免共享缓存污染,降低系统资源竞争,并通过忽略对部分非循环依赖数据预取平衡帮助线程与主线程间的执行任务,提高线程数据预取的时效性。实验结果表明,通过该策略控制线程数据预取距离能进一步提高线程预取性能。 展开更多
关键词 片上多处理器 线程预取 帮助线程 预取率 预取距离
下载PDF
选择性循环的并行方法 被引量:1
13
作者 吴悦 雷超付 杨洪斌 《计算机工程》 CAS CSCD 北大核心 2010年第9期35-37,40,共4页
针对含有大量循环的串行程序存在的问题,提出一种基于线程级前瞻技术的循环选择方案。该方案对循环进行最优选择后建立一个可并行运行的循环集。对于该集合中的循环,选择并行效率高的代码段作并行处理,以加快串行程序运行速度。实验表明... 针对含有大量循环的串行程序存在的问题,提出一种基于线程级前瞻技术的循环选择方案。该方案对循环进行最优选择后建立一个可并行运行的循环集。对于该集合中的循环,选择并行效率高的代码段作并行处理,以加快串行程序运行速度。实验表明,相对于一般的简单内部循环或外部循环并行方法,该方案使9种基准代码的加速比平均上升23.8%,从而提高串行程序并行运行的效率。 展开更多
关键词 线程级前瞻 循环选择 并行运行 单片多核处理器
下载PDF
SimTile:片状多核处理器的高效模拟器(英文)
14
作者 刘涛 季振洲 王庆 《计算机科学与探索》 CSCD 2010年第12期1115-1120,共6页
传统的基于共享总线的多核芯片随着核心数增加产生了瓶颈问题。新型TiledCMP(chip multiprocessor)的结构设计中,片上核心互联网络对提高扩展能力和执行效率起到了重要作用。为了实现低延迟、高带宽的核心通信,高速点对点网络方式的片... 传统的基于共享总线的多核芯片随着核心数增加产生了瓶颈问题。新型TiledCMP(chip multiprocessor)的结构设计中,片上核心互联网络对提高扩展能力和执行效率起到了重要作用。为了实现低延迟、高带宽的核心通信,高速点对点网络方式的片上多核互联结构模拟成为研究的热点。抽象片上Tiled方式16核功能单元结构,设计实现了SimTile模拟器,可提供配置灵活、功能单元齐全的片上多核处理器设计,支持高效率的全局共享缓存、高速片上路由结构。模拟器采用模块化的组件配置方式,片上核心数量与互联网络结构、数据一致性协议、全局寄存器通信与cache共享模式等,均可通过精简的参数调整。实验表明模拟器执行效率较高,为片上多核研究提供了灵活、高效并具备可扩展性的新平台。 展开更多
关键词 片状多核处理器 模拟器 互联结构 数据一致性
下载PDF
小计算量下非规则数据密集型热函数的性能优化
15
作者 郑宁汉 古志民 孙贤和 《计算机研究与发展》 EI CSCD 北大核心 2013年第11期2436-2443,共8页
随着云计算的兴起和发展,基于多核的非规则数据密集型应用越来越多,而大量的数据缺失问题导致这类应用的性能严重下降.利用空闲核资源的传统帮助线程方法试图提前将主线程所需要的非规则数据放入共享的最后一级缓存(last layer cache,LL... 随着云计算的兴起和发展,基于多核的非规则数据密集型应用越来越多,而大量的数据缺失问题导致这类应用的性能严重下降.利用空闲核资源的传统帮助线程方法试图提前将主线程所需要的非规则数据放入共享的最后一级缓存(last layer cache,LLC),如果帮助线程相对于主线程具有恰当的运算速度,能在主线程访问之前将有关缺失数据放入LLC中,则热函数的性能可被改进.然而,如果热函数缺乏计算任务(称之为小计算量热函数),使用这样的传统方法就无法构建一个相对于主线程有效预取的帮助线程,其热函数性能的改善将会大大降低.针对源代码级小计算量下非规则数据密集型热函数的性能优化问题,先对帮助线程预取QoS进行了形式化描述.在此基础上,通过引入提前量等参数模型,提出了一种小计算量下热函数的性能优化方法.在Intel Core 2Duo Processor 6550处理器上,通过对科学计算测试程序em3d,mst和SPEC CPU benchmark 2006中的mcf的进行实验,相对于传统方法分别获得了1.97%,31.63%和1.10%的性能提升. 展开更多
关键词 多核处理器 帮助线程 数据预取 计算量 非规则数据密集型热函数
下载PDF
多核架构下的数据处理算法优化策略综述 被引量:7
16
作者 陈伟 杜凌霞 陈红 《计算机科学与探索》 CSCD 2011年第12期1057-1075,共19页
多核处理器,尤其是单芯片多处理器(chip multi-processor,CMP)能够提供强大的共享内存的并行资源,然而单核处理器上的程序和算法并不能充分利用多核架构提供的并行计算资源,因此必须针对多核体系架构特点,对算法进行改进优化,提高算法... 多核处理器,尤其是单芯片多处理器(chip multi-processor,CMP)能够提供强大的共享内存的并行资源,然而单核处理器上的程序和算法并不能充分利用多核架构提供的并行计算资源,因此必须针对多核体系架构特点,对算法进行改进优化,提高算法的执行性能。以优化程序局部性、减少cache访问冲突、提高线程并行度、充分利用单指令多数据流(single instruction multipledata,SIMD)并行和带宽优化等几方面为出发点,归纳和分析了多核处理器上数据处理算法的相关优化策略,并对多核算法进行了总结评述。最后阐述了该领域亟待解决的诸多问题,展望了未来的研究发展方向。 展开更多
关键词 多核 单芯片多处理器(cmp) 数据级别并行(DLP) 线程级别并行(TLP) 单指令多数据流(SIMD)
下载PDF
多核Cache稀疏目录性能提升方法综述 被引量:2
17
作者 吴健虢 陈海燕 +2 位作者 刘胜 邓让钰 陈俊杰 《计算机工程与科学》 CSCD 北大核心 2019年第3期385-392,共8页
受限于功耗,十多年前通用微处理器就停止追求更高的主频转而向集成更多处理器核的方向发展;同时,随着晶体管密度按摩尔定律不断提高,单片可集成的处理器核数成倍增长,片上多核、众核处理器已成为高性能微处理器发展的主流。未来千核级... 受限于功耗,十多年前通用微处理器就停止追求更高的主频转而向集成更多处理器核的方向发展;同时,随着晶体管密度按摩尔定律不断提高,单片可集成的处理器核数成倍增长,片上多核、众核处理器已成为高性能微处理器发展的主流。未来千核级通用众核处理器支持共享存储编程模型是一种必然趋势,但传统的Cache一致性目录结构面临着查找延迟高、目录项替换频繁以及硬件代价和功耗可扩展性有限等问题。稀疏目录实现了传统目录结构硬件开销与一致性维护效率的折衷,被认为是众核处理器维护Cache一致性的一种高能效、可扩展结构。综述了近年来提高稀疏目录性能的相关研究与方法,并对其在面积、访问延迟、功耗和实现复杂性等方面进行分析,归纳出这些方法各自的优点和存在的不足,对创新设计未来高性能众核处理器共享存储体系结构具有一定的参考价值。 展开更多
关键词 单片多核 CACHE一致性 稀疏目录 相联度 可扩展
下载PDF
基于缓存竞争优化的Linux进程调度策略 被引量:2
18
作者 夏厦 李俊 《计算机工程》 CAS CSCD 2013年第4期58-61,共4页
分析Linux经典内核版本2.6.22的进程调度算法,利用性能监测单元的监测信息,给出3个性能指标CMR、CRR、OCIP对进程的缓存竞争性强弱进行刻画,以此为依据,采用轮询算法优化Linux下的进程调度顺序,尽量避免在CPU上同时运行多个缓存竞争力... 分析Linux经典内核版本2.6.22的进程调度算法,利用性能监测单元的监测信息,给出3个性能指标CMR、CRR、OCIP对进程的缓存竞争性强弱进行刻画,以此为依据,采用轮询算法优化Linux下的进程调度顺序,尽量避免在CPU上同时运行多个缓存竞争力强的进程,减小系统因缓存竞争产生的性能损耗。在benchmark上的测试结果表明,该方法能够提升系统在中、高负载下运行时的性能,在高负载下运行时的性能提升比例可达6%左右。 展开更多
关键词 LINUX内核 片上多处理器 进程调度 性能监测单元 进程行为 缓存竞争
下载PDF
Design and Application of Instruction Set Simulator on Multi-Core Verification 被引量:3
19
作者 胡向东 郭勇 +2 位作者 朱英 郭昕 王鹏 《Journal of Computer Science & Technology》 SCIE EI CSCD 2010年第2期267-273,共7页
Instruction Set Simulator (ISS) is a highly abstracted and executable model of micro architecture. It is widely used in the fields of verification and debugging during the development of microprocessors. However, wi... Instruction Set Simulator (ISS) is a highly abstracted and executable model of micro architecture. It is widely used in the fields of verification and debugging during the development of microprocessors. However, with the emergence of Chip Multi-Processors, the single-core ISS cannot meet the needs of microprocessor development. In this paper, we introduce our multi-core chip architecture first, after that a general methodology to expand a single-core ISS to a multi- core ISS (MCISS) is proposed. On this basis, a real-time comparison environment is created for multi-core verification, and the problems of multi-core communication and synchronization are addressed gracefully. With the "save and restore" mechanism, the verification procedure and the debugging are speeding up greatly. 展开更多
关键词 processor design chip multi-processors (cmp instruction set simulator (ISS) SIMULATION parallel stimulus
原文传递
面向MPI集合操作的定制化片上网络
20
作者 陆思羽 王宏伟 +2 位作者 张悠慧 杨广文 郑纬民 《计算机工程》 CAS CSCD 北大核心 2017年第6期1-10,18,共11页
根据计算趋近数据的原则,提出面向MPI集合操作的定制化片上网络设计方法,通过增强现有片上路由器的硬件功能实现MPI集合操作在网络层的加速。设计MPI归约操作,将其扩展至多种集合操作,并与一种针对确定性路由算法且可动态学习消息传输... 根据计算趋近数据的原则,提出面向MPI集合操作的定制化片上网络设计方法,通过增强现有片上路由器的硬件功能实现MPI集合操作在网络层的加速。设计MPI归约操作,将其扩展至多种集合操作,并与一种针对确定性路由算法且可动态学习消息传输路径的自适应方法相结合,使集合操作可在扩展后的片上路由器上完成,加速处理过程并减少处理器核负载。此外,提出片上路由器的微体系结构设计方法,比较不同片上网络中扩展后的片上路由器布局并评估相应性能、功耗和片上面积。测试结果表明,与基于软件的最优实现相比,该方法在仅消耗有限功耗与片上面积的基础上,可使MPI归约性能提升6.4~41.7倍,广播性能提升15.3~31.2倍,全局归约性能提升5.4~9.7倍,收集性能提升1.3~1.8倍。 展开更多
关键词 片上网络 片上多核处理器 消息传递接口 集合操作 定制化
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部