期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
硬件集合通信中聚合树构建方法
1
作者 陈淑平 尉红梅 +3 位作者 王飞 李祎 何王全 漆锋滨 《计算机研究与发展》 EI CSCD 北大核心 2024年第2期503-517,共15页
传统的MPI (message passing interface)集合通信是基于点到点消息实现的,性能较低;而硬件集合通信具有性能高、CPU占用率低等优点,正受到越来越多的关注.硬件集合通信中,聚合树对集合通信性能具有至关重要的影响.研究了影响硬件集合通... 传统的MPI (message passing interface)集合通信是基于点到点消息实现的,性能较低;而硬件集合通信具有性能高、CPU占用率低等优点,正受到越来越多的关注.硬件集合通信中,聚合树对集合通信性能具有至关重要的影响.研究了影响硬件集合通信性能的因素,提出了硬件集合通信开销模型,并以此为基础提出了构建硬件集合通信聚合树的方法.该方法主要包括3个部分:1)根据操作类型、聚合数据包大小等确定聚合树类型及聚合树宽度,从而在网络传输开销与数据计算开销之间取得平衡;2)提出了最小高度分层k项Ⅰ型聚合树构建方法,降低了跨组聚合包的个数;3)提出了构建最小代价Ⅱ型聚合树的方法,减少所使用的交换机数量.在神威互连网络中对聚合树构建方法进行了全面测试,当存在网络噪声的情况及分层k项Ⅰ型聚合树构建方法下的消息延迟相比传统构建方法下降了24%~89%;典型通信模式时,最小代价Ⅱ型聚合树使用的交换机聚合条目数相比优化前下降了约90%. 展开更多
关键词 MPI集合通信 聚合树 开销模型 高速互连 高性能计算
下载PDF
多核环境下高效集合通信关键技术研究 被引量:6
2
作者 张攀勇 孟丹 霍志刚 《计算机学报》 EI CSCD 北大核心 2010年第2期317-325,共9页
随着高性能计算需求的日益增长,多核处理器在高性能计算中间得到了广泛的普及.为了保证高性能计算机系统的效率,需要保持计算和通信的平衡性,多核的广泛使用对通信系统的效率提出了更高的要求.集合通信作为通信系统中的重要组成部分,研... 随着高性能计算需求的日益增长,多核处理器在高性能计算中间得到了广泛的普及.为了保证高性能计算机系统的效率,需要保持计算和通信的平衡性,多核的广泛使用对通信系统的效率提出了更高的要求.集合通信作为通信系统中的重要组成部分,研究多核环境下的高效集合通信具有十分重要的意义.文中首先研究了多核对集合通信性能的影响,并根据多核处理器共享Cache以及内存竞争的特点,提出了层次化算法、限制并发、NUMA感知的优化方法和Cache友好的优化算法,并分别在MPI_Barrier、MPI_Bcast和MPI_Alltoall中进行了验证.实验结果表明优化方法能够有效地利用多核结构特点,降低竞争带来的影响,提高了多核环境下集合通信的性能和可扩展性. 展开更多
关键词 高性能计算 多核机群 集合通信优化 NUMA_MPI
下载PDF
MPI集合通信性能可扩展性研究与分析 被引量:4
3
作者 罗红兵 张晓霞 《计算机科学与探索》 CSCD 北大核心 2017年第2期252-261,共10页
集合通信性能是影响并行程序并行效率的重要因素之一,但对于大规模并行计算机上不同类别集合通信的评测和理论分析仍较为缺乏,许多应用程序的通信模块设计和使用不合理。基于某国产并行机平台,利用IMB测试程序,对各典型MPI(message pass... 集合通信性能是影响并行程序并行效率的重要因素之一,但对于大规模并行计算机上不同类别集合通信的评测和理论分析仍较为缺乏,许多应用程序的通信模块设计和使用不合理。基于某国产并行机平台,利用IMB测试程序,对各典型MPI(message passing interface)集合通信性能进行了分析,并基于现有通信模型和算法进行理论拟合。结果显示:不同类别的MPI集合通信操作的性能差异很大,并且许多集合通信的性能在超大规模下与理论差距很大。一方面反映出现有理论和模型的不足;另一方面也体现出,无论是集合通信的优化,还是基于集合通信的特征进行应用程序的通信模块设计,仍然大有可为。 展开更多
关键词 集合通信 通信性能 可扩展性
下载PDF
一种在MPI程序中实现点对点通信原语到集合通信原语转换的方法
4
作者 贾明飞 董渭清 +1 位作者 黄泳翔 侯宗浩 《计算机工程与应用》 CSCD 北大核心 2003年第14期126-129,共4页
针对当前存在的大量非结构化MPI程序,该文提出一种在MPI程序中实现点对点通信原语到集合通信原语转换的方法,其基本思路是:分析非结构化消息传递并行代码的内部结构,建立Diophantine不等式系统,然后用Omega库运算得到点对点通信代码段... 针对当前存在的大量非结构化MPI程序,该文提出一种在MPI程序中实现点对点通信原语到集合通信原语转换的方法,其基本思路是:分析非结构化消息传递并行代码的内部结构,建立Diophantine不等式系统,然后用Omega库运算得到点对点通信代码段的通信模式集,再辅以数据交换分析确定对应的集合通信原语并替换。 展开更多
关键词 MPI 原语转换 集合通信 并行优化 程序重构
下载PDF
多核环境下高效集合通信关键技术研究分析
5
作者 李超 《科技资讯》 2011年第26期122-122,共1页
多核技术是硬件设备的革命,其带来的是更加优化的数据处理效果。但是在此条件下的集合通信却遇到了计算方式上的多种选择性。此种多元计算途径如果处理不好就会导致多核系统丧失其优势,而带来性能的下降。所以计算方法的合理优化就成为... 多核技术是硬件设备的革命,其带来的是更加优化的数据处理效果。但是在此条件下的集合通信却遇到了计算方式上的多种选择性。此种多元计算途径如果处理不好就会导致多核系统丧失其优势,而带来性能的下降。所以计算方法的合理优化就成为了多核环境下集合通信的关键技术。 展开更多
关键词 多核处理 集合通信 计算方法 计算优化
下载PDF
华为3Com率先进入集合通信时代
6
作者 王钰 《中国信息化》 2004年第10期70-71,共2页
优秀的语音解决方案和高效的视讯解决方案构成了华为3Com公司的左右翼,加上雄厚力量的高品质IP网,推动着华为3Com进入集合通信时代。
关键词 数据通信 集合通信 多媒体 接入技术 华为3Com公司
下载PDF
MPI集合通信剖析技术的研究
7
作者 崔奇 谷建华 《计算机技术与发展》 2013年第10期31-35,共5页
将MPI(Message Passing Interface)进程拓扑有效地映射到处理器拓扑上有助于提高MPI程序的通信性能。目前大部分的MPI进程映射只考虑点对点通信,很少考虑到集合通信,原因是获取集合通信的进程拓扑是比较困难的。目前大部分剖析(profili... 将MPI(Message Passing Interface)进程拓扑有效地映射到处理器拓扑上有助于提高MPI程序的通信性能。目前大部分的MPI进程映射只考虑点对点通信,很少考虑到集合通信,原因是获取集合通信的进程拓扑是比较困难的。目前大部分剖析(profiling)工具在剖析集合通信时只考虑了函数的接口语义,而忽视了实现语义,导致这些工具不能正确地获取集合通信进程之间的详细通信情况。文中提出了一套剖析算法,可以准确地计算出参与集合通信的每对进程之间的通信量,并以通信矩阵的形式给出进程拓扑。实验证明了剖析算法的正确性,并且通过这种剖析方法获取的进程拓扑能够提升进程到处理器核的映射实验效果。 展开更多
关键词 MPI 集合通信 通信剖析 进程映射
下载PDF
如何由当前通信系统平滑演进到IP集合通信
8
作者 廖旭东 《计算机网络世界》 2006年第7期62-65,共4页
IT建设转向以关注核心业务与战略实现的“以业务为中心”建设模式.相应的IP集合通信打破传统单一模式的界限.实现各种通信方式的融合,并将通信功能进一步与企业办公和业务流程相结合,从而实现虚拟办公和支撑企业业务流程重整.并基... IT建设转向以关注核心业务与战略实现的“以业务为中心”建设模式.相应的IP集合通信打破传统单一模式的界限.实现各种通信方式的融合,并将通信功能进一步与企业办公和业务流程相结合,从而实现虚拟办公和支撑企业业务流程重整.并基于IP集合通信,通过构建面向企业业务及应用的价值链.硬件厂商、软件厂商、系统集成商。 展开更多
关键词 集合通信 IP 平滑演进 通信系统 企业业务流程 核心业务 硬件厂商 IT系统 系统集成商
原文传递
Alltoall通信性能模型研究
9
作者 罗红兵 张晓霞 魏勇 《计算机科学与探索》 CSCD 北大核心 2018年第4期559-566,共8页
Alltoall是一种重要的MPI(message passing interface)集合通信类别,是影响许多并行程序并行效率的重要因素。但对于大规模并行计算机上Alltoall集合通信的评测和理论分析仍较为缺乏,导致许多应用程序的通信模块设计和使用不合理。首先... Alltoall是一种重要的MPI(message passing interface)集合通信类别,是影响许多并行程序并行效率的重要因素。但对于大规模并行计算机上Alltoall集合通信的评测和理论分析仍较为缺乏,导致许多应用程序的通信模块设计和使用不合理。首先,开展了MPI基本通信性能的测试和分析,发现随着MPI进程数的增加,其性能波动也增加,而这种波动源自网络竞争。为此,在传统的Alltoall性能评估模型中引入了网络竞争因素,新模型不仅考虑传统的通信带宽和通信延迟参数,还考虑了通信竞争因素。某国产并行机平台上的测试结果显示:引入网络竞争模型的新Alltoall性能评估模型可以较为准确地预估Alltoall性能,体现出网络竞争开销对Alltoall性能的影响。 展开更多
关键词 集合通信 通信性能 Alltoall
下载PDF
网格中具有任意根结点的多层已知拓扑型广播通信算法
10
作者 王丽 苏德富 《计算机工程与应用》 CSCD 北大核心 2004年第11期139-141,共3页
网格是第三代的Internet的核心技术,它正引起人们的广泛注意,其中GLOBUS是最具有代表性的网格项目。该文在分析研究Globus的MPICH-G2中的已知拓扑型广播算法的基础上,提出了关于对该算法的改进,使之可以适应于广播操作的根进程为任意进... 网格是第三代的Internet的核心技术,它正引起人们的广泛注意,其中GLOBUS是最具有代表性的网格项目。该文在分析研究Globus的MPICH-G2中的已知拓扑型广播算法的基础上,提出了关于对该算法的改进,使之可以适应于广播操作的根进程为任意进程的一般情况。 展开更多
关键词 网格 MPICH—G2 集合通信 广播 已知拓扑型广播
下载PDF
WeCom——企业IP融合通信解决方案
11
《电信技术》 2006年第12期119-120,共2页
关键词 IP网络 企业用户 通信解决方案 网络控制技术 通信方式 over 通信手段 集合通信
下载PDF
基于“嵩山”超级计算机的UCX库分析与优化
12
作者 刘康 万伟 +2 位作者 刘波 李俊宏 李柱 《计算机工程》 CAS CSCD 北大核心 2023年第12期274-281,共8页
UCX是一个经过生产验证的优化通信框架,适用于当前的高带宽和低延迟高速网络。UCX作为“嵩山”国产高性能计算平台的通信中间件,提高了并行编程模型在InfiniBand(IB)高速互联网络上的开发效率,同时其性能也会直接影响上层应用的通信能... UCX是一个经过生产验证的优化通信框架,适用于当前的高带宽和低延迟高速网络。UCX作为“嵩山”国产高性能计算平台的通信中间件,提高了并行编程模型在InfiniBand(IB)高速互联网络上的开发效率,同时其性能也会直接影响上层应用的通信能力。基于“嵩山”超级计算平台,对平台上的UCX框架进行分析与性能测试,在此过程中归纳IB适配器通信存在的局限性以及UCX在通信传输选择中的不合理性。针对这些问题,根据“嵩山”超级计算平台的网络架构特点,在参数层面进行调优,使得UCX适配“嵩山”平台的Socket Direct架构;在代码层面修改UCX对传输的选择逻辑,使得UCX在选出共享内存传输后不再选择网卡进行传输,从而解决节点内的进程间通信抢占HCA卡资源的问题。同时,修正UCX中KNEM共享内存的带宽设置,使UCX在共享内存CMA和KNEM传输的选择上更加合理。实验结果表明,使用优化后的UCX在100个节点间进行allgather集合通信测试时,相对优化前延迟至多降低80%,节点内alltoall集合通信延迟至多降低70%,gather集合通信延迟至多降低45%。改进后的UCX通信库为“嵩山”超级计算平台上的并行编程模型和应用提供了更好的互联网络支撑,明显提升了平台的集合通信性能。 展开更多
关键词 UCX框架 高性能计算 集合通信 InfiniBand协议 共享内存 消息传递接口 高速网络
下载PDF
一种新的MPI Allgather算法及其在万亿次机群系统上的实现与性能分析 被引量:8
13
作者 陈靖 张云泉 +1 位作者 张林波 袁伟 《计算机学报》 EI CSCD 北大核心 2006年第5期808-814,共7页
给出一个新的MPIAllgather算法———邻居交换算法(neighborexchange).提出的平均逻辑通信距离的概念和计算公式,可以有效地衡量通信的局部性.通过分析,发现在4种MPIAllgather算法中,邻居交换和环算法均具有最优的通信局部性.在万亿次... 给出一个新的MPIAllgather算法———邻居交换算法(neighborexchange).提出的平均逻辑通信距离的概念和计算公式,可以有效地衡量通信的局部性.通过分析,发现在4种MPIAllgather算法中,邻居交换和环算法均具有最优的通信局部性.在万亿次机群深腾6800和曙光4000A上对4个MPIAllgather算法进行的性能测试和分析结果表明,邻居交换算法的长消息通信性能最优,中长消息通信性能不稳定,短消息通信性能次于递归倍增和Bruck算法. 展开更多
关键词 MPI Allgather算法 集合通信 性能评测 机群
下载PDF
非平衡进程到达模式下MPI广播的性能优化方法 被引量:4
14
作者 刘志强 宋君强 +1 位作者 卢风顺 徐芬 《软件学报》 EI CSCD 北大核心 2011年第10期2509-2522,共14页
为了提高非平衡进程到达(unbalanced process arrival,简称UPA)模式下MPI广播的性能,对UPA模式下的广播问题进行了理论分析,证明了在多核集群环境中通过节点内多个MPI进程的竞争可以有效减少UPA对MPI广播性能的影响,并在此基础上提出了... 为了提高非平衡进程到达(unbalanced process arrival,简称UPA)模式下MPI广播的性能,对UPA模式下的广播问题进行了理论分析,证明了在多核集群环境中通过节点内多个MPI进程的竞争可以有效减少UPA对MPI广播性能的影响,并在此基础上提出了一种新的优化方法,即竞争式流水化方法(competitive and pipelined method,简称CP).CP方法通过一种节点内进程竞争机制在广播过程中尽早启动节点间通信,经该方法优化的广播算法利用共享内存在节点内通信,利用由竞争机制产生的引导进程执行原算法在节点间通信.并且,该方法使节点间通信和节点内通信以流水方式重叠执行,能够有效利用集群系统各节点的多核优势,减少了MPI广播受UPA的影响,提高了性能.为了验证CP方法的有效性,基于此方法优化了3种典型的MPI广播算法,分别适用于不同消息长度的广播.在真实系统中,通过微基准测试和两个实际的应用程序对CP广播进行了性能评价,结果表明,该方法能够有效地提高传统广播算法在UPA模式下的性能.在应用程序的负载测试实验结果中,CP广播的性能较流水化广播的性能提高约16%,较MVAPICH21.2中广播的性能提高18%~24%. 展开更多
关键词 进程到达模式 MPI 集合通信 MPI_Bcast 竞争式流水化方法
下载PDF
高性能互联网络交换机研究与设计 被引量:3
15
作者 王达伟 曹政 +2 位作者 刘新春 游定山 孙凝晖 《计算机研究与发展》 EI CSCD 北大核心 2008年第12期2069-2078,共10页
高性能互联网络交换机是高性能计算机系统的核心部件.科学计算作为高性能计算机的上层应用,不仅要求交换机具有低延迟、高带宽的特性,还要求其在集合通信如广播、多播和同步操作等进行硬件级支持.HyperLink交换机,作为曙光5000计算机系... 高性能互联网络交换机是高性能计算机系统的核心部件.科学计算作为高性能计算机的上层应用,不仅要求交换机具有低延迟、高带宽的特性,还要求其在集合通信如广播、多播和同步操作等进行硬件级支持.HyperLink交换机,作为曙光5000计算机系统互联网络的重要组成部件,具有38.4ns单级延迟和160Gbps聚合带宽,并能够同时支持16组多播和16组同步操作.理想情况下,1024个节点多播和同步操作可以在2μs内完成,大大加速了科学计算的性能.为了对HyperLink交换机性能进行评价,建立了周期精确的仿真模型.通过模拟证明,对于16端口输入缓冲交换机,3个虚通道是性价比最好的选择;当MTU为1KB时,4KB大小的输入缓冲就可达到最高单播吞吐率.采用理论分析的方法比较了具有相同网络带宽的多轨网络和单轨网络,分析表明,前者可以有效降低网络延迟,因此能够比后者提供更高的网络吞吐率.采用LogP模型分析了HyperLink多播和Barrier的性能,分析表明,HyperLink交换机具有良好扩展性,能够很好支持到数千节点. 展开更多
关键词 互联网络 交换机 集合通信 多播 同步 ASIC设计
下载PDF
一种在复杂环境中支持容错的高性能规约框架
16
作者 李超 赵长海 +3 位作者 晏海华 刘超 文佳敏 王增波 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2018年第10期2115-2124,共10页
规约是并行应用最常用的集合通信操作之一,现存规约算法存在2方面主要问题。第一,不适应复杂环境,当计算环境出现干扰时,规约效率显著降低。第二,不支持容错,当节点发生故障时,规约被迫中断。针对上述问题,提出一种基于任务并行的高性... 规约是并行应用最常用的集合通信操作之一,现存规约算法存在2方面主要问题。第一,不适应复杂环境,当计算环境出现干扰时,规约效率显著降低。第二,不支持容错,当节点发生故障时,规约被迫中断。针对上述问题,提出一种基于任务并行的高性能分布式规约框架。首先,该框架将规约拆分为一系列独立的计算任务,使用任务调度器以保证就绪任务被优先调度到具有较高性能的节点上执行,从而有效避免了慢节点对整体性能的影响。其次,该框架基于规约数据的可靠性存储和故障侦听机制,以任务为粒度,可在应用不退出的前提下实现故障恢复。在复杂环境中的实验结果表明,分布式规约框架具有高可靠性,与现有规约算法相比,规约性能最高提升了2.2倍,并发规约性能最高提升了4倍。 展开更多
关键词 规约 集合通信 复杂环境 干扰 容错 并行计算
下载PDF
MPI_ALLTOALL实现算法的改进与性能分析
17
作者 韩颖 杨雷 王佳 《计算机工程与设计》 CSCD 北大核心 2010年第23期4947-4949,共3页
通过分析全互换通信中4种算法的性能,提出了一种改进算法。该改进算法递归倍增的创建子进程,通过增加通信进程数目来减少通信次数。对比分析改进算法与成对互换算法的通信次数,改进算法的通信次数是成对互换算法的一半。实验机群是在版... 通过分析全互换通信中4种算法的性能,提出了一种改进算法。该改进算法递归倍增的创建子进程,通过增加通信进程数目来减少通信次数。对比分析改进算法与成对互换算法的通信次数,改进算法的通信次数是成对互换算法的一半。实验机群是在版本为MPICH2-1.0.8并行环境下测试,结果表明,消息类型为长消息通信且通信进程数为2的幂次方时,该改进算法比成对互换算法的性能更优。 展开更多
关键词 集群通信 消息传递接口 并行通信接口 全互换 集合通信
下载PDF
从V^2oIP到NGeN 被引量:1
18
作者 王巍 《计算机安全》 2005年第3期36-37,共2页
关键词 网络电话 V^2oIP NGeN 计算机网络 集合通信
下载PDF
并行程序性能分析中的时戳同步技术
19
作者 杜祝平 于磊 +1 位作者 李志博 侯雪梅 《信息工程大学学报》 2011年第5期607-611,617,共6页
在分析基于消息传递的并行应用程序性能时,常用的一种技术是事件跟踪。它要求事件记录的时戳要有可比较性。然而,集群计算机各处理器的时钟往往具有不同的时钟值和不同的漂移率。因此,在分析之前必须对采集的事件记录时戳进行同步。文... 在分析基于消息传递的并行应用程序性能时,常用的一种技术是事件跟踪。它要求事件记录的时戳要有可比较性。然而,集群计算机各处理器的时钟往往具有不同的时钟值和不同的漂移率。因此,在分析之前必须对采集的事件记录时戳进行同步。文章介绍了一种逻辑时戳同步方法,通过检测时钟条件违反情况,采用前向和后向分摊技术后移某些事件来修正逻辑错误的时戳,并根据集合通信操作的语义,将集合操作分解成类似于点到点通信的发送-接收对集合,从而将算法扩展到能够处理集合操作。最终,实现了事件的逻辑同步,并平滑了因后移事件而引起的事件不连续跳跃。 展开更多
关键词 性能分析 时戳同步 点到点通信 集合通信
下载PDF
分布式深度学习训练网络综述 被引量:11
20
作者 朱泓睿 元国军 +5 位作者 姚成吉 谭光明 王展 户忠哲 张晓扬 安学军 《计算机研究与发展》 EI CSCD 北大核心 2021年第1期98-115,共18页
近年来深度学习在图像、语音、自然语言处理等诸多领域得到广泛应用,但随着人们对深度学习的训练速度和数据处理能力的需求不断提升,传统的基于单机的训练过程愈发难以满足要求,分布式的深度学习训练方法成为持续提升算力的有效途径.其... 近年来深度学习在图像、语音、自然语言处理等诸多领域得到广泛应用,但随着人们对深度学习的训练速度和数据处理能力的需求不断提升,传统的基于单机的训练过程愈发难以满足要求,分布式的深度学习训练方法成为持续提升算力的有效途径.其中训练过程中节点间网络的通信性能至关重要,直接影响训练性能.分析了分布式深度学习中的性能瓶颈,在此基础上对目前常用的网络性能优化方案进行综述,详细阐述了目前最新的超大规模分布式训练的体系结构、优化方法、训练环境和最有效的优化方法,最后对分布式训练仍然存在的困难进行了总结,对其未来研究方向进行了展望. 展开更多
关键词 分布式计算 深度学习 通信网络 性能优化 集合通信 集群网络
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部