期刊文献+
共找到612篇文章
< 1 2 31 >
每页显示 20 50 100
基于MPI和OpenMP混合编程的高分三号数据分布式并行转换算法
1
作者 陈云 《测绘与空间地理信息》 2024年第2期43-45,49,共4页
高分三号是我国C波段多极化合成孔径雷达卫星。PolSARpro是欧空局支持下的一款极化SAR影像处理的开源软件,为了便于利用该软件处理高分三号数据,本文提出了一种基于MPI和OpenMP并以PolSARpro软件的数据格式要求进行分布式并行转换算法,... 高分三号是我国C波段多极化合成孔径雷达卫星。PolSARpro是欧空局支持下的一款极化SAR影像处理的开源软件,为了便于利用该软件处理高分三号数据,本文提出了一种基于MPI和OpenMP并以PolSARpro软件的数据格式要求进行分布式并行转换算法,实现将高分三号极化数据快速精确转化为复数散射矩阵S2数据格式,通过KingMap V8.0平台实现了算法并在实际数据中进行测试,验证了算法的可行性、正确性和高效性。 展开更多
关键词 高分三号 合成孔径雷达 复数散射矩阵 openmp MPI KingMap
下载PDF
基于半精度浮点数优化与OpenMP的地震数值模拟
2
作者 刘文革 涂文茂 +2 位作者 牟其松 陈康 周觅路 《CT理论与应用研究(中英文)》 2024年第3期289-297,共9页
研究地震波场的传播特征是地震勘探的基础,利用有限差分法求解波动方程进行地震正演,其优势在于占用内存低、计算速度快、易于实现。但在三维情况下,计算量和数据量会急剧增加,传统串行地震数值模拟将无法满足计算效率的需求。因此,本... 研究地震波场的传播特征是地震勘探的基础,利用有限差分法求解波动方程进行地震正演,其优势在于占用内存低、计算速度快、易于实现。但在三维情况下,计算量和数据量会急剧增加,传统串行地震数值模拟将无法满足计算效率的需求。因此,本文提出一种基于半精度浮点数优化与OpenMP的三维波动方程地震数值模拟方法,该方法首先利用半精度浮点数对地震常用的浮点型数据进行优化;其次利用应用程序接口OpenMP在多核CPU下通过以分割波场计算区域的方式实现并行计算;在保证计算结果满足精度需求的同时,能有效提高三维地震数值模拟的计算效率,并减少近一半的内存需求。通过数值试验证明该方法的有效性和实用性。 展开更多
关键词 有限差分法 半精度浮点数 openmp 并行计算 地震波
下载PDF
基于OpenMP的堆芯中子学软件性能优化研究
3
作者 刘婷 安萍 +1 位作者 芦韡 秦志红 《中国核电》 2024年第2期190-196,共7页
CORCA-3D软件是中国核动力研究设计院自主研发的先进节块法堆芯三维少群中子学计算软件,提升CORCA-3D软件运行速度可以提高反应堆系统分析的效率。目前CORCA-3D软件采用单线程的方式运行,并没有充分利用计算机的多核硬件资源,对CORCA-3... CORCA-3D软件是中国核动力研究设计院自主研发的先进节块法堆芯三维少群中子学计算软件,提升CORCA-3D软件运行速度可以提高反应堆系统分析的效率。目前CORCA-3D软件采用单线程的方式运行,并没有充分利用计算机的多核硬件资源,对CORCA-3D软件进行性能分析,发现其存在运行时间较长的热点函数,CPU利用率较低,因此可引入并行编程技术来加速CORCA-3D软件的计算。文中将OpenMP编程技术运用到CORCA-3D软件中,并介绍了CORCA-3D软件并行优化的设计与实现。通过对方家山1号机组全堆芯进行测试,证明并行编程技术可大幅提升CORCA-3D软件的运行效率,平均加速比约为2左右。此并行编程技术的运用为后续堆芯数值软件应用提供技术支撑。 展开更多
关键词 堆芯中子学 并行编程 openmp 运行效率
下载PDF
MPI/OpenMP-Based Parallel Solver for Imprint Forming Simulation
4
作者 Yang Li Jiangping Xu +2 位作者 Yun Liu Wen Zhong Fei Wang 《Computer Modeling in Engineering & Sciences》 SCIE EI 2024年第7期461-483,共23页
In this research,we present the pure open multi-processing(OpenMP),pure message passing interface(MPI),and hybrid MPI/OpenMP parallel solvers within the dynamic explicit central difference algorithm for the coining pr... In this research,we present the pure open multi-processing(OpenMP),pure message passing interface(MPI),and hybrid MPI/OpenMP parallel solvers within the dynamic explicit central difference algorithm for the coining process to address the challenge of capturing fine relief features of approximately 50 microns.Achieving such precision demands the utilization of at least 7 million tetrahedron elements,surpassing the capabilities of traditional serial programs previously developed.To mitigate data races when calculating internal forces,intermediate arrays are introduced within the OpenMP directive.This helps ensure proper synchronization and avoid conflicts during parallel execution.Additionally,in the MPI implementation,the coins are partitioned into the desired number of regions.This division allows for efficient distribution of computational tasks across multiple processes.Numerical simulation examples are conducted to compare the three solvers with serial programs,evaluating correctness,acceleration ratio,and parallel efficiency.The results reveal a relative error of approximately 0.3%in forming force among the parallel and serial solvers,while the predicted insufficient material zones align with experimental observations.Additionally,speedup ratio and parallel efficiency are assessed for the coining process simulation.The pureMPI parallel solver achieves a maximum acceleration of 9.5 on a single computer(utilizing 12 cores)and the hybrid solver exhibits a speedup ratio of 136 in a cluster(using 6 compute nodes and 12 cores per compute node),showing the strong scalability of the hybrid MPI/OpenMP programming model.This approach effectively meets the simulation requirements for commemorative coins with intricate relief patterns. 展开更多
关键词 Hybrid MPI/openmp parallel computing MPI openmp imprint forming
下载PDF
Parallel Image Processing: Taking Grayscale Conversion Using OpenMP as an Example
5
作者 Bayan AlHumaidan Shahad Alghofaily +2 位作者 Maitha Al Qhahtani Sara Oudah Naya Nagy 《Journal of Computer and Communications》 2024年第2期1-10,共10页
In recent years, the widespread adoption of parallel computing, especially in multi-core processors and high-performance computing environments, ushered in a new era of efficiency and speed. This trend was particularl... In recent years, the widespread adoption of parallel computing, especially in multi-core processors and high-performance computing environments, ushered in a new era of efficiency and speed. This trend was particularly noteworthy in the field of image processing, which witnessed significant advancements. This parallel computing project explored the field of parallel image processing, with a focus on the grayscale conversion of colorful images. Our approach involved integrating OpenMP into our framework for parallelization to execute a critical image processing task: grayscale conversion. By using OpenMP, we strategically enhanced the overall performance of the conversion process by distributing the workload across multiple threads. The primary objectives of our project revolved around optimizing computation time and improving overall efficiency, particularly in the task of grayscale conversion of colorful images. Utilizing OpenMP for concurrent processing across multiple cores significantly reduced execution times through the effective distribution of tasks among these cores. The speedup values for various image sizes highlighted the efficacy of parallel processing, especially for large images. However, a detailed examination revealed a potential decline in parallelization efficiency with an increasing number of cores. This underscored the importance of a carefully optimized parallelization strategy, considering factors like load balancing and minimizing communication overhead. Despite challenges, the overall scalability and efficiency achieved with parallel image processing underscored OpenMP’s effectiveness in accelerating image manipulation tasks. 展开更多
关键词 Parallel Computing Image Processing openmp Parallel Programming High Performance Computing GPU (Graphic Processing Unit)
下载PDF
The Implementation of Ray Tracing Algorithm with OpenMP Parallelization
6
作者 Noor Alnasser Raghad Alabssi +2 位作者 Batool Faran Latifah Alessa Naya Nagy 《Journal of Computer and Communications》 2024年第1期120-130,共11页
Ray tracing is a computer graphics method that renders images realistically. As the name suggests, this technique primarily traces the path of light rays interacting with objects in a scene [1], permitting the calcula... Ray tracing is a computer graphics method that renders images realistically. As the name suggests, this technique primarily traces the path of light rays interacting with objects in a scene [1], permitting the calculation of lighting and reflecting impact [2]. As ray tracing is a time-consuming process, the need for parallelization to solve this problem arises. One downside of this solution is the existence of race conditions. In this work, we explore and experiment with a different, well-known solution for this race condition. Starting with the introduction and the background section, a brief overview of the topic is followed by a detailed part of how the race conditions may occur in the case of the ray tracing algorithm. Continuing with the methods and results section, we have used OpenMP to parallelize the Ray tracing algorithm with the different compiler directives critical, atomic, and first-private. Hence, it concluded that both critical and atomic are not efficient solutions to produce a good-quality picture, but first-private succeeded in producing a high-quality picture. 展开更多
关键词 PARALLELIZATION Ray Tracing Parallel Computer Architecture openmp
下载PDF
面向国产异构平台的OpenMP Offload共享内存访存优化
7
作者 王鑫 李嘉楠 +2 位作者 韩林 赵荣彩 周强伟 《计算机工程与应用》 CSCD 北大核心 2023年第10期75-85,共11页
国产异构处理器DCU(deep computing unit)上的本地数据共享(local data share,LDS)是一种低延迟、高带宽的显式寻址内存。国产异构系统的OpenMP未提供LDS访问的编程接口,导致未有效地利用LDS硬件实现数据的高效访存。针对此问题,研究了... 国产异构处理器DCU(deep computing unit)上的本地数据共享(local data share,LDS)是一种低延迟、高带宽的显式寻址内存。国产异构系统的OpenMP未提供LDS访问的编程接口,导致未有效地利用LDS硬件实现数据的高效访存。针对此问题,研究了面向DCU平台的OpenMP Offload执行模式和LDS的分配方法,以及特定于LDS访存的指令结构,实现了LDS访存的手动支持。另外针对于OpenMP Offload的不同执行模式,在此优化方法的基础上实现了LDS访存的自动化,形成了一套面向国产异构平台的高效访存策略。实验采用polybench标准测试集进行测试,利用手动和自动优化方法在单线程模式下平均加速比可达2.60,利用手动优化方法在多线程non-SPMD模式下平均加速比达1.38,利用自动优化方法在多线程SPMD模式下平均加速比达1.11。实验结果表明LDS访存的自动和手动支持有助于提高OpenMP异构程序运行速度。 展开更多
关键词 国产处理器DCU 本地数据共享(LDS) openmp Offlaod SPMD non-SPMD
下载PDF
基于Woodbury+OpenMP的结构非线性地震反应并行分析方法 被引量:1
8
作者 余丁浩 李钢 《振动与冲击》 EI CSCD 北大核心 2023年第3期21-29,49,共10页
非线性地震反应分析已成为评价工程结构抗震性能的重要技术手段,随着结构规模的增大,非线性引发的大规模刚度矩阵迭代更新成为制约结构分析效率的关键因素。基于Woodbury公式的结构非线性地震反应分析法(Woodbury方法)是一类新型高效数... 非线性地震反应分析已成为评价工程结构抗震性能的重要技术手段,随着结构规模的增大,非线性引发的大规模刚度矩阵迭代更新成为制约结构分析效率的关键因素。基于Woodbury公式的结构非线性地震反应分析法(Woodbury方法)是一类新型高效数值分析方法,此类方法利用结构在地震作用下的局部非线性特征,能够在保证较高迭代收敛速率的同时有效避免结构刚度矩阵实时变化及由此导致的计算效率低下。然而,当前相关研究均基于串行计算模式,并未充分利用计算硬件的并行计算能力。引入OpenMP模式对Woodbury方法进行并行加速,提出了一种用于结构高效非线性地震反应分析的并行计算方法,该方法首先将每个迭代计算步划分为非线性相关系数矩阵计算更新、基于Woodbury公式的位移响应求解、单元状态确定3个主要计算部分,随后通过建立非线性相关系数矩阵的分块计算方法,将Woodbury公式的计算过程拆解为6个可并行的计算步,对各单元状态进行单独判定,分别建立了适用于三者的OpenMP并行加速策略,实现了算法的全过程并行优化。最后,通过对一个高层结构进行地震反应分析验证了该方法的准确性和高效性。 展开更多
关键词 地震反应分析 结构非线性 Woodbury公式 openmp并行计算
下载PDF
基于OpenMP的并行Fortran程序数据竞争静态检测方法
9
作者 葛优 金大海 宫云战 《小型微型计算机系统》 CSCD 北大核心 2023年第11期2377-2383,共7页
数据竞争是并行程序中最常见的问题,因为其在程序中存在着随机性和难以重现的问题,所以利用动态方法检测并不可靠.本文介绍了一种针对以OpenMP实现程序并行的数据竞争故障的静态检测方法.首先根据基于OpenMP的Fortran并行程序的语法和... 数据竞争是并行程序中最常见的问题,因为其在程序中存在着随机性和难以重现的问题,所以利用动态方法检测并不可靠.本文介绍了一种针对以OpenMP实现程序并行的数据竞争故障的静态检测方法.首先根据基于OpenMP的Fortran并行程序的语法和语义特性,构建并行程序的抽象语法树,并对控制流图进行扩展引入并行控制流图;然后将数据竞争问题抽象为一种故障模型,利用有限状态机来形式化的描述此类故障模型;最后对并行区域的潜在赋值操作进行并行数据流分析,在程序控制流图节点上进行故障状态机的状态转化来实现数据竞争的检测.该方法已在自研的缺陷检测系统(DTS)中应用,并通过DataRaceBench的实验数据证明本文方法可以有效的检测出数据竞争问题. 展开更多
关键词 openmp 静态分析 共享内存编程 数据竞争检测 并行数据流
下载PDF
基于OpenMP的ANGSD软件优化设计和可行性研究
10
作者 李金光 唐友 李丹 《无线互联科技》 2023年第6期45-48,共4页
近年来,多核技术在基因测序方面有着广泛的应用。因此,基因测序的并行化成为目前国内热点。在基因测序领域,随着高通量测序技术的迅猛发展和应用越加广泛,其无时无刻不在产生大量的数据。对此,串行程序进行单个程序运行已经无法满足社... 近年来,多核技术在基因测序方面有着广泛的应用。因此,基因测序的并行化成为目前国内热点。在基因测序领域,随着高通量测序技术的迅猛发展和应用越加广泛,其无时无刻不在产生大量的数据。对此,串行程序进行单个程序运行已经无法满足社会对基因测序的需求。为了同时分析数千个样本,测序需要快速、灵活和内存高效地实现。文章认为,对一个名为ANGSD的程序进行OpenMP的程序并行的软件优化设计和可行性研究非常必要。 展开更多
关键词 openmp 下一代测序 多线程
下载PDF
基于OpenMP技术探究并行体与并行数目对运行效率的影响 被引量:1
11
作者 付颖 《电子技术与软件工程》 2023年第2期31-34,共4页
本文基于OpenMP技术运用C语言和C++语言进行共享内存编程。采用控制变量法的思想,通过求解欧拉计划145题,探究了并行体对运行效率的影响;通过蒙特·卡洛法求解π值,探究了并行数目对运行效率的影响。数值算例与原有串行方法相比较,... 本文基于OpenMP技术运用C语言和C++语言进行共享内存编程。采用控制变量法的思想,通过求解欧拉计划145题,探究了并行体对运行效率的影响;通过蒙特·卡洛法求解π值,探究了并行数目对运行效率的影响。数值算例与原有串行方法相比较,验证了基于OpenMP技术并行计算编程模式的优越性。 展开更多
关键词 openmp技术 并行体 并行数目 运行效率
下载PDF
基于OpenMP的Floyd并行算法研究
12
作者 彭瑾 杨勇 《鞍山师范学院学报》 2023年第4期49-54,共6页
Floyd算法是求解两点之间最短路径的算法之一,但因其时间复杂度较高,在面对大规模的图数据求解最短路径时效率并不高.通过使用OpenMP编程模型对Floyd算法进行并行优化,使其在求解最短路径时可以充分利用多核CPU资源,发挥多核性能,降低... Floyd算法是求解两点之间最短路径的算法之一,但因其时间复杂度较高,在面对大规模的图数据求解最短路径时效率并不高.通过使用OpenMP编程模型对Floyd算法进行并行优化,使其在求解最短路径时可以充分利用多核CPU资源,发挥多核性能,降低时间代价.与依赖于特定硬件的算法相比,基于OpenMP的Floyd并行算法具有更高的通用性和可移植性,可以在各种通用计算平台上实现,包括普通的多核CPU和共享内存系统.相较依赖于特定平台的算法,基于OpenMP实现的Floyd并行算法更具有普适性,可以让更多的研究人员和开发者受益.实验结果表明,并行优化后的Floyd算法在执行效率上得到了显著提升. 展开更多
关键词 多核 多线程 Floyd并行算法 openmp
下载PDF
基于MPI+OpenMP的雷达信号脉内分析并行加速方法
13
作者 姚群 童真 柴恒 《舰船电子对抗》 2023年第4期66-69,79,共5页
雷达脉内分析一般采用中频数据,数据量大,处理算法复杂,运算量大,实时性差。基于多节点高性能多核CPU信号处理平台,提出了一种基于消息传递接口(MPI)+开放式多处理(OpenMP)的雷达信号脉内分析技术,综合利用了MPI跨节点并行以及OpenMP节... 雷达脉内分析一般采用中频数据,数据量大,处理算法复杂,运算量大,实时性差。基于多节点高性能多核CPU信号处理平台,提出了一种基于消息传递接口(MPI)+开放式多处理(OpenMP)的雷达信号脉内分析技术,综合利用了MPI跨节点并行以及OpenMP节点内并行的特点,实现了雷达信号脉内分析的高性能脉冲级并行处理。在基于IntelXeon2640构建的多节点集群系统上的测试结果表明,该方法显著的提高了脉内分析的处理速度。 展开更多
关键词 信号处理 消息传递接口 openmp 脉内分析
下载PDF
基于SMP集群的MPI+OpenMP混合编程模型研究 被引量:19
14
作者 潘卫 陈燎原 +3 位作者 张锦华 李永革 潘莉 夏凡 《计算机应用研究》 CSCD 北大核心 2009年第12期4592-4594,共3页
讨论了MPI+OpenMP混合编程模型的特点及其实现方法。建立了对拉普拉斯偏微分方程求解的混合并行算法,并在HL-2A高性能计算系统上同纯MPI算法作了性能方面的比较。结果表明,该混合并行算法具有更好的扩展性和加速比。
关键词 对称式多处理器集群 消息传递界面 openmp MPI+openmp HL-2A高性能计算系统
下载PDF
OpenMP并行计算在卫星重力数据处理中的应用 被引量:36
15
作者 邹贤才 李建成 +1 位作者 汪海洪 徐新禹 《测绘学报》 EI CSCD 北大核心 2010年第6期636-641,共6页
对新一代卫星重力数据处理中的计算密集型任务进行分析,总结出需要采用并行计算技术提高效率的几个关键任务。对不同的并行手段进行比较,采用OpenMP并行方法,并通过算例验证并行设计方法的有效性。结果表明,并行计算能显著提高卫星重力... 对新一代卫星重力数据处理中的计算密集型任务进行分析,总结出需要采用并行计算技术提高效率的几个关键任务。对不同的并行手段进行比较,采用OpenMP并行方法,并通过算例验证并行设计方法的有效性。结果表明,并行计算能显著提高卫星重力任务的数据处理效率。 展开更多
关键词 并行计算 openmp 卫星重力
下载PDF
OpenMP任务调度开销及负载均衡分析 被引量:16
16
作者 赖建新 胡长军 +2 位作者 赵宇迪 王生原 张素琴 《计算机工程》 EI CAS CSCD 北大核心 2006年第18期58-60,共3页
任务调度是OpenMP规范的重要内容。在考虑调度开销、负载均衡等多方面因素的基础上,OpenMP规范制定了静态调度、动态调度、指数动态调度和运行时调度等不同策略。详细分析了在单次循环时间相等情况下,不同的OpenMP调度策略对额外开销和... 任务调度是OpenMP规范的重要内容。在考虑调度开销、负载均衡等多方面因素的基础上,OpenMP规范制定了静态调度、动态调度、指数动态调度和运行时调度等不同策略。详细分析了在单次循环时间相等情况下,不同的OpenMP调度策略对额外开销和负载均衡的影响;提出了选择不同任务调度策略的原则。 展开更多
关键词 openmp 任务调度 负载均衡 调度开销
下载PDF
基于OpenMP的三维显式物质点法并行化研究 被引量:13
17
作者 黄鹏 张雄 +1 位作者 马上 王汉奎 《计算力学学报》 EI CAS CSCD 北大核心 2010年第1期21-27,共7页
基于OpenMP技术开发了三维显式物质点并行程序MPM3DMP。为了避免节点更新阶段的数据竞争,采用区域分解法将背景网格分解为均匀的子域,每个线程负责一个子域的节点变量更新,然后将更新后的节点变量装配到整体。在质点更新阶段采用了循环... 基于OpenMP技术开发了三维显式物质点并行程序MPM3DMP。为了避免节点更新阶段的数据竞争,采用区域分解法将背景网格分解为均匀的子域,每个线程负责一个子域的节点变量更新,然后将更新后的节点变量装配到整体。在质点更新阶段采用了循环分解方法进行并行。针对Taylor杆碰撞的三种计算模型,在双Intel Woodcrest 4核CPU服务器下进行了测试:粗模型在4核下加速比为3.82,在8核下为6.23,中模型在4核下加速比为3.79,在8核下加速比为6.23;细模型在4核下加速比为3.75,8核下加速比为6.26。因此,本文的并行程序具有较好的并行效率和可扩展性。 展开更多
关键词 openmp 显式物质点法 区域分解法 循环分解方法 加速比
下载PDF
基于OpenMP的遥感影像并行ISODATA聚类研究 被引量:10
18
作者 刘扬 王鹏 +4 位作者 杨瑞 左宪禹 张周威 吴晓洋 渠涧涛 《计算机工程》 CAS CSCD 北大核心 2016年第7期238-243,250,共7页
针对传统影像分类算法执行效率较低,无法满足海量高分辨率遥感数据实时处理需求的问题,对资源三号卫星专题产品中遥感影像的迭代自组织数据分析算法进行分析与研究,设计一种基于OpenMP的并行ISODATA聚类算法(PIsodata Omp)。采用OpenMP... 针对传统影像分类算法执行效率较低,无法满足海量高分辨率遥感数据实时处理需求的问题,对资源三号卫星专题产品中遥感影像的迭代自组织数据分析算法进行分析与研究,设计一种基于OpenMP的并行ISODATA聚类算法(PIsodata Omp)。采用OpenMP技术优化ISODATA算法中的样本点聚类、聚类样本中心标准差计算,实现基于共享内存的单机多核并行化处理。实验结果表明,PIsodata Omp算法能在保证分类精度不变的情况下,明显提高资源三号卫星影像数据的处理速度。 展开更多
关键词 并行聚类 迭代自组织数据分析算法 openmp技术 遥感影像分类 多核处理
下载PDF
一种改进的OpenMP指导调度策略研究 被引量:15
19
作者 刘胜飞 张云泉 孙相征 《计算机研究与发展》 EI CSCD 北大核心 2010年第4期687-694,共8页
在科学计算中,循环结构是最重要的并行对象之一.考虑到负载平衡、调度开销等多方面因素,OpenMP标准提供静态调度、动态调度、指导调度和运行时调度等不同策略.针对指导调度策略不适合递减型循环结构的问题,提出一种改进的new_guided指... 在科学计算中,循环结构是最重要的并行对象之一.考虑到负载平衡、调度开销等多方面因素,OpenMP标准提供静态调度、动态调度、指导调度和运行时调度等不同策略.针对指导调度策略不适合递减型循环结构的问题,提出一种改进的new_guided指导调度策略,并在OMPi编译器上加以实现.New_guided调度策略的主要思想是对前半部分的循环采用静态调度,后半部分的循环采用指导调度.针对不同循环结构,在多核处理器上对不同调度策略进行评测.结果表明,在一般情况下,OpenMP默认的静态策略的调度性能最差;对于规则的循环结构和递增的循环结构,动态调度、指导调度和new_guided策略的性能差别不大;对于递减型的循环结构,动态调度和new_guided策略的性能相当,要优于指导调度策略;对于某些极不规则的随机循环结构,动态调度明显优于其他策略,new_guided策略的性能介于动态调度和指导调度之间. 展开更多
关键词 openmp 负载平衡 静态调度 动态调度 指导调度 OMPi
下载PDF
OpenMP多线程负载均衡调度策略研究与实现 被引量:14
20
作者 任小西 唐玲 李仁发 《计算机科学》 CSCD 北大核心 2010年第11期148-151,183,共5页
循环并行化是OpenMP并行化程序中最重要的部分,线程数、循环体大小、调度策略等是并行化过程需要考虑的主要因素。为了在调度开销与负载均衡之间获得更好的权衡,在OMPi编译器中实现了梯式trapezoid调度策略,以提高OpenMP多线程程序的运... 循环并行化是OpenMP并行化程序中最重要的部分,线程数、循环体大小、调度策略等是并行化过程需要考虑的主要因素。为了在调度开销与负载均衡之间获得更好的权衡,在OMPi编译器中实现了梯式trapezoid调度策略,以提高OpenMP多线程程序的运行性能。实验结果表明,梯式调度策略应用在递减以及某些极不规则的循环结构中,在适当的线程数下,与指数调度相比,该调度策略能表现出更好的性能。 展开更多
关键词 openmp 负载均衡 调度策略 梯式调度 OMPi
下载PDF
上一页 1 2 31 下一页 到第
使用帮助 返回顶部