期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
一种跨平台的并行编程框架设计与实现 被引量:1
1
作者 李婷 徐云 +1 位作者 聂鹏宇 潘玮华 《计算机工程》 CAS CSCD 2014年第8期43-47,共5页
并行程序设计的复杂性及并行计算平台的多样性导致程序可移植性较差。为此,设计并实现一种跨平台、分层次的并行编程框架OpenCH。该框架通过两层并行函数库和层次化的API设计,对上层应用程序隐藏并行化细节,为基于不同计算平台的库函数... 并行程序设计的复杂性及并行计算平台的多样性导致程序可移植性较差。为此,设计并实现一种跨平台、分层次的并行编程框架OpenCH。该框架通过两层并行函数库和层次化的API设计,对上层应用程序隐藏并行化细节,为基于不同计算平台的库函数设计了统一的函数接口,使底层平台的变化对上层应用程序透明。根据底层函数库的开发,给出一种填充式的编程方法和任务调度系统。将OpenCH应用于遥感影像分类,实验结果证明,基于该框架开发的并行程序可运行于多种并行计算平台,并具有较高的并行加速比,编程框架本身造成的时间开销低于15%。 展开更多
关键词 并行计算 并行编程框架 跨平台 openmp编程 MPI编程 CUDA编程
下载PDF
基于三层混合编程模型的Petri网并行算法研究 被引量:2
2
作者 周杰 李文敬 《计算机科学》 CSCD 北大核心 2017年第B11期586-591,595,共7页
为解决多核机群Petri网并行化过程中,运用MPI+OPenMP混合编程实现同步会出现死锁的问题,提出了基于三层混合编程模型的Petri网并行算法。首先,根据事务内存的同步优势,在多核机群环境下构建MPI+OPenMP+STM的三层编程模型;然后,对Petri... 为解决多核机群Petri网并行化过程中,运用MPI+OPenMP混合编程实现同步会出现死锁的问题,提出了基于三层混合编程模型的Petri网并行算法。首先,根据事务内存的同步优势,在多核机群环境下构建MPI+OPenMP+STM的三层编程模型;然后,对Petri网的几何模型与代数模型的并行化进行分析,建立MPI+OPenMP+STM三层结构的Petri网并行模型,并对三层混合编程模型的Petri网并行算法进行设计与分析;最后,通过示例进行编程验证,该算法的运行效率明显优于其他编程模式,而且Petri网的规模越大,其并行计算的效果就越明显。因此,该算法是多核机群环境下模拟Petri网并行运行的一种高效且可行的算法。 展开更多
关键词 PETRI网 MPI+openmp+STM编程 Petri网并行化 Petri网并行模型 并行算法
下载PDF
基于CMP多核集群的混合并行编程技术研究 被引量:1
3
作者 王文义 王春霞 王杰 《计算机科学》 CSCD 北大核心 2014年第2期19-22,共4页
高性能科学计算(High Performance Science Computing,简称HPC)是验证某些理论和测试计算机系统处理能力的一种有效的实验手段。鉴于目前CMP(Chip Multi-processor)多核集群已变得越来越普及,尝试对由MPI和OpenMP两种不同并行编程技术... 高性能科学计算(High Performance Science Computing,简称HPC)是验证某些理论和测试计算机系统处理能力的一种有效的实验手段。鉴于目前CMP(Chip Multi-processor)多核集群已变得越来越普及,尝试对由MPI和OpenMP两种不同并行编程技术构成的混合编程模式做一些实验性的研究。通过对程序执行时间和加速比的实验数据分析,可以看出在多核和多节点集群上采用细粒度的混合并行编程方法较单一使用MPI并行编程方法更加合理和高效,也更能体现出系统硬软件的特性与优势。 展开更多
关键词 高性能计算 CMP多核集群 墙钟时间 MPI+openmp混合并行编程
下载PDF
金字塔模板匹配算法融合NMSFast以及优化研究
4
作者 袁学枫 周骅 +1 位作者 赵麒 易忠 《运筹与模糊学》 2023年第4期3994-4003,共10页
图像模板匹配是计算机视觉领域的一项重要任务,它在许多应用中都有广泛的应用。然而,传统的模板匹配算法在大规模图像和复杂场景下存在计算量大、效率低的问题。为了解决这些问题,本文提出融合快速非最大抑制(NMSFast)的金字塔模板匹配... 图像模板匹配是计算机视觉领域的一项重要任务,它在许多应用中都有广泛的应用。然而,传统的模板匹配算法在大规模图像和复杂场景下存在计算量大、效率低的问题。为了解决这些问题,本文提出融合快速非最大抑制(NMSFast)的金字塔模板匹配算法,提高准确度,并通过特征提取、查表优化、OpenMP并行、量化等技术对其优化,从而提高效率。基于Sobel获取图像的梯度信息,并结合阈值和强度条件来筛选候选特征点以达到特征提取。通过查表创建模板特征和对应搜索图像特征之间的关联关系和缩放因子和旋转角度对应的变换矩阵的索引表。将特征数据进行量化,其转换为更简单的浮点数,对角度图像进行8方向量化,结合阈值过滤无效角度值。以上优化能够减少计算量和存储空间的消耗。OpenMP并行技术对金字塔进行并行分层搜索,将单线程变成多线程,可以提高算法的运行速度。实验结果表明,所提出的金字塔模板匹配算法融合NMSFast算法在大规模图像匹配任务中,运算时间提高51%,精度提高1.7%。 展开更多
关键词 金字塔模板匹配 NMSFast 特征提取 查表优化 openmp并行编程 量化
下载PDF
非线性扩散方程的显式并行计算
5
作者 迟利华 刘杰 《计算机工程》 CAS CSCD 北大核心 2010年第21期25-27,共3页
在分布共享的多核集群系统中,提出一种求解非线性扩散方程的显式数据分布OpenMP并行计算方法。将数据进行分布式划分后分配到每个OpenMP线程,通过数据拷贝实现同步计算,并设计全局归约算法减少障碍同步次数。性能分析和测试结果表明,该... 在分布共享的多核集群系统中,提出一种求解非线性扩散方程的显式数据分布OpenMP并行计算方法。将数据进行分布式划分后分配到每个OpenMP线程,通过数据拷贝实现同步计算,并设计全局归约算法减少障碍同步次数。性能分析和测试结果表明,该方法在4核Xeon处理器构成的分布共享集群系统上可扩展到1024个CPU核,相对于64个CPU核,其加速比为7.06。 展开更多
关键词 openmp编程模型 多核集群系统 非线性扩散方程 并行计算
下载PDF
共享存储环境下非平衡动力学方程组并行计算
6
作者 迟利华 刘杰 《计算机应用》 CSCD 北大核心 2010年第A01期237-240,共4页
OpenMP是现代多核机群系统采用的主要并行编程模型之一,在单CPU多核上可以获得良好的加速性能,但在整个机群系统上使用时,需要解决可扩展性差的问题。首先设计了求解非平衡动力学方程的并行算法。基于分布共享的多核机群系统,采用显式... OpenMP是现代多核机群系统采用的主要并行编程模型之一,在单CPU多核上可以获得良好的加速性能,但在整个机群系统上使用时,需要解决可扩展性差的问题。首先设计了求解非平衡动力学方程的并行算法。基于分布共享的多核机群系统,采用显式数据分布OpenMP并行计算方法,将数据进行分布式划分,分配到每个OpenMP线程,通过数据共享实现数据交换。计算结果表明显式OpenMP并行程序在保持可读性的同时,具有良好的可扩展性,在4核Xeon处理器构成的分布共享机群系统上,非平衡动力学方程组的数值并行计算可以扩展到1 024个CPU核,具有明显的并行加速计算效果。 展开更多
关键词 openmp编程模型 多核机群系统 非平衡动力学方程组 并行计算
下载PDF
GRAPES动力框架中大规模稀疏线性系统并行求解及优化 被引量:2
7
作者 张琨 贾金芳 +2 位作者 严文昕 黄建强 王晓英 《计算机工程》 CAS CSCD 北大核心 2022年第1期149-154,162,共7页
赫姆霍兹方程求解是GRAPES数值天气预报系统动力框架中的核心部分,可转换为大规模稀疏线性系统的求解问题,但受限于硬件资源和数据规模,其求解效率成为限制系统计算性能提升的瓶颈。分别通过MPI、MPI+OpenMP、CUDA三种并行方式实现求解... 赫姆霍兹方程求解是GRAPES数值天气预报系统动力框架中的核心部分,可转换为大规模稀疏线性系统的求解问题,但受限于硬件资源和数据规模,其求解效率成为限制系统计算性能提升的瓶颈。分别通过MPI、MPI+OpenMP、CUDA三种并行方式实现求解大规模稀疏线性方程组的广义共轭余差法,并利用不完全分解LU预处理子(ILU)优化系数矩阵的条件数,加快迭代法收敛。在CPU并行方案中,MPI负责进程间粗粒度并行和通信,OpenMP结合共享内存实现进程内部的细粒度并行,而在GPU并行方案中,CUDA模型采用数据传输、访存合并及共享存储器方面的优化措施。实验结果表明,通过预处理优化减少迭代次数对计算性能提升明显,MPI+OpenMP混合并行优化较MPI并行优化性能提高约35%,CUDA并行优化较MPI+OpenMP混合并行优化性能提高约50%,优化性能最佳。 展开更多
关键词 稀疏线性系统 广义共轭余差法 信息传递接口 openmp编程 统一计算架构
下载PDF
面向神威高性能多核处理器的并行编译优化方法
8
作者 周雍浩 徐金龙 +2 位作者 李斌 钱宏 聂凯 《计算机工程》 CAS CSCD 北大核心 2022年第9期130-138,共9页
在神威高性能多核服务器上,自动并行化编译系统为识别和申明程序中的并行性,产生的OpenMP程序没有经过充分的优化,其采用简单的fork-join模型,存在大量的并行循环嵌套,导致运行效率低。为提升自动并行化编译系统产生的OpenMP程序的运行... 在神威高性能多核服务器上,自动并行化编译系统为识别和申明程序中的并行性,产生的OpenMP程序没有经过充分的优化,其采用简单的fork-join模型,存在大量的并行循环嵌套,导致运行效率低。为提升自动并行化编译系统产生的OpenMP程序的运行效率,提出一种并行域重构优化技术。并行域重构技术通过合并程序中的并行域和扩展嵌套循环中的并行域范围,减少OpenMP程序的并行域数目,降低线程组频繁创建和合并等控制开销,将简单fork-join模型的OpenMP程序转换为性能更为高效的单程序多数据模型的OpenMP程序。实验结果表明,在新一代神威高性能多核服务器SW1621平台上,并行域重构技术在NPB3.3-OMP测试集和SPEC OMP2012测试集上的运行效率分别提高了10.77%和7.94%的,可有效提升自动并行化编译系统OpenMP程序的执行效率。 展开更多
关键词 神威高性能多核处理器 openmp编程 并行域重构 fork-join模型 单程序多数据模型
下载PDF
FDTD算法的三级并行实现 被引量:1
9
作者 张立红 余文华 《计算机工程》 CAS CSCD 北大核心 2011年第S1期333-335,共3页
传统的并行FDTD算法都是基于MPI或OpenMP或MPI+OpenMP的一级或两级并行算法。为加速基于MPI+OpenMP的两级并行FDTD算法,把基于SSE指令集的并行加速技术引入到FDTD算法中,采用基于MPI+OpenMP+SSE指令集的三级并行加速技术。在PC集群上对C... 传统的并行FDTD算法都是基于MPI或OpenMP或MPI+OpenMP的一级或两级并行算法。为加速基于MPI+OpenMP的两级并行FDTD算法,把基于SSE指令集的并行加速技术引入到FDTD算法中,采用基于MPI+OpenMP+SSE指令集的三级并行加速技术。在PC集群上对CPML吸收边界下点源在真空中传播的理想情况进行加速测试。基于SSE指令集的加速技术理想加速比为4,实验中在网格数为200 200 200情况下得到的加速比为2.44,加速效果较好。 展开更多
关键词 时域有限差分 消息传递接口 openmp共享存储编程 SSE指令集 并行
下载PDF
高分辨率星载SAR并行成像处理系统设计
10
作者 张凤明 周荫清 +1 位作者 文竹 陈杰 《遥测遥控》 2005年第6期19-22,共4页
针对高分辨率星载SAR成像处理流程的特点,提出一种高分辨率星载SAR并行成像处理系统方案。该系 统能完成星载SAR数据预处理、轨道参数及多普勒参数计算、多普勒参数估计、成像处理以及辐射校正等功能。系统采 用模块设计,具有很强的向... 针对高分辨率星载SAR成像处理流程的特点,提出一种高分辨率星载SAR并行成像处理系统方案。该系 统能完成星载SAR数据预处理、轨道参数及多普勒参数计算、多普勒参数估计、成像处理以及辐射校正等功能。系统采 用模块设计,具有很强的向后兼容和可扩展性;同时,基于多CPU高性能计算机的并行结构,使系统具有很高的实时性。 测试证明系统设计合理和有效。 展开更多
关键词 合成孔径雷达 并行处理 openmp编程模型
下载PDF
大场景点云文件多核并行批量压缩方法研究 被引量:1
11
作者 樊星 段富 牛保宁 《太原理工大学学报》 北大核心 2017年第6期973-977,共5页
为了减少大场景点云文件无损压缩时间,避免数据处理过程中人工操作造成的时间浪费和输入失误,本文引入LASzip点云无损压缩算法和OpenMP并行编程技术,提出了在单机多核CPU系统环境下基于LASzip的大场景点云文件多核并行批量压缩算法。实... 为了减少大场景点云文件无损压缩时间,避免数据处理过程中人工操作造成的时间浪费和输入失误,本文引入LASzip点云无损压缩算法和OpenMP并行编程技术,提出了在单机多核CPU系统环境下基于LASzip的大场景点云文件多核并行批量压缩算法。实验结果显示,与串行算法相比,并行算法在压缩比不变的情况下压缩时间明显下降,取得了很好的加速比。当线程数为8时,压缩和解压缩加速比分别达到4.27和3.99,优化效果显著。 展开更多
关键词 点云文件 多核 openmp并行编程技术 LASzip无损压缩算法 并行批量压缩
下载PDF
基于二维结构化网格的可压缩流体并行算法研究 被引量:1
12
作者 皇甫永硕 刘杰 龚春叶 《计算机工程与科学》 CSCD 北大核心 2017年第9期1602-1609,共8页
基于二维/轴对称高精度可压缩多相流计算流体力学方法 MuSiC-CCASSIM的结构化网格部分,设计了区域并行分解方法;针对各处理器边界数据的通信,设计了阻塞式通信与非阻塞式通信并行算法;为了减少通信开销,设计了MPI/OpenMP混合并行优化算... 基于二维/轴对称高精度可压缩多相流计算流体力学方法 MuSiC-CCASSIM的结构化网格部分,设计了区域并行分解方法;针对各处理器边界数据的通信,设计了阻塞式通信与非阻塞式通信并行算法;为了减少通信开销,设计了MPI/OpenMP混合并行优化算法。在天河二号超级计算机上进行了测试,每个核固定网格规模为625*250,最多调用8 192核。测试数据表明,采用MPI/OpenMP混合并行算法、纯MPI非阻塞式通信并行算法和纯MPI阻塞式通信并行算法的程序的平均并行效率分别达到86%、83%和77%,三种算法都具有良好的可扩展性。 展开更多
关键词 并行计算 阻塞式通信 非阻塞式通信 MPI/openmp混合编程 天河计算机
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部