期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
12
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种跨平台的并行编程框架设计与实现
被引量:
1
1
作者
李婷
徐云
+1 位作者
聂鹏宇
潘玮华
《计算机工程》
CAS
CSCD
2014年第8期43-47,共5页
并行程序设计的复杂性及并行计算平台的多样性导致程序可移植性较差。为此,设计并实现一种跨平台、分层次的并行编程框架OpenCH。该框架通过两层并行函数库和层次化的API设计,对上层应用程序隐藏并行化细节,为基于不同计算平台的库函数...
并行程序设计的复杂性及并行计算平台的多样性导致程序可移植性较差。为此,设计并实现一种跨平台、分层次的并行编程框架OpenCH。该框架通过两层并行函数库和层次化的API设计,对上层应用程序隐藏并行化细节,为基于不同计算平台的库函数设计了统一的函数接口,使底层平台的变化对上层应用程序透明。根据底层函数库的开发,给出一种填充式的编程方法和任务调度系统。将OpenCH应用于遥感影像分类,实验结果证明,基于该框架开发的并行程序可运行于多种并行计算平台,并具有较高的并行加速比,编程框架本身造成的时间开销低于15%。
展开更多
关键词
并行计算
并行
编程
框架
跨平台
openmp编程
MPI
编程
CUDA
编程
下载PDF
职称材料
基于三层混合编程模型的Petri网并行算法研究
被引量:
2
2
作者
周杰
李文敬
《计算机科学》
CSCD
北大核心
2017年第B11期586-591,595,共7页
为解决多核机群Petri网并行化过程中,运用MPI+OPenMP混合编程实现同步会出现死锁的问题,提出了基于三层混合编程模型的Petri网并行算法。首先,根据事务内存的同步优势,在多核机群环境下构建MPI+OPenMP+STM的三层编程模型;然后,对Petri...
为解决多核机群Petri网并行化过程中,运用MPI+OPenMP混合编程实现同步会出现死锁的问题,提出了基于三层混合编程模型的Petri网并行算法。首先,根据事务内存的同步优势,在多核机群环境下构建MPI+OPenMP+STM的三层编程模型;然后,对Petri网的几何模型与代数模型的并行化进行分析,建立MPI+OPenMP+STM三层结构的Petri网并行模型,并对三层混合编程模型的Petri网并行算法进行设计与分析;最后,通过示例进行编程验证,该算法的运行效率明显优于其他编程模式,而且Petri网的规模越大,其并行计算的效果就越明显。因此,该算法是多核机群环境下模拟Petri网并行运行的一种高效且可行的算法。
展开更多
关键词
PETRI网
MPI+
openmp
+STM
编程
Petri网并行化
Petri网并行模型
并行算法
下载PDF
职称材料
基于CMP多核集群的混合并行编程技术研究
被引量:
1
3
作者
王文义
王春霞
王杰
《计算机科学》
CSCD
北大核心
2014年第2期19-22,共4页
高性能科学计算(High Performance Science Computing,简称HPC)是验证某些理论和测试计算机系统处理能力的一种有效的实验手段。鉴于目前CMP(Chip Multi-processor)多核集群已变得越来越普及,尝试对由MPI和OpenMP两种不同并行编程技术...
高性能科学计算(High Performance Science Computing,简称HPC)是验证某些理论和测试计算机系统处理能力的一种有效的实验手段。鉴于目前CMP(Chip Multi-processor)多核集群已变得越来越普及,尝试对由MPI和OpenMP两种不同并行编程技术构成的混合编程模式做一些实验性的研究。通过对程序执行时间和加速比的实验数据分析,可以看出在多核和多节点集群上采用细粒度的混合并行编程方法较单一使用MPI并行编程方法更加合理和高效,也更能体现出系统硬软件的特性与优势。
展开更多
关键词
高性能计算
CMP多核集群
墙钟时间
MPI+
openmp
混合并行
编程
下载PDF
职称材料
金字塔模板匹配算法融合NMSFast以及优化研究
4
作者
袁学枫
周骅
+1 位作者
赵麒
易忠
《运筹与模糊学》
2023年第4期3994-4003,共10页
图像模板匹配是计算机视觉领域的一项重要任务,它在许多应用中都有广泛的应用。然而,传统的模板匹配算法在大规模图像和复杂场景下存在计算量大、效率低的问题。为了解决这些问题,本文提出融合快速非最大抑制(NMSFast)的金字塔模板匹配...
图像模板匹配是计算机视觉领域的一项重要任务,它在许多应用中都有广泛的应用。然而,传统的模板匹配算法在大规模图像和复杂场景下存在计算量大、效率低的问题。为了解决这些问题,本文提出融合快速非最大抑制(NMSFast)的金字塔模板匹配算法,提高准确度,并通过特征提取、查表优化、OpenMP并行、量化等技术对其优化,从而提高效率。基于Sobel获取图像的梯度信息,并结合阈值和强度条件来筛选候选特征点以达到特征提取。通过查表创建模板特征和对应搜索图像特征之间的关联关系和缩放因子和旋转角度对应的变换矩阵的索引表。将特征数据进行量化,其转换为更简单的浮点数,对角度图像进行8方向量化,结合阈值过滤无效角度值。以上优化能够减少计算量和存储空间的消耗。OpenMP并行技术对金字塔进行并行分层搜索,将单线程变成多线程,可以提高算法的运行速度。实验结果表明,所提出的金字塔模板匹配算法融合NMSFast算法在大规模图像匹配任务中,运算时间提高51%,精度提高1.7%。
展开更多
关键词
金字塔模板匹配
NMSFast
特征提取
查表优化
openmp
并行
编程
量化
下载PDF
职称材料
非线性扩散方程的显式并行计算
5
作者
迟利华
刘杰
《计算机工程》
CAS
CSCD
北大核心
2010年第21期25-27,共3页
在分布共享的多核集群系统中,提出一种求解非线性扩散方程的显式数据分布OpenMP并行计算方法。将数据进行分布式划分后分配到每个OpenMP线程,通过数据拷贝实现同步计算,并设计全局归约算法减少障碍同步次数。性能分析和测试结果表明,该...
在分布共享的多核集群系统中,提出一种求解非线性扩散方程的显式数据分布OpenMP并行计算方法。将数据进行分布式划分后分配到每个OpenMP线程,通过数据拷贝实现同步计算,并设计全局归约算法减少障碍同步次数。性能分析和测试结果表明,该方法在4核Xeon处理器构成的分布共享集群系统上可扩展到1024个CPU核,相对于64个CPU核,其加速比为7.06。
展开更多
关键词
openmp编程
模型
多核集群系统
非线性扩散方程
并行计算
下载PDF
职称材料
共享存储环境下非平衡动力学方程组并行计算
6
作者
迟利华
刘杰
《计算机应用》
CSCD
北大核心
2010年第A01期237-240,共4页
OpenMP是现代多核机群系统采用的主要并行编程模型之一,在单CPU多核上可以获得良好的加速性能,但在整个机群系统上使用时,需要解决可扩展性差的问题。首先设计了求解非平衡动力学方程的并行算法。基于分布共享的多核机群系统,采用显式...
OpenMP是现代多核机群系统采用的主要并行编程模型之一,在单CPU多核上可以获得良好的加速性能,但在整个机群系统上使用时,需要解决可扩展性差的问题。首先设计了求解非平衡动力学方程的并行算法。基于分布共享的多核机群系统,采用显式数据分布OpenMP并行计算方法,将数据进行分布式划分,分配到每个OpenMP线程,通过数据共享实现数据交换。计算结果表明显式OpenMP并行程序在保持可读性的同时,具有良好的可扩展性,在4核Xeon处理器构成的分布共享机群系统上,非平衡动力学方程组的数值并行计算可以扩展到1 024个CPU核,具有明显的并行加速计算效果。
展开更多
关键词
openmp编程
模型
多核机群系统
非平衡动力学方程组
并行计算
下载PDF
职称材料
GRAPES动力框架中大规模稀疏线性系统并行求解及优化
被引量:
2
7
作者
张琨
贾金芳
+2 位作者
严文昕
黄建强
王晓英
《计算机工程》
CAS
CSCD
北大核心
2022年第1期149-154,162,共7页
赫姆霍兹方程求解是GRAPES数值天气预报系统动力框架中的核心部分,可转换为大规模稀疏线性系统的求解问题,但受限于硬件资源和数据规模,其求解效率成为限制系统计算性能提升的瓶颈。分别通过MPI、MPI+OpenMP、CUDA三种并行方式实现求解...
赫姆霍兹方程求解是GRAPES数值天气预报系统动力框架中的核心部分,可转换为大规模稀疏线性系统的求解问题,但受限于硬件资源和数据规模,其求解效率成为限制系统计算性能提升的瓶颈。分别通过MPI、MPI+OpenMP、CUDA三种并行方式实现求解大规模稀疏线性方程组的广义共轭余差法,并利用不完全分解LU预处理子(ILU)优化系数矩阵的条件数,加快迭代法收敛。在CPU并行方案中,MPI负责进程间粗粒度并行和通信,OpenMP结合共享内存实现进程内部的细粒度并行,而在GPU并行方案中,CUDA模型采用数据传输、访存合并及共享存储器方面的优化措施。实验结果表明,通过预处理优化减少迭代次数对计算性能提升明显,MPI+OpenMP混合并行优化较MPI并行优化性能提高约35%,CUDA并行优化较MPI+OpenMP混合并行优化性能提高约50%,优化性能最佳。
展开更多
关键词
稀疏线性系统
广义共轭余差法
信息传递接口
openmp编程
统一计算架构
下载PDF
职称材料
面向神威高性能多核处理器的并行编译优化方法
8
作者
周雍浩
徐金龙
+2 位作者
李斌
钱宏
聂凯
《计算机工程》
CAS
CSCD
北大核心
2022年第9期130-138,共9页
在神威高性能多核服务器上,自动并行化编译系统为识别和申明程序中的并行性,产生的OpenMP程序没有经过充分的优化,其采用简单的fork-join模型,存在大量的并行循环嵌套,导致运行效率低。为提升自动并行化编译系统产生的OpenMP程序的运行...
在神威高性能多核服务器上,自动并行化编译系统为识别和申明程序中的并行性,产生的OpenMP程序没有经过充分的优化,其采用简单的fork-join模型,存在大量的并行循环嵌套,导致运行效率低。为提升自动并行化编译系统产生的OpenMP程序的运行效率,提出一种并行域重构优化技术。并行域重构技术通过合并程序中的并行域和扩展嵌套循环中的并行域范围,减少OpenMP程序的并行域数目,降低线程组频繁创建和合并等控制开销,将简单fork-join模型的OpenMP程序转换为性能更为高效的单程序多数据模型的OpenMP程序。实验结果表明,在新一代神威高性能多核服务器SW1621平台上,并行域重构技术在NPB3.3-OMP测试集和SPEC OMP2012测试集上的运行效率分别提高了10.77%和7.94%的,可有效提升自动并行化编译系统OpenMP程序的执行效率。
展开更多
关键词
神威高性能多核处理器
openmp编程
并行域重构
fork-join模型
单程序多数据模型
下载PDF
职称材料
FDTD算法的三级并行实现
被引量:
1
9
作者
张立红
余文华
《计算机工程》
CAS
CSCD
北大核心
2011年第S1期333-335,共3页
传统的并行FDTD算法都是基于MPI或OpenMP或MPI+OpenMP的一级或两级并行算法。为加速基于MPI+OpenMP的两级并行FDTD算法,把基于SSE指令集的并行加速技术引入到FDTD算法中,采用基于MPI+OpenMP+SSE指令集的三级并行加速技术。在PC集群上对C...
传统的并行FDTD算法都是基于MPI或OpenMP或MPI+OpenMP的一级或两级并行算法。为加速基于MPI+OpenMP的两级并行FDTD算法,把基于SSE指令集的并行加速技术引入到FDTD算法中,采用基于MPI+OpenMP+SSE指令集的三级并行加速技术。在PC集群上对CPML吸收边界下点源在真空中传播的理想情况进行加速测试。基于SSE指令集的加速技术理想加速比为4,实验中在网格数为200 200 200情况下得到的加速比为2.44,加速效果较好。
展开更多
关键词
时域有限差分
消息传递接口
openmp
共享存储
编程
SSE指令集
并行
下载PDF
职称材料
高分辨率星载SAR并行成像处理系统设计
10
作者
张凤明
周荫清
+1 位作者
文竹
陈杰
《遥测遥控》
2005年第6期19-22,共4页
针对高分辨率星载SAR成像处理流程的特点,提出一种高分辨率星载SAR并行成像处理系统方案。该系 统能完成星载SAR数据预处理、轨道参数及多普勒参数计算、多普勒参数估计、成像处理以及辐射校正等功能。系统采 用模块设计,具有很强的向...
针对高分辨率星载SAR成像处理流程的特点,提出一种高分辨率星载SAR并行成像处理系统方案。该系 统能完成星载SAR数据预处理、轨道参数及多普勒参数计算、多普勒参数估计、成像处理以及辐射校正等功能。系统采 用模块设计,具有很强的向后兼容和可扩展性;同时,基于多CPU高性能计算机的并行结构,使系统具有很高的实时性。 测试证明系统设计合理和有效。
展开更多
关键词
合成孔径雷达
并行处理
openmp编程
模型
下载PDF
职称材料
大场景点云文件多核并行批量压缩方法研究
被引量:
1
11
作者
樊星
段富
牛保宁
《太原理工大学学报》
北大核心
2017年第6期973-977,共5页
为了减少大场景点云文件无损压缩时间,避免数据处理过程中人工操作造成的时间浪费和输入失误,本文引入LASzip点云无损压缩算法和OpenMP并行编程技术,提出了在单机多核CPU系统环境下基于LASzip的大场景点云文件多核并行批量压缩算法。实...
为了减少大场景点云文件无损压缩时间,避免数据处理过程中人工操作造成的时间浪费和输入失误,本文引入LASzip点云无损压缩算法和OpenMP并行编程技术,提出了在单机多核CPU系统环境下基于LASzip的大场景点云文件多核并行批量压缩算法。实验结果显示,与串行算法相比,并行算法在压缩比不变的情况下压缩时间明显下降,取得了很好的加速比。当线程数为8时,压缩和解压缩加速比分别达到4.27和3.99,优化效果显著。
展开更多
关键词
点云文件
多核
openmp
并行
编程
技术
LASzip无损压缩算法
并行批量压缩
下载PDF
职称材料
基于二维结构化网格的可压缩流体并行算法研究
被引量:
1
12
作者
皇甫永硕
刘杰
龚春叶
《计算机工程与科学》
CSCD
北大核心
2017年第9期1602-1609,共8页
基于二维/轴对称高精度可压缩多相流计算流体力学方法 MuSiC-CCASSIM的结构化网格部分,设计了区域并行分解方法;针对各处理器边界数据的通信,设计了阻塞式通信与非阻塞式通信并行算法;为了减少通信开销,设计了MPI/OpenMP混合并行优化算...
基于二维/轴对称高精度可压缩多相流计算流体力学方法 MuSiC-CCASSIM的结构化网格部分,设计了区域并行分解方法;针对各处理器边界数据的通信,设计了阻塞式通信与非阻塞式通信并行算法;为了减少通信开销,设计了MPI/OpenMP混合并行优化算法。在天河二号超级计算机上进行了测试,每个核固定网格规模为625*250,最多调用8 192核。测试数据表明,采用MPI/OpenMP混合并行算法、纯MPI非阻塞式通信并行算法和纯MPI阻塞式通信并行算法的程序的平均并行效率分别达到86%、83%和77%,三种算法都具有良好的可扩展性。
展开更多
关键词
并行计算
阻塞式通信
非阻塞式通信
MPI/
openmp
混合
编程
天河计算机
下载PDF
职称材料
题名
一种跨平台的并行编程框架设计与实现
被引量:
1
1
作者
李婷
徐云
聂鹏宇
潘玮华
机构
国家高性能计算中心(合肥)
中国科学技术大学计算机科学与技术学院
出处
《计算机工程》
CAS
CSCD
2014年第8期43-47,共5页
基金
国家自然科学基金资助重点项目(61033009)
国家自然科学基金资助面上项目(60970085)
文摘
并行程序设计的复杂性及并行计算平台的多样性导致程序可移植性较差。为此,设计并实现一种跨平台、分层次的并行编程框架OpenCH。该框架通过两层并行函数库和层次化的API设计,对上层应用程序隐藏并行化细节,为基于不同计算平台的库函数设计了统一的函数接口,使底层平台的变化对上层应用程序透明。根据底层函数库的开发,给出一种填充式的编程方法和任务调度系统。将OpenCH应用于遥感影像分类,实验结果证明,基于该框架开发的并行程序可运行于多种并行计算平台,并具有较高的并行加速比,编程框架本身造成的时间开销低于15%。
关键词
并行计算
并行
编程
框架
跨平台
openmp编程
MPI
编程
CUDA
编程
Keywords
parallel computing
parallel programming framework
cross-platform
openmp
programming
MPI programming
CUDA programming
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于三层混合编程模型的Petri网并行算法研究
被引量:
2
2
作者
周杰
李文敬
机构
广西师范学院计算机与信息工程学院
广西师范学院科学计算与智能信息处理高校重点实验室
广西师范学院物流管理与工程学院
出处
《计算机科学》
CSCD
北大核心
2017年第B11期586-591,595,共7页
基金
国家自然科学基金(61363037
61363074
+2 种基金
61163012)
广西自然科学基金(2016GXNSFAA380243)
广西自然科学基金重点项目(2014GXNSFDA118037)资助
文摘
为解决多核机群Petri网并行化过程中,运用MPI+OPenMP混合编程实现同步会出现死锁的问题,提出了基于三层混合编程模型的Petri网并行算法。首先,根据事务内存的同步优势,在多核机群环境下构建MPI+OPenMP+STM的三层编程模型;然后,对Petri网的几何模型与代数模型的并行化进行分析,建立MPI+OPenMP+STM三层结构的Petri网并行模型,并对三层混合编程模型的Petri网并行算法进行设计与分析;最后,通过示例进行编程验证,该算法的运行效率明显优于其他编程模式,而且Petri网的规模越大,其并行计算的效果就越明显。因此,该算法是多核机群环境下模拟Petri网并行运行的一种高效且可行的算法。
关键词
PETRI网
MPI+
openmp
+STM
编程
Petri网并行化
Petri网并行模型
并行算法
Keywords
Petri net, MPI+
openmp
+STM programming, Petri net parallelization, Petri net parallel model, Parallel algorithm
分类号
TP301.1 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于CMP多核集群的混合并行编程技术研究
被引量:
1
3
作者
王文义
王春霞
王杰
机构
中原工学院并行处理技术研究所
出处
《计算机科学》
CSCD
北大核心
2014年第2期19-22,共4页
基金
国家863计划项目(2008AA01A315)
河南省基础与前沿技术研究项目(1223 00410314)资助
文摘
高性能科学计算(High Performance Science Computing,简称HPC)是验证某些理论和测试计算机系统处理能力的一种有效的实验手段。鉴于目前CMP(Chip Multi-processor)多核集群已变得越来越普及,尝试对由MPI和OpenMP两种不同并行编程技术构成的混合编程模式做一些实验性的研究。通过对程序执行时间和加速比的实验数据分析,可以看出在多核和多节点集群上采用细粒度的混合并行编程方法较单一使用MPI并行编程方法更加合理和高效,也更能体现出系统硬软件的特性与优势。
关键词
高性能计算
CMP多核集群
墙钟时间
MPI+
openmp
混合并行
编程
Keywords
High performance computing, CMP multi-core cluster, Wall clock time, Hybrid parallel programming with MPICH and
openmp
分类号
TP39 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
金字塔模板匹配算法融合NMSFast以及优化研究
4
作者
袁学枫
周骅
赵麒
易忠
机构
贵州大学大数据与信息工程学院
贵州民族大学机械电子工程学院
出处
《运筹与模糊学》
2023年第4期3994-4003,共10页
文摘
图像模板匹配是计算机视觉领域的一项重要任务,它在许多应用中都有广泛的应用。然而,传统的模板匹配算法在大规模图像和复杂场景下存在计算量大、效率低的问题。为了解决这些问题,本文提出融合快速非最大抑制(NMSFast)的金字塔模板匹配算法,提高准确度,并通过特征提取、查表优化、OpenMP并行、量化等技术对其优化,从而提高效率。基于Sobel获取图像的梯度信息,并结合阈值和强度条件来筛选候选特征点以达到特征提取。通过查表创建模板特征和对应搜索图像特征之间的关联关系和缩放因子和旋转角度对应的变换矩阵的索引表。将特征数据进行量化,其转换为更简单的浮点数,对角度图像进行8方向量化,结合阈值过滤无效角度值。以上优化能够减少计算量和存储空间的消耗。OpenMP并行技术对金字塔进行并行分层搜索,将单线程变成多线程,可以提高算法的运行速度。实验结果表明,所提出的金字塔模板匹配算法融合NMSFast算法在大规模图像匹配任务中,运算时间提高51%,精度提高1.7%。
关键词
金字塔模板匹配
NMSFast
特征提取
查表优化
openmp
并行
编程
量化
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
非线性扩散方程的显式并行计算
5
作者
迟利华
刘杰
机构
国防科学技术大学计算机学院
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第21期25-27,共3页
基金
国家自然科学基金资助项目(60673150)
国家"863"计划基金资助项目(2008AA01Z137)
文摘
在分布共享的多核集群系统中,提出一种求解非线性扩散方程的显式数据分布OpenMP并行计算方法。将数据进行分布式划分后分配到每个OpenMP线程,通过数据拷贝实现同步计算,并设计全局归约算法减少障碍同步次数。性能分析和测试结果表明,该方法在4核Xeon处理器构成的分布共享集群系统上可扩展到1024个CPU核,相对于64个CPU核,其加速比为7.06。
关键词
openmp编程
模型
多核集群系统
非线性扩散方程
并行计算
Keywords
openmp
programming model
multi-core cluster system
nonlinear diffuse equation
parallel computation
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
共享存储环境下非平衡动力学方程组并行计算
6
作者
迟利华
刘杰
机构
国防科学技术大学计算机学院
出处
《计算机应用》
CSCD
北大核心
2010年第A01期237-240,共4页
基金
国家自然科学基金资助项目(6067315060970033)
国家863计划项目(2008AA01Z137)
文摘
OpenMP是现代多核机群系统采用的主要并行编程模型之一,在单CPU多核上可以获得良好的加速性能,但在整个机群系统上使用时,需要解决可扩展性差的问题。首先设计了求解非平衡动力学方程的并行算法。基于分布共享的多核机群系统,采用显式数据分布OpenMP并行计算方法,将数据进行分布式划分,分配到每个OpenMP线程,通过数据共享实现数据交换。计算结果表明显式OpenMP并行程序在保持可读性的同时,具有良好的可扩展性,在4核Xeon处理器构成的分布共享机群系统上,非平衡动力学方程组的数值并行计算可以扩展到1 024个CPU核,具有明显的并行加速计算效果。
关键词
openmp编程
模型
多核机群系统
非平衡动力学方程组
并行计算
Keywords
openmp
programming model
multi-core cluster system
non-equilibrium dynamics equation
parallel computation
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
TP316.4 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
GRAPES动力框架中大规模稀疏线性系统并行求解及优化
被引量:
2
7
作者
张琨
贾金芳
严文昕
黄建强
王晓英
机构
青海大学计算机技术与应用系
清华大学计算机科学与技术系
出处
《计算机工程》
CAS
CSCD
北大核心
2022年第1期149-154,162,共7页
基金
国家自然科学基金(61762074,62062059)
青海省科技计划(2019-ZJ-7034)
教育部“春晖计划”科研基金(QDCH2018001)。
文摘
赫姆霍兹方程求解是GRAPES数值天气预报系统动力框架中的核心部分,可转换为大规模稀疏线性系统的求解问题,但受限于硬件资源和数据规模,其求解效率成为限制系统计算性能提升的瓶颈。分别通过MPI、MPI+OpenMP、CUDA三种并行方式实现求解大规模稀疏线性方程组的广义共轭余差法,并利用不完全分解LU预处理子(ILU)优化系数矩阵的条件数,加快迭代法收敛。在CPU并行方案中,MPI负责进程间粗粒度并行和通信,OpenMP结合共享内存实现进程内部的细粒度并行,而在GPU并行方案中,CUDA模型采用数据传输、访存合并及共享存储器方面的优化措施。实验结果表明,通过预处理优化减少迭代次数对计算性能提升明显,MPI+OpenMP混合并行优化较MPI并行优化性能提高约35%,CUDA并行优化较MPI+OpenMP混合并行优化性能提高约50%,优化性能最佳。
关键词
稀疏线性系统
广义共轭余差法
信息传递接口
openmp编程
统一计算架构
Keywords
sparse linear system
Generalized Conjugate Residual(GCR)method
Message Passing Interface(MPI)
openmp
programming
Compute Unified Device Architecture(CUDA)
分类号
TP311.1 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
面向神威高性能多核处理器的并行编译优化方法
8
作者
周雍浩
徐金龙
李斌
钱宏
聂凯
机构
郑州大学信息工程学院
数学工程与先进计算国家重点实验室
江南计算技术研究所
出处
《计算机工程》
CAS
CSCD
北大核心
2022年第9期130-138,共9页
基金
国家重点研发计划“高性能计算”重点专项(2016YFB0200503)。
文摘
在神威高性能多核服务器上,自动并行化编译系统为识别和申明程序中的并行性,产生的OpenMP程序没有经过充分的优化,其采用简单的fork-join模型,存在大量的并行循环嵌套,导致运行效率低。为提升自动并行化编译系统产生的OpenMP程序的运行效率,提出一种并行域重构优化技术。并行域重构技术通过合并程序中的并行域和扩展嵌套循环中的并行域范围,减少OpenMP程序的并行域数目,降低线程组频繁创建和合并等控制开销,将简单fork-join模型的OpenMP程序转换为性能更为高效的单程序多数据模型的OpenMP程序。实验结果表明,在新一代神威高性能多核服务器SW1621平台上,并行域重构技术在NPB3.3-OMP测试集和SPEC OMP2012测试集上的运行效率分别提高了10.77%和7.94%的,可有效提升自动并行化编译系统OpenMP程序的执行效率。
关键词
神威高性能多核处理器
openmp编程
并行域重构
fork-join模型
单程序多数据模型
Keywords
Sunway high performance multi-core processors
openmp
programming
parallel region reconstruction
fork-join model
Single Program Multi-Data(SPMD)model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
FDTD算法的三级并行实现
被引量:
1
9
作者
张立红
余文华
机构
中国传媒大学信息工程学院
中国人民武装警察部队学院基础部
Penn State University
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第S1期333-335,共3页
文摘
传统的并行FDTD算法都是基于MPI或OpenMP或MPI+OpenMP的一级或两级并行算法。为加速基于MPI+OpenMP的两级并行FDTD算法,把基于SSE指令集的并行加速技术引入到FDTD算法中,采用基于MPI+OpenMP+SSE指令集的三级并行加速技术。在PC集群上对CPML吸收边界下点源在真空中传播的理想情况进行加速测试。基于SSE指令集的加速技术理想加速比为4,实验中在网格数为200 200 200情况下得到的加速比为2.44,加速效果较好。
关键词
时域有限差分
消息传递接口
openmp
共享存储
编程
SSE指令集
并行
Keywords
Finite Difference Time Domain(FDTD)
Message Passing Interface(MPI)
openmp
shared memory programming
Streaming SIMD Extensions(SSE) instruction set
parallel
分类号
TP3 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
高分辨率星载SAR并行成像处理系统设计
10
作者
张凤明
周荫清
文竹
陈杰
机构
北京航空航天大学电子信息工程学院
出处
《遥测遥控》
2005年第6期19-22,共4页
文摘
针对高分辨率星载SAR成像处理流程的特点,提出一种高分辨率星载SAR并行成像处理系统方案。该系 统能完成星载SAR数据预处理、轨道参数及多普勒参数计算、多普勒参数估计、成像处理以及辐射校正等功能。系统采 用模块设计,具有很强的向后兼容和可扩展性;同时,基于多CPU高性能计算机的并行结构,使系统具有很高的实时性。 测试证明系统设计合理和有效。
关键词
合成孔径雷达
并行处理
openmp编程
模型
Keywords
SAR Parallel prosessing
openmp
program model
分类号
V443 [航空宇航科学与技术—飞行器设计]
下载PDF
职称材料
题名
大场景点云文件多核并行批量压缩方法研究
被引量:
1
11
作者
樊星
段富
牛保宁
机构
太原理工大学计算机科学与技术学院
出处
《太原理工大学学报》
北大核心
2017年第6期973-977,共5页
基金
国家自然科学基金资助项目(61572345)
国家科技支撑计划项目课题(2015BAH37F01)
文摘
为了减少大场景点云文件无损压缩时间,避免数据处理过程中人工操作造成的时间浪费和输入失误,本文引入LASzip点云无损压缩算法和OpenMP并行编程技术,提出了在单机多核CPU系统环境下基于LASzip的大场景点云文件多核并行批量压缩算法。实验结果显示,与串行算法相比,并行算法在压缩比不变的情况下压缩时间明显下降,取得了很好的加速比。当线程数为8时,压缩和解压缩加速比分别达到4.27和3.99,优化效果显著。
关键词
点云文件
多核
openmp
并行
编程
技术
LASzip无损压缩算法
并行批量压缩
Keywords
point cloud data files
multi-core
openmp
-based parallel computation
LASzip lossless compression algorithm
parallel batch compression
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于二维结构化网格的可压缩流体并行算法研究
被引量:
1
12
作者
皇甫永硕
刘杰
龚春叶
机构
国防科技大学并行与分布处理国家重点实验室
出处
《计算机工程与科学》
CSCD
北大核心
2017年第9期1602-1609,共8页
基金
国家自然科学基金(61402039
91430218)
+2 种基金
国家863计划(2012AA01A301)
博士后基金(2014M562570
2015T81127)
文摘
基于二维/轴对称高精度可压缩多相流计算流体力学方法 MuSiC-CCASSIM的结构化网格部分,设计了区域并行分解方法;针对各处理器边界数据的通信,设计了阻塞式通信与非阻塞式通信并行算法;为了减少通信开销,设计了MPI/OpenMP混合并行优化算法。在天河二号超级计算机上进行了测试,每个核固定网格规模为625*250,最多调用8 192核。测试数据表明,采用MPI/OpenMP混合并行算法、纯MPI非阻塞式通信并行算法和纯MPI阻塞式通信并行算法的程序的平均并行效率分别达到86%、83%和77%,三种算法都具有良好的可扩展性。
关键词
并行计算
阻塞式通信
非阻塞式通信
MPI/
openmp
混合
编程
天河计算机
Keywords
parallel computing
blocking communication
non-blocking communication
MPI/
openmp
hybrid programming
Tianhe supercomputer
分类号
TP301 [自动化与计算机技术—计算机系统结构]
O359.2 [理学—流体力学]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种跨平台的并行编程框架设计与实现
李婷
徐云
聂鹏宇
潘玮华
《计算机工程》
CAS
CSCD
2014
1
下载PDF
职称材料
2
基于三层混合编程模型的Petri网并行算法研究
周杰
李文敬
《计算机科学》
CSCD
北大核心
2017
2
下载PDF
职称材料
3
基于CMP多核集群的混合并行编程技术研究
王文义
王春霞
王杰
《计算机科学》
CSCD
北大核心
2014
1
下载PDF
职称材料
4
金字塔模板匹配算法融合NMSFast以及优化研究
袁学枫
周骅
赵麒
易忠
《运筹与模糊学》
2023
0
下载PDF
职称材料
5
非线性扩散方程的显式并行计算
迟利华
刘杰
《计算机工程》
CAS
CSCD
北大核心
2010
0
下载PDF
职称材料
6
共享存储环境下非平衡动力学方程组并行计算
迟利华
刘杰
《计算机应用》
CSCD
北大核心
2010
0
下载PDF
职称材料
7
GRAPES动力框架中大规模稀疏线性系统并行求解及优化
张琨
贾金芳
严文昕
黄建强
王晓英
《计算机工程》
CAS
CSCD
北大核心
2022
2
下载PDF
职称材料
8
面向神威高性能多核处理器的并行编译优化方法
周雍浩
徐金龙
李斌
钱宏
聂凯
《计算机工程》
CAS
CSCD
北大核心
2022
0
下载PDF
职称材料
9
FDTD算法的三级并行实现
张立红
余文华
《计算机工程》
CAS
CSCD
北大核心
2011
1
下载PDF
职称材料
10
高分辨率星载SAR并行成像处理系统设计
张凤明
周荫清
文竹
陈杰
《遥测遥控》
2005
0
下载PDF
职称材料
11
大场景点云文件多核并行批量压缩方法研究
樊星
段富
牛保宁
《太原理工大学学报》
北大核心
2017
1
下载PDF
职称材料
12
基于二维结构化网格的可压缩流体并行算法研究
皇甫永硕
刘杰
龚春叶
《计算机工程与科学》
CSCD
北大核心
2017
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部