期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于OpenMP的分子动力学并行算法的性能分析与优化 被引量:10
1
作者 白明泽 程丽 +1 位作者 豆育升 孙世新 《计算机应用》 CSCD 北大核心 2012年第1期163-166,共4页
为提高分子动力学模拟在共享内存式服务器上的计算速度,对基于OpenMP的分子动力学并行算法(Critical方法)进行了性能分析与优化。通过在多核服务器上的测试,以及加速比和并行效率的计算分析了Critical方法的并行性能,进而提出优化的三... 为提高分子动力学模拟在共享内存式服务器上的计算速度,对基于OpenMP的分子动力学并行算法(Critical方法)进行了性能分析与优化。通过在多核服务器上的测试,以及加速比和并行效率的计算分析了Critical方法的并行性能,进而提出优化的三角形方法。所提方法中每个线程所计算的粒子数固定,且粒子数目呈阶梯状上升,使得各线程能够错时到达临界区。从而使程序在临界区的闲置时间比Critical方法减半,加速比明显提高。 展开更多
关键词 分子动力学 并行计算 多核中央处理器 openmp 临界区
下载PDF
面向嵌入式多核的OpenMP扩展方法(英文)
2
作者 王庆 季振洲 刘涛 《计算机科学与探索》 CSCD 2011年第1期81-86,共6页
为多核平台开发一种有效的编程方法已经成为并行软件研究的一个重要目标。在嵌入式多核平台上进行了OpenMP并行程序的有效的实施运行。针对嵌入式具有有限内存资源的特点,提出了通过扩展OpenMP自定义制导语句tiling来提高并行程序在嵌... 为多核平台开发一种有效的编程方法已经成为并行软件研究的一个重要目标。在嵌入式多核平台上进行了OpenMP并行程序的有效的实施运行。针对嵌入式具有有限内存资源的特点,提出了通过扩展OpenMP自定义制导语句tiling来提高并行程序在嵌入式多核平台上的运行效率。扩展后的OpenMP并行程序支持循环分片,从而能够充分利用层次内存结构。实验结果证明,该方法在嵌入式多核平台上的运行性能能够提高10%。 展开更多
关键词 嵌入式多核 openmp 循环分片
下载PDF
基于CPU与GPU的异构模板计算优化研究 被引量:2
3
作者 李博 黄东强 +3 位作者 贾金芳 吴利 王晓英 黄建强 《计算机工程》 CAS CSCD 北大核心 2023年第4期131-137,共7页
模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基... 模板计算是一类使用固定模板的算法,被广泛应用于图像处理、计算流体动力学模拟等领域,现有的模板计算存在计算并行度弱、缓存命中率低、无法充分利用计算资源等问题。在消息传递接口(MPI)计算模型和跨平台多线程(OpenMP)计算模型的基础上提出MPI+OpenMP、统一计算设备架构(CUDA)+OpenMP两种混合计算模型。相较于常规的MPI计算模型,MPI+OpenMP计算模型通过使用MPI进行多节点之间的粗粒度通信,使用OpenMP实现进程内部的细粒度并行计算,并结合单指令多数据、非一致内存访问、数据预取、数据分块等技术,提高模板计算过程中的缓存命中率与计算并行能力,加快计算速度。在只采用CUDA进行模板计算时,CPU的计算资源没有得到充分利用,浪费了大量计算资源,CUDA+OpenMP计算模型通过对计算任务的负载划分让CPU也参与到计算中,以减少通信开销及充分利用CPU的多核并行计算能力。实验结果表明,OpenMP+MPI计算模型相较于MPI计算模型的平均加速比为3.67,CUDA+OpenMP计算模型相较于CUDA计算模型的平均加速比为1.26,OpenMP+MPI和CUDA+OpenMP两种计算模型的性能均得到了显著提升。 展开更多
关键词 模板计算 消息传递接口 跨平台多线程 单指令多数据 非一致内存访问 统一计算设备架构
下载PDF
一种多线程负载均衡分析方法研究 被引量:5
4
作者 陈佐 杨秋伟 +1 位作者 万新 任小西 《计算机应用研究》 CSCD 北大核心 2011年第5期1752-1755,1760,共5页
为了精确分析负载均衡问题,以优化程序运行性能,确定了负载均衡分析单元,度量了负载不均衡程度以及潜在的并行调整效率,提出了一种以负载均衡分析单元为分析对象来检测、分析、调整OpenMP多线程程序负载均衡的方法。该方法在隐含同步显... 为了精确分析负载均衡问题,以优化程序运行性能,确定了负载均衡分析单元,度量了负载不均衡程度以及潜在的并行调整效率,提出了一种以负载均衡分析单元为分析对象来检测、分析、调整OpenMP多线程程序负载均衡的方法。该方法在隐含同步显示化的基础上,使用指导语句改写的方法对源程序进行插桩并获取性能数据;在负载均衡方面,对程序进行性能分析,根据潜在的并行调整效率有选择地对程序进行负载均衡调整。实验表明该方法是可行有效的。 展开更多
关键词 openmp 负载均衡分析单元 插桩 负载均衡调整
下载PDF
针对特普利茨线性系统的多级并行算法
5
作者 张哲 《计算机工程》 CAS CSCD 北大核心 2011年第1期36-38,共3页
利用并行体系结构中不同层次级别的内存和计算单元,提出一种求解对称结构化特普利茨线性系统的多级并行算法。通过数学推导将特普利茨线性系统转换成柯西式线性系统,利用消息传递接口和开放多平台共享内存并行程序设计工具实现该算法,... 利用并行体系结构中不同层次级别的内存和计算单元,提出一种求解对称结构化特普利茨线性系统的多级并行算法。通过数学推导将特普利茨线性系统转换成柯西式线性系统,利用消息传递接口和开放多平台共享内存并行程序设计工具实现该算法,并通过实验验证其可行性。 展开更多
关键词 特普利茨矩阵 柯西式矩阵 多级并行程序设计 消息传递接口 开放多平台共享内存并行程序设计
下载PDF
多核CPU下的K-means遥感影像分类并行方法 被引量:11
6
作者 吴洁璇 陈振杰 +2 位作者 张云倩 骈宇哲 周琛 《计算机应用》 CSCD 北大核心 2015年第5期1296-1301,共6页
针对海量遥感影像快速分类的应用需求,提出一种基于K-means算法的遥感影像并行分类方法。该方法结合CPU下进程级与线程级模式的并行特征,设计融合进程级与线程级并行的两阶段数据粒度划分方法和任务调度方法,在保证精度的基础上实现并... 针对海量遥感影像快速分类的应用需求,提出一种基于K-means算法的遥感影像并行分类方法。该方法结合CPU下进程级与线程级模式的并行特征,设计融合进程级与线程级并行的两阶段数据粒度划分方法和任务调度方法,在保证精度的基础上实现并行加速。利用大数据量的多尺度遥感影像进行实验,结果表明:所提并行方法可大大减少遥感影像的分类时间,取得了良好的加速比(13.83),并可达到负载均衡,从而解决了大区域遥感影像快速分类的问题。 展开更多
关键词 K-MEANS算法 并行计算 负载均衡 数据粒度划分 消息传递接口 open MP
下载PDF
多核CPU和GPU加速分子动力学模拟 被引量:6
7
作者 林江宏 林锦贤 吕暾 《计算机应用》 CSCD 北大核心 2011年第3期843-847,共5页
在多核中央处理器(CPU)—图形处理器(GPU)异构并行体系结构上,采用OpenMP和计算统一设备架构(CUDA)编程实现了基于AMBER力场的蛋白质分子动力学模拟程序。通过合理地将程序划分为CPU单线程、CPU多线程和GPU多线程执行部分,高效地利用了... 在多核中央处理器(CPU)—图形处理器(GPU)异构并行体系结构上,采用OpenMP和计算统一设备架构(CUDA)编程实现了基于AMBER力场的蛋白质分子动力学模拟程序。通过合理地将程序划分为CPU单线程、CPU多线程和GPU多线程执行部分,高效地利用了计算机的处理能力。性能测试结果表明,相对于优化后的CPU串行计算,多核CPU-GPU异构并行计算模型有强大的性能优势,特别是将占整个程序执行时间90%的作用力的计算移植到GPU上执行,获得了最高可达12倍的计算加速比。 展开更多
关键词 分子动力学 图形处理器 多核中央处理器 AMBER力场 计算统一设备架构 openmp
下载PDF
基于格子Boltzmann方法和大涡模拟的颈动脉分叉狭窄流动并行计算 被引量:2
8
作者 张毅卓 葛森 +3 位作者 王良军 谢江 曹洁 张武 《计算机应用》 CSCD 北大核心 2020年第2期404-409,共6页
颈动脉斑块的形成与复杂的血流动力学因素密切相关,血液流动状况的精确模拟对颈动脉斑块的临床诊断具有重要意义。为了精确模拟脉动流场,在格子Boltzmann方法(LBM)的基础上,添加大涡模拟(LES)模型,建立了LBM-LES颈动脉模拟算法。利用医... 颈动脉斑块的形成与复杂的血流动力学因素密切相关,血液流动状况的精确模拟对颈动脉斑块的临床诊断具有重要意义。为了精确模拟脉动流场,在格子Boltzmann方法(LBM)的基础上,添加大涡模拟(LES)模型,建立了LBM-LES颈动脉模拟算法。利用医学图像重构软件,建立颈动脉狭窄真实几何模型,对颈动脉狭窄脉动流动进行了数值模拟,通过计算血液流动速度、壁面剪切应力(WSS)等,得出了有意义的流动结果,验证了LBM-LES对颈动脉狭窄后段血液流动研究的有效性。基于OpenMP编程环境,在高性能集群机全互联胖节点上进行了千万量级网格的并行计算,结果表明LBM-LES颈动脉模拟算法具有较好的并行性能。 展开更多
关键词 格子BOLTZMANN方法 大涡模拟 颈动脉狭窄 壁面剪切力 openmp
下载PDF
月面地形重构系统中的并行Delaunay算法设计
9
作者 王喆 高三红 +1 位作者 郑慧英 李立春 《计算机应用》 CSCD 北大核心 2013年第8期2177-2183,共7页
三角剖分过程是影响三维重建系统实时性的瓶颈之一,为提高三角剖分速度,基于共享内存多核计算机设计并实现了并行Delaunay算法。该算法在分治三角剖分算法的基础上,通过改进子三角网归并过程及Delaunay三角网优化过程避免了并行计算中... 三角剖分过程是影响三维重建系统实时性的瓶颈之一,为提高三角剖分速度,基于共享内存多核计算机设计并实现了并行Delaunay算法。该算法在分治三角剖分算法的基础上,通过改进子三角网归并过程及Delaunay三角网优化过程避免了并行计算中的数据竞争问题。利用月面仿真实验场真实地形数据在50万到500万不同规模的点云数据集上进行了实验,加速比最高可达6.44。除此之外,对算法复杂度、加速比以及并行效率进行了全面分析,并将算法实际应用于月面地形重构系统,实现了虚拟地形的快速构建。 展开更多
关键词 DELAUNAY算法 并行计算 地形重构 开放多处理 多维树
下载PDF
并行Harris特征点检测算法 被引量:1
10
作者 朱超 吴素萍 《计算机科学》 CSCD 北大核心 2019年第S11期289-293,共5页
针对三维重建大数据量问题中的特征点提取算法,存在运算量大、耗时多、效率低等问题,文中对Harris特征点检测算法进行改进,提出了基于OpenMP的多核CPU和基于CUDA及OpenCL框架的GPU下的Harris特征点检测并行算法。在不同实验平台进行对... 针对三维重建大数据量问题中的特征点提取算法,存在运算量大、耗时多、效率低等问题,文中对Harris特征点检测算法进行改进,提出了基于OpenMP的多核CPU和基于CUDA及OpenCL框架的GPU下的Harris特征点检测并行算法。在不同实验平台进行对比实验,实验结果表明,基于CUDA及OpenCL框架的GPU并行特征点检测算法具有良好的数据和平台可扩展性,基于GPU并行特征点检测算法的加速比最高可达91.19,加速效果显著。基于OpenMP的多核CPU特征点检测算法具有良好的多核可扩展性。 展开更多
关键词 HARRIS 特征点检测 共享存储并行编程 计算机统一设备架构 开放式计算语言 并行算法
下载PDF
On Numerical methods for determination of Earth gravity field model using mass satellite gravity gradiometry data
11
作者 Zhu Guangbin Chang Xiaotao +2 位作者 Li Xinfa Zhang Xinhang Li Yuxing 《Geodesy and Geodynamics》 2012年第1期57-62,共6页
On the basis of Space-Wise Least Square method, three numerical methods including Cholesky de- composition, pre-conditioned conjugate gradient and Open Multi-Processing parallel algorithm are applied into the determin... On the basis of Space-Wise Least Square method, three numerical methods including Cholesky de- composition, pre-conditioned conjugate gradient and Open Multi-Processing parallel algorithm are applied into the determination of gravity field with satellite gravity gradiometry data. The results show that, Cholesky de- composition method has been unable to meet the requirements of computation efficiency when the computer hardware is limited. Pre-conditioned conjugate gradient method can improve the computation efficiency of huge matrix inversion, but it also brings a certain loss of precision. The application of Open Multi-Processing parallel algorithm could achieve a good compromise between accuracy and computation efficiency. 展开更多
关键词 satellite gravity gradiometry Cholesky decomposition pre-conditioned conjugate gradient open multi-processing parallel algorithm data processing
下载PDF
基于并行技术的在线监测系统燃耗计算优化开发
12
作者 郭凤晨 高露露 +5 位作者 芦韡 赵德华 于洋 徐睿杰 马永强 魏桐 《核动力工程》 EI CSCD 北大核心 2023年第S02期29-32,共4页
为了提高在线监测系统程序DESCAR模块在燃耗区数目较大时燃耗计算求解的计算效率,本文使用开放式多处理(OpenMP)和信息传递接口(MPI)并行技术,对DESCAR模块进行优化重构,以提高在线监测系统程序的计算效率。验证结果表明,优化重构后的DE... 为了提高在线监测系统程序DESCAR模块在燃耗区数目较大时燃耗计算求解的计算效率,本文使用开放式多处理(OpenMP)和信息传递接口(MPI)并行技术,对DESCAR模块进行优化重构,以提高在线监测系统程序的计算效率。验证结果表明,优化重构后的DESCAR模块在保证计算结果正确性的同时,可以有效地提高在线监测系统程序的计算速度,加速效果显著,满足在线监测系统实时性的要求。 展开更多
关键词 并行技术 燃耗计算 开放式多处理(openmp) 信息传递接口(MPI)
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部