期刊文献+
共找到59篇文章
< 1 2 3 >
每页显示 20 50 100
基于GPU加速的分布式水文模型并行计算性能 被引量:1
1
作者 庞超 周祖昊 +4 位作者 刘佳嘉 石天宇 杜崇 王坤 于新哲 《南水北调与水利科技(中英文)》 CAS CSCD 北大核心 2024年第1期33-38,共6页
针对具有物理机制的分布式水文模型对大流域、长序列模拟计算时间长、模拟速度慢的问题,引入基于GPU的并行计算技术,实现分布式水文模型WEP-L(water and energy transfer processes in large river basins)产流过程的并行化。选择鄱阳... 针对具有物理机制的分布式水文模型对大流域、长序列模拟计算时间长、模拟速度慢的问题,引入基于GPU的并行计算技术,实现分布式水文模型WEP-L(water and energy transfer processes in large river basins)产流过程的并行化。选择鄱阳湖流域为实验区,采用计算能力为8.6的NVIDIA RTX A4000对算法性能进行测试。研究表明:提出的基于GPU的分布式水文模型并行算法具有良好的加速效果,当线程总数越接近划分的子流域个数(计算任务量)时,并行性能越好,在实验流域WEP-L模型子流域单元为8712个时,加速比最大达到2.5左右;随着计算任务量的增加,加速比逐渐增大,当实验流域WEP-L模型子流域单元增加到24897个时,加速比能达到3.5,表明GPU并行算法在大尺度流域分布式水文模型计算中具有良好的发展潜力。 展开更多
关键词 基于gpu的并行算法 物理机制 分布式水文模型 WEP-L模型 计算性能
下载PDF
启发式优化算法的GPU并行加速框架
2
作者 王东杰 温思歆 +1 位作者 孟万植 吴迪 《系统仿真学报》 CAS CSCD 北大核心 2024年第8期1929-1943,共15页
为解决启发式优化算法计算量大、耗时长的缺点,使用图形处理单元(GPU)以及统一计算架构(compute unified device architecture,CUDA)对启发式优化算法进行并行化。提出了一种针对启发式优化算法的GPU并行框架,设计了具有并行逻辑结构的... 为解决启发式优化算法计算量大、耗时长的缺点,使用图形处理单元(GPU)以及统一计算架构(compute unified device architecture,CUDA)对启发式优化算法进行并行化。提出了一种针对启发式优化算法的GPU并行框架,设计了具有并行逻辑结构的信息交互框架、算法并行优化策略,解决了信息交互的逻辑结构在串、并行中的相异性问题,该框架可并行化各类启发式优化算法,具有一般性与高效性。为验证该框架的有效性,利用并行框架对5种常见启发式优化算法进行并行化,给出了多个测试函数下GPU并行计算与CPU串行计算的对比结果,其中差分进化算法、哈里斯鹰优化算法、灰狼优化算法、鲸鱼优化算法在种群维度为5000时,分别加速高达179.1、178.6、74.3、358.2倍,同时保证了结果的准确性,表明所设计并行框架的高效性与实用性。 展开更多
关键词 启发式优化算法 gpu并行 CUDA模型 并行框架 信息交互
下载PDF
基于Seed-PCG法的列车-轨道-地基土三维随机振动GPU并行计算方法
3
作者 朱志辉 冯杨 +2 位作者 杨啸 李昊 邹有 《Journal of Central South University》 SCIE EI CAS CSCD 2024年第1期302-316,共15页
为了解决列车-轨道-地基土三维有限元模型随机多样本计算效率低的问题,本文提出了一种基于Seed-PCG法的高效并行计算方法。基于有限元法和虚拟激励法建立轨道不平顺激励下的三维列车-轨道-地基土耦合随机振动分析模型;针对车致地基土随... 为了解决列车-轨道-地基土三维有限元模型随机多样本计算效率低的问题,本文提出了一种基于Seed-PCG法的高效并行计算方法。基于有限元法和虚拟激励法建立轨道不平顺激励下的三维列车-轨道-地基土耦合随机振动分析模型;针对车致地基土随机振动分析产生的多右端项线性方程组求解问题,采用Seed-PCG方法进行求解。通过PCG方法求解种子系统得到的Krylov子空间进行投影,以改进其余线性方程组的初始解和对应的初始残量,有效提高了PCG法的收敛速度,最后,在MATLABCUDA混合平台上开发了并行计算程序。数值算例表明:相同计算平台下的该方法相比多点同步算法获得了104.2倍的加速;相比PCG法逐个求解方案减少了18%的迭代次数,获得了1.21倍的加速。 展开更多
关键词 Seed-PCG法 多右端项线性方程组 随机振动 gpu并行计算 列车-轨道-地基土耦合模型
下载PDF
面向深度学习图像分类的GPU并行方法研究 被引量:1
4
作者 韩彦岭 沈思扬 +3 位作者 徐利军 王静 张云 周汝雁 《计算机工程》 CAS CSCD 北大核心 2023年第1期191-200,共10页
针对深度学习图像分类场景中多GPU并行后传输效率低的问题,提出一种低时间复杂度的Ring All Reduce改进算法。通过分节点间隔配对原则优化数据传输流程,缓解传统参数服务器并行结构的带宽损耗。基于数据并行难以支撑大规模网络参数及加... 针对深度学习图像分类场景中多GPU并行后传输效率低的问题,提出一种低时间复杂度的Ring All Reduce改进算法。通过分节点间隔配对原则优化数据传输流程,缓解传统参数服务器并行结构的带宽损耗。基于数据并行难以支撑大规模网络参数及加速延缓的问题,根据深度学习主干网络所包含的权重参数低于全连接层权重参数、同步开销小、全连接层权重大与梯度传输开销过高等特点,提出GPU混合并行优化算法,将主干网络进行数据并行,全连接层进行模型并行,并通过改进的Ring All Reduce算法实现各节点之间的并行后数据通信,用于基于深度学习模型的图像分类。在Cifar10和mini ImageNet两个公共数据集上的实验结果表明,该算法在保持分类精度不变的情况下可以获得更好的加速效果,相比数据并行方法,可达到近45%的提升效果。 展开更多
关键词 gpu并行 Ring All Reduce算法 数据并行 模型并行 深度学习 图像分类
下载PDF
基于GPU的点云模型快速重建方法
5
作者 吕建新 马礼 +2 位作者 傅颖勋 李阳 马东超 《计算机工程与设计》 北大核心 2023年第11期3440-3446,共7页
利用GPU并行特点,将点云数据分块并行处理,实施多线程并行重建。从有序点云的数据关系入手,设计点云处理平滑在内的数据处理方法。利用GPU对分块数据快速三角化曲面重建,使用拉普拉斯算法对重建后的曲面进行平滑处理。通过对5组不同的... 利用GPU并行特点,将点云数据分块并行处理,实施多线程并行重建。从有序点云的数据关系入手,设计点云处理平滑在内的数据处理方法。利用GPU对分块数据快速三角化曲面重建,使用拉普拉斯算法对重建后的曲面进行平滑处理。通过对5组不同的海量数据进行重构模型实验,与传统的单纯使用CPU重构方式相比,GPU方式将模型重构速率提升了数十倍至上百倍,模型重建速度得到了大幅度的提升,可有效适用于高精度器件装检预判,提高装配质量。 展开更多
关键词 有序点云 点云分块 三角化 多线程 图形处理器并行运算 表面重建 模型平滑
下载PDF
任意起伏地形下重力异常三维正演及并行计算
6
作者 戴世坤 朱德祥 +4 位作者 张莹 李昆 陈轻蕊 凌嘉宣 田红军 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2024年第2期768-780,共13页
为了进一步提高空间-波数域三维重力异常正演算法的适用范围和计算效率,本文采用任意傅里叶变换算法实现了空间-波数域三维重力异常正演,且在NVIDIA CUDA平台上进行CPU-GPU并行加速.任意傅里叶变换算法的基本思想是将二维傅里叶变换转... 为了进一步提高空间-波数域三维重力异常正演算法的适用范围和计算效率,本文采用任意傅里叶变换算法实现了空间-波数域三维重力异常正演,且在NVIDIA CUDA平台上进行CPU-GPU并行加速.任意傅里叶变换算法的基本思想是将二维傅里叶变换转化为两个一维傅里叶变换,一维傅里叶变换积分离散为多个单元积分累加和,离散单元中原函数采用二次插值形函数拟合,求出单元积分的解析表达式.相比现有的傅里叶变换算法,新方法具有采样灵活、积分精度高、计算速度快和傅里叶变换的截断效应小等优势.利用空间-波数域算法的高度并行性,采用CPU并行求解常微分方程,GPU并行计算任意傅里叶变换,实现了CPU-GPU并行加速方案,进一步提升了本文算法效率.利用常密度模型,对比数值解和解析解,结果表明本文算法正确;利用变密度模型对比了任意傅里叶变换算法与高斯快速傅里叶变换算法的计算效率与精度,在相近的数值精度下,本文算法波数选取少,效率高;测试CPU-GPU并行效果,结果表明相比CPU串行算法,CPU-GPU并行算法的计算效率大大提升,千万数量级节点数模型正演仅耗时数秒.最后利用实际地形数据进行三维重力异常场数值模拟,证明了新方法的高效性与实用性,对实现大规模复杂条件下重力异常精细化反演成像与综合解释有重要意义. 展开更多
关键词 空间-波数域 任意傅里叶变换 三维重力异常正演 CPU-gpu并行
下载PDF
一种基于并行度分析模型的GPU功耗优化技术 被引量:13
7
作者 林一松 杨学军 +2 位作者 唐滔 王桂彬 徐新海 《计算机学报》 EI CSCD 北大核心 2011年第4期705-716,共12页
随着硬件功能的不断丰富和软件开发环境的逐渐成熟,GPU开始被应用于通用计算领域,协助CPU加速程序的运行.为了追求高性能,GPU往往包含成百上千个核心运算单元.高密度的计算资源,使得其在性能远高于CPU的同时功耗也高于CPU.功耗问题已经... 随着硬件功能的不断丰富和软件开发环境的逐渐成熟,GPU开始被应用于通用计算领域,协助CPU加速程序的运行.为了追求高性能,GPU往往包含成百上千个核心运算单元.高密度的计算资源,使得其在性能远高于CPU的同时功耗也高于CPU.功耗问题已经成为制约GPU发展的重要问题之一.DVFS技术被广泛应用于处理器的低功耗优化,而对GPU进行相应研究的前提是对其程序运行过程进行分析和建模,从而可以根据应用程序的特征来确定优化策略.此外,GPU主要由图形处理器芯片和片外的DRAM组成,有研究指出针对这类系统的功耗优化应当综合考虑处理器和存储器,使二者可以互相协调以达到更好的优化效果.文中在一个已有的基于程序并行度分析的GPU性能模型的基础上,综合考虑计算部件与存储部件的功耗,建立了性能约束条件下的GPU功耗优化模型.对于给定的程序,在满足性能约束的前提下,以功耗最优为目标分别给出处理器和存储器的DVFS优化策略.作者选取了9个测试用例在3种模拟平台上进行了实验验证,结果表明文中的方法可以在满足性能约束条件10%的误差范围内获得最优的GPU能量消耗. 展开更多
关键词 gpu 并行度模型 功耗模型 功耗优化
下载PDF
面向GPU异构并行系统的多任务流编程模型 被引量:11
8
作者 董小社 刘超 +2 位作者 王恩东 刘袁 张兴军 《计算机学报》 EI CSCD 北大核心 2014年第7期1638-1646,共9页
传统并行编程模型和框架不能有效利用和发挥GPU异构并行系统特点,应用开发难度大,性能优化困难,文中采用混合编程模型思想,建立了一种以协处理器为中心的GPU计算核心与CPU控制相融合的多任务流编程模型.模型将并行任务与CUDA流相结合,... 传统并行编程模型和框架不能有效利用和发挥GPU异构并行系统特点,应用开发难度大,性能优化困难,文中采用混合编程模型思想,建立了一种以协处理器为中心的GPU计算核心与CPU控制相融合的多任务流编程模型.模型将并行任务与CUDA流相结合,利用系统硬件并行性特点实现程序任务级和数据级并行;采用任务间消息通信和任务内数据共享通信方式,既保证对传统并行应用的继承又降低了不同存储空间给应用开发带来的复杂性和难度.基于该编程模型实现了一个运行时支持系统原型,测试结果表明可保证高效的数据通信,且能充分利用系统计算能力,提高了应用程序运行效率. 展开更多
关键词 gpu 异构并行 编程模型
下载PDF
基于GPU多流并发并行模型的NDVI提取算法 被引量:3
9
作者 左宪禹 张哲 +3 位作者 苏岳瀚 刘扬 葛强 田军锋 《计算机科学》 CSCD 北大核心 2020年第4期25-29,共5页
利用GPU进行加速的归一化差分植被指数(Normalized Differential Vegetation Index,NDVI)提取算法通常采用GPU多线程并行模型,存在弱相关计算之间以及CPU与GPU之间数据传输耗时较多等问题,影响了加速效果的进一步提升。针对上述问题,根... 利用GPU进行加速的归一化差分植被指数(Normalized Differential Vegetation Index,NDVI)提取算法通常采用GPU多线程并行模型,存在弱相关计算之间以及CPU与GPU之间数据传输耗时较多等问题,影响了加速效果的进一步提升。针对上述问题,根据NDVI提取算法的特性,文中提出了一种基于GPU多流并发并行模型的NDVI提取算法。通过CUDA流和Hyper-Q特性,GPU多流并发并行模型可以使数据传输与弱相关计算、弱相关计算与弱相关计算之间达到重叠,从而进一步提高算法并行度及GPU资源利用率。文中首先通过GPU多线程并行模型对NDVI提取算法进行优化,并对优化后的计算过程进行分解,找出包含数据传输及弱相关性计算的部分;其次,对数据传输和弱相关计算部分进行重构,并利用GPU多流并发并行模型进行优化,使弱相关计算之间、弱相关计算和数据传输之间达到重叠的效果;最后,以高分一号卫星拍摄的遥感影像作为实验数据,对两种基于GPU实现的NDVI提取算法进行实验验证。实验结果表明,与传统基于GPU多线程并行模型的NDVI提取算法相比,所提算法在影像大于12000*12000像素时平均取得了约1.5倍的加速,与串行提取算法相比取得了约260倍的加速,具有更好的加速效果和并行性。 展开更多
关键词 NDVI gpu多流并发模型 遥感信息提取 计算通讯重叠 并行加速
下载PDF
航空重力梯度地形改正
10
作者 黄佳喜 边少锋 纪兵 《测绘学报》 EI CSCD 北大核心 2024年第8期1540-1551,共12页
地形改正是航空重力梯度数据处理的重要环节,其改正精度不仅取决于地形精度和分辨率,还与改正模型有关。本文基于棱柱积分公式研究了地形精度和分辨率、观测点高程误差对地形改正的影响,导出了一种量化评估模型。为了在不降低改正精度... 地形改正是航空重力梯度数据处理的重要环节,其改正精度不仅取决于地形精度和分辨率,还与改正模型有关。本文基于棱柱积分公式研究了地形精度和分辨率、观测点高程误差对地形改正的影响,导出了一种量化评估模型。为了在不降低改正精度的前提下提高计算效率,设计了一种基于CUDA的棱柱积分并行算法,在GPU端实现了地形改正分量的快速计算。分别在地形起伏平缓和剧烈区域进行模型验证,结果表明,当测量高度大于40 m时,精度优于0.5 m的10 m分辨率地形数据可使地形改正精度优于1 E,验证了本文量化评估模型的有效性。棱柱积分并行算法在普通GPU显卡上实现了15倍以上的效率提升,在NVIDIA TiTan V专业计算显卡上效率提升了150倍以上,完全能够满足大范围高精度地形改正应用需求。本文的量化评估模型和并行算法可为航空重力梯度测量任务设计和数据处理提供参考。 展开更多
关键词 航空重力梯度 地形改正 高程精度 量化评估模型 gpu并行计算
下载PDF
海冰与自升式海洋平台相互作用GPU离散元模拟 被引量:29
11
作者 狄少丞 季顺迎 《力学学报》 EI CSCD 北大核心 2014年第4期561-571,共11页
在海冰与自升式海洋平台结构的相互作用过程中,冰载荷是影响平台结构振动响应和疲劳寿命的重要因素.采用具有粘接--破碎效应的离散元模型,可对海冰与自升式海洋平台结构作用中的海冰破碎特征及相应冰载荷进行数值分析.针对自升式海洋平... 在海冰与自升式海洋平台结构的相互作用过程中,冰载荷是影响平台结构振动响应和疲劳寿命的重要因素.采用具有粘接--破碎效应的离散元模型,可对海冰与自升式海洋平台结构作用中的海冰破碎特征及相应冰载荷进行数值分析.针对自升式海洋平台的多桩腿结构特性及其冰载荷离散元分析的大规模计算需求,建立了基于GPU的并行算法并开发了相应的计算程序.为实现离散元分析的高效计算,采用网格排序方法创建单元邻居列表,以快速确定海冰单元间及其与平台结构间的接触模式和作用力.此外,还发展了球体单元与圆柱形结构在不同接触形式下的计算模型.为检验该离散元模型的有效性,对渤海锥体海洋平台结构的作用过程进行了计算,并与现场实测冰力数据进行了对比验证.在此基础上对多桩腿自升式平台结构的冰载荷进行了离散元分析,获得了海冰的破坏特性,确定了不同桩腿上的冰力时程.该模型可进一步应用于不同类型海洋结构的冰载荷分析,为冰区海洋平台的结构设计和现役平台结构的疲劳分析提供参考依据. 展开更多
关键词 海冰 自升式海洋平台 离散元模型 gpu并行计算
下载PDF
基于CTR模式的GPU并行AES算法的研究与实现 被引量:8
12
作者 费雄伟 李肯立 阳王东 《小型微型计算机系统》 CSCD 北大核心 2015年第3期529-533,共5页
为了对任意长的明/密文进行并行加密/解密,在分析了AES(Advanced Encryption Standard)的多种模式后,采用了最合适的CTR(Counter)模式设计和实现了GPU(Graphics Processing Unit)并行AES算法,并进行了优化.针对Nvidia Geforce GTX460平... 为了对任意长的明/密文进行并行加密/解密,在分析了AES(Advanced Encryption Standard)的多种模式后,采用了最合适的CTR(Counter)模式设计和实现了GPU(Graphics Processing Unit)并行AES算法,并进行了优化.针对Nvidia Geforce GTX460平台理论分析了CTR模式的并行AES算法和串行AES算法的时间复杂度,得到综合的加速比为31.59,然后在Nvidia Geforce GTX 460平台上实验运行,结果显示CTR模式的AES-256的GPU并行算法相对串行CTR模式的AES算法,实验加速比跟理论加速比基本吻合.在此基础上,对CTR模式的AES-256进行了优化.实验结果显示,优化的CTR模式的AES-256并行算法在加速比上随着明文的增大提升的比例渐渐减少并趋于稳定.优化的CTR模式的AES算法加密数据量小的明文时,其优化效果更为明显,故能有效地提升SSL(Secure Socket Layer,其明文区间为35KB-150KB)的加密性能. 展开更多
关键词 计数器模式 gpu并行 时间复杂度 加速比 统一计算架构
下载PDF
CPU/GPU异构混合并行的栅格数据空间分析研究——以地形因子计算为例 被引量:9
13
作者 卢敏 王金茵 +2 位作者 卢刚 陶伟东 王结臣 《计算机工程与应用》 CSCD 北大核心 2017年第1期172-177,共6页
海量数据背景下传统GIS栅格数据空间分析计算效率已经不能满足快速计算的需求,为此以地形因子计算为例,分析并测试了基于共享内存模型的CPU多核并行模式与基于流处理器模型的GPU众核并行模式的计算性能,在此基础上详细实现了负载均衡的... 海量数据背景下传统GIS栅格数据空间分析计算效率已经不能满足快速计算的需求,为此以地形因子计算为例,分析并测试了基于共享内存模型的CPU多核并行模式与基于流处理器模型的GPU众核并行模式的计算性能,在此基础上详细实现了负载均衡的设备间任务划分,进行CPU与GPU异构混合的并行技术改良研究。实验结果表明,基于相同的单机硬件环境,与多核共享内存模型或众核流处理器的单一计算平台并行方案相比,CPU/GPU异构混合并行计算方法对于栅格数据分析具有更好的加速效果。 展开更多
关键词 GIS栅格数据分析 共享内存模型 流处理器模型 CPU/gpu异构混合并行
下载PDF
海洋环流数值模式POP的GPU并行优化 被引量:3
14
作者 郭松 窦勇 雷元武 《计算机工程与科学》 CSCD 北大核心 2012年第8期147-153,共7页
POP是一种全球海洋环流模式,广泛应用于海洋研究和气候预测。但是,随着模式分辨率的提高,POP对计算能力的需求呈几何级数增长,从而限制了POP模式的发展。本文在分析POP原理和特征的基础上,采用CUDA Fortran编程模型将POP模式移植到GPU... POP是一种全球海洋环流模式,广泛应用于海洋研究和气候预测。但是,随着模式分辨率的提高,POP对计算能力的需求呈几何级数增长,从而限制了POP模式的发展。本文在分析POP原理和特征的基础上,采用CUDA Fortran编程模型将POP模式移植到GPU平台上,并采用了网格块间并行和网格块内并行相结合的多层次并行实现全局存储器合并访问,减少局部存储器的使用,利用寄存器提高数据重用度和增大GPU端代码以减少CPU与GPU间的通信等优化策略。实验结果表明,与运行在Intel Xeon X56756核处理器上的串行程序和6进程并行程序相比,GPUPOP可以分别获得8.47倍和1.5倍的加速效果。 展开更多
关键词 CUDA gpu POP模式 gpuPOP CUDA FORTRAN
下载PDF
梯级水库短期优化调度模型的精细化与GPU并行实现 被引量:14
15
作者 纪昌明 马皓宇 +2 位作者 吴嘉杰 俞洪杰 彭杨 《水利学报》 EI CSCD 北大核心 2019年第5期535-546,共12页
目前制约梯级水库短期优化调度在实际工程中应用的主要瓶颈有:所构建的优化模型存在不合理的简化策略,所选择的求解算法无法保证解的质量以及模型的计算时间远超规定时长。为解决上述问题,本文首先构建精细至水电站各机组工作特性的优... 目前制约梯级水库短期优化调度在实际工程中应用的主要瓶颈有:所构建的优化模型存在不合理的简化策略,所选择的求解算法无法保证解的质量以及模型的计算时间远超规定时长。为解决上述问题,本文首先构建精细至水电站各机组工作特性的优化调度模型,接着通过二重嵌套动态规划(DP)计算给定模拟精度下的高质量解,并针对算法固有的'维数灾'问题,一方面通过数据压缩与数据库技术降低程序的内存占用量,另一方面将GPU并行加速技术首次引入水库调度领域,通过OpenACC实现算法的GPU并行以减少计算时间。最后通过潘口、小漩梯级水库日优化调度的实例研究与对比分析得出:精细模型较传统模型能更好地贴合电站的实际工况,提高梯级系统的发电效益;内存占用缩减策略的引入能有效降低算法的空间复杂度;GPU并行较传统的CPU并行能大幅提升算法的求解速度。由此为短期优化调度的理论发展与算法'维数灾'的处理提供借鉴。 展开更多
关键词 精细化模型 嵌套动态规划 gpu并行 短期优化调度 维数灾
下载PDF
基于GPU混合反演的隧道电阻率超前探测成像研究 被引量:8
16
作者 聂利超 张欣欣 +5 位作者 刘斌 刘征宇 王传武 郭谦 刘海东 王厚同 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2017年第12期4916-4927,共12页
隧道施工期超前探测对于避免突涌水灾害的发生具有重要作用,为满足隧道三维电阻率超前探测快速化解译与成像的要求,本文提出了一种基于GPU并行的蚁群算法与最小二乘方法相结合的混合反演算法.该方法结合线性反演与非线性反演的优点,利... 隧道施工期超前探测对于避免突涌水灾害的发生具有重要作用,为满足隧道三维电阻率超前探测快速化解译与成像的要求,本文提出了一种基于GPU并行的蚁群算法与最小二乘方法相结合的混合反演算法.该方法结合线性反演与非线性反演的优点,利用蚁群算法全局搜索能力强的优点为最小二乘反演提供较优的初始模型,以克服最小二乘算法容易陷入局部最优的缺点,提高了隧道三维电阻率反演成像的精度.同时,基于蚁群算法的天然并行性,提出了CUDA环境下的GPU并行策略,实现了三维电阻率反演的快速化成像.其次,开展了基于GPU混合反演的数值算例,与传统最小二乘线性反演进行了对比,基于GPU并行计算的混合反演计算效率得到了显著提高,对含水构造的位置、形态有较好的反映,压制了三维反演的多解性.最后开展了物理模型试验,结果表明基于GPU混合反演探测的低阻异常体与实际含水构造的位置较为相符,发现基于GPU加速的混合反演方法在提高探测精度与加快反演速度方面具有显著优势,为三维电阻率混合反演方法在隧道超前探测实际工程中的应用奠定了基础. 展开更多
关键词 隧道含水构造 三维电阻率超前探测 gpu并行计算 混合反演 蚁群算法 模型试验
下载PDF
基于GPU的多数据流相关系数并行计算方法研究 被引量:2
17
作者 周勇 王皓 +1 位作者 程春田 郭禾 《计算机应用研究》 CSCD 北大核心 2010年第4期1232-1235,共4页
为了满足多数据流处理的实时性需求,提出一种跨PCIE总线的四层滑动窗口模型和基于图形处理器的多数据流并行处理框架模型,在此框架模型下可以并行维护数量巨大的滑动实时多数据流统计信息,同时采用精确方法并行计算多数据流间任意两条... 为了满足多数据流处理的实时性需求,提出一种跨PCIE总线的四层滑动窗口模型和基于图形处理器的多数据流并行处理框架模型,在此框架模型下可以并行维护数量巨大的滑动实时多数据流统计信息,同时采用精确方法并行计算多数据流间任意两条的相关系数。通过对比在同样的实验环境下只使用CPU的计算处理方法,验证了新方法的实时计算性能具有显著的提高。 展开更多
关键词 数据流 滑动多数据流相关系数 图形处理器 多数据流并行计算模型 空间复杂度降载
下载PDF
基于GPU的BWA序列比对算法分析与加速 被引量:1
18
作者 海玲 刘俊霞 +3 位作者 海志民 刘岩 杨嘉鹏 刘智勇 《信息技术》 2018年第3期67-72,78,共7页
文中实现了GPU平台加速的BWA-MEM算法,将BWA-MEM算法中的两个热点模块:SMEM查找和chain生成模块利用GPU平台进行加速,通过重构算法流程、精简需要向CUDA设备传输的数据结构,采用合理的任务划分方式来提升BWA-MEM在GPU平台的性能。论文对... 文中实现了GPU平台加速的BWA-MEM算法,将BWA-MEM算法中的两个热点模块:SMEM查找和chain生成模块利用GPU平台进行加速,通过重构算法流程、精简需要向CUDA设备传输的数据结构,采用合理的任务划分方式来提升BWA-MEM在GPU平台的性能。论文对BWA-MEM算法的特点进行了深入分析,总结了BWA-MEM算法在GPU平台加速效果受到限制的原因。 展开更多
关键词 全球气候模式 谱方法 图形处理器 并行计算
下载PDF
GPU/CPU协同粗粒度并行计算及在城市区域震害模拟中的应用 被引量:4
19
作者 韩博 熊琛 +1 位作者 陆新征 叶列平 《地震工程学报》 CSCD 北大核心 2013年第3期582-589,共8页
采用精细结构模型和动力时程分析以提高城市区域建筑震害预测精度已经成为一重要研究方向,而传统的CPU计算平台成本过高,难以推广。本文提出采用基于GPU/CPU协同粗粒度并行计算的方法来实现城市区域建筑震害的高效精细化动力时程计算,... 采用精细结构模型和动力时程分析以提高城市区域建筑震害预测精度已经成为一重要研究方向,而传统的CPU计算平台成本过高,难以推广。本文提出采用基于GPU/CPU协同粗粒度并行计算的方法来实现城市区域建筑震害的高效精细化动力时程计算,可以显著提高效率并降低成本。简述了所采用的程序架构、计算模型、参数选取,对并行计算的效率进行了详细的讨论,并通过一个中等大小城市的案例展示了该方法的优势。 展开更多
关键词 区域震害预测 gpu 集中质量剪切模型 粗粒度并行计算 协同计算
下载PDF
基于GPU的视频流人群实时计数 被引量:10
20
作者 姬丽娜 陈庆奎 +3 位作者 陈圆金 赵德玉 方玉玲 赵永涛 《计算机应用》 CSCD 北大核心 2017年第1期145-152,共8页
为了解决人群遮挡严重、光照突变等恶劣环境下人群计数准确率低的问题,提出基于混合高斯模型(GMM)和尺度不变特征变换(SIFT)特征的人群数量统计分析新方法。首先,基于GMM提取运动人群,并采用灰度共生矩阵(GLCM)和形态学方法去除背景中... 为了解决人群遮挡严重、光照突变等恶劣环境下人群计数准确率低的问题,提出基于混合高斯模型(GMM)和尺度不变特征变换(SIFT)特征的人群数量统计分析新方法。首先,基于GMM提取运动人群,并采用灰度共生矩阵(GLCM)和形态学方法去除背景中移动的小物体和较密集的噪声等非人群前景,针对GMM算法提出了一种效率较高的并行模型;接着,检测运动人群的SIFT特征点作为人群统计的基础,基于二值图像的特征提取大大减少了执行时间;最后,提出基于人群特征数和人群数量进行统计分析的新方法,选择不同等级的人群数量的数据集分别进行训练,统计得出平均单个特征点数,并对不同密度的行人进行计数实验。算法采用基于GPU多流处理器进行加速,并针对所提算法在统一计算设备架构(CUDA)流上任务的有效调度的方法进行分析。实验结果显示,相比单流提速31.5%,相比CPU提速71.8%。 展开更多
关键词 视频监控 gpu并行计算 人群计数 尺度不变特征变换 混合高斯模型 统一计算设备架构
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部