期刊文献+
共找到145篇文章
< 1 2 8 >
每页显示 20 50 100
基于GPU加速的分布式水文模型并行计算性能
1
作者 庞超 周祖昊 +4 位作者 刘佳嘉 石天宇 杜崇 王坤 于新哲 《南水北调与水利科技(中英文)》 CAS CSCD 北大核心 2024年第1期33-38,共6页
针对具有物理机制的分布式水文模型对大流域、长序列模拟计算时间长、模拟速度慢的问题,引入基于GPU的并行计算技术,实现分布式水文模型WEP-L(water and energy transfer processes in large river basins)产流过程的并行化。选择鄱阳... 针对具有物理机制的分布式水文模型对大流域、长序列模拟计算时间长、模拟速度慢的问题,引入基于GPU的并行计算技术,实现分布式水文模型WEP-L(water and energy transfer processes in large river basins)产流过程的并行化。选择鄱阳湖流域为实验区,采用计算能力为8.6的NVIDIA RTX A4000对算法性能进行测试。研究表明:提出的基于GPU的分布式水文模型并行算法具有良好的加速效果,当线程总数越接近划分的子流域个数(计算任务量)时,并行性能越好,在实验流域WEP-L模型子流域单元为8712个时,加速比最大达到2.5左右;随着计算任务量的增加,加速比逐渐增大,当实验流域WEP-L模型子流域单元增加到24897个时,加速比能达到3.5,表明GPU并行算法在大尺度流域分布式水文模型计算中具有良好的发展潜力。 展开更多
关键词 基于gpu的并行算法 物理机制 分布式水文模型 WEP-L模型 计算性能
下载PDF
面向深度学习图像分类的GPU并行方法研究 被引量:1
2
作者 韩彦岭 沈思扬 +3 位作者 徐利军 王静 张云 周汝雁 《计算机工程》 CAS CSCD 北大核心 2023年第1期191-200,共10页
针对深度学习图像分类场景中多GPU并行后传输效率低的问题,提出一种低时间复杂度的Ring All Reduce改进算法。通过分节点间隔配对原则优化数据传输流程,缓解传统参数服务器并行结构的带宽损耗。基于数据并行难以支撑大规模网络参数及加... 针对深度学习图像分类场景中多GPU并行后传输效率低的问题,提出一种低时间复杂度的Ring All Reduce改进算法。通过分节点间隔配对原则优化数据传输流程,缓解传统参数服务器并行结构的带宽损耗。基于数据并行难以支撑大规模网络参数及加速延缓的问题,根据深度学习主干网络所包含的权重参数低于全连接层权重参数、同步开销小、全连接层权重大与梯度传输开销过高等特点,提出GPU混合并行优化算法,将主干网络进行数据并行,全连接层进行模型并行,并通过改进的Ring All Reduce算法实现各节点之间的并行后数据通信,用于基于深度学习模型的图像分类。在Cifar10和mini ImageNet两个公共数据集上的实验结果表明,该算法在保持分类精度不变的情况下可以获得更好的加速效果,相比数据并行方法,可达到近45%的提升效果。 展开更多
关键词 gpu并行 Ring All Reduce算法 数据并行 模型并行 深度学习 图像分类
下载PDF
基于GPU并行算法的景观斑块周长模拟测量仿真 被引量:1
3
作者 吴国荣 渠琛 《计算机仿真》 北大核心 2023年第3期280-284,共5页
针对景观斑块周长模拟测量过程中收敛速度较慢的问题,提出基于GPU并行算法的景观斑块周长模拟测量方法。通过航拍技术采集景观斑块航拍图像,利用纠偏处理过程与高斯滤波处理过程对景观斑块航拍图像进行预处理。将景观斑块航拍图像输入GP... 针对景观斑块周长模拟测量过程中收敛速度较慢的问题,提出基于GPU并行算法的景观斑块周长模拟测量方法。通过航拍技术采集景观斑块航拍图像,利用纠偏处理过程与高斯滤波处理过程对景观斑块航拍图像进行预处理。将景观斑块航拍图像输入GPU内,通过计算机GPU片段程序构建景观斑块航拍图像的高斯差分金字塔模型,并行运算过程提取景观斑块航拍图像特征点,确定景观斑块航拍图像中景观斑块的边界线。以边界线为基础,计算景观斑块周长。仿真测试结果显示,上述方法特征点提取过程中横轴与纵轴误差完全收敛时间分别为2.12s和1.80s,周长测量绝对误差与相对误差分别控制在0.60m和1.00%以下。 展开更多
关键词 并行算法 景观斑块周长 模拟测量 航拍图像 特征提取
下载PDF
基于GPU加速的全源对最短路径并行算法
4
作者 肖汉 肖诗洋 +1 位作者 李焕勤 周清雷 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第5期1022-1032,共11页
针对最短路径算法处理大规模数据集低效的问题,提出了基于图形处理器(Graphics Processing Unit,GPU)加速的全源对最短路径并行算法.首先通过优化矩阵乘法算法实现了在工作组内和组间进行并行运算数据,然后减少了非规则行造成的工作项分... 针对最短路径算法处理大规模数据集低效的问题,提出了基于图形处理器(Graphics Processing Unit,GPU)加速的全源对最短路径并行算法.首先通过优化矩阵乘法算法实现了在工作组内和组间进行并行运算数据,然后减少了非规则行造成的工作项分支,最后降低了工作项对邻接矩阵计算条带存储资源的访问延时.实验结果表明,与基于AMD Ryzen5 1600X CPU的串行算法、基于开放多处理(Open Multi-Processing, OpenMP)并行算法和基于统一计算设备架构(Compute Unified Device Architecture, CUDA)并行算法相比,最短路径并行算法在开放式计算语言(Open Computing Language, OpenCL)架构下NVIDIA GeForce GTX 1 070计算平台上分别获得了196.35、36.76和2.25倍的加速比,验证了提出的并行优化方法的有效性和性能可移植性. 展开更多
关键词 最短路径 重复平方法 图形处理器 开放式计算语言 并行算法
下载PDF
Performance Evaluation of Quicksort with GPU Dynamic Parallelism for Gene-Expression Quantile Normalization
5
作者 Roberto Pinto Souto Carla Osthoff +2 位作者 Douglas Augusto Oswaldo Trelles Ana Tereza Ribeiro de Vasconcelos 《通讯和计算机(中英文版)》 2013年第12期1522-1528,共7页
关键词 快速排序算法 基因表达数据 并行实现 gpu 绩效评估 位数 现代分子生物学 寡核苷酸微阵列
下载PDF
基于GPU的并行相位解卷绕算法
6
作者 毛飞龙 焦义文 +3 位作者 马宏 张宇翔 聂欣林 高泽夫 《中国空间科学技术》 CSCD 北大核心 2023年第5期119-131,共13页
针对大量数据串行相位解卷绕实时性较差的问题,设计了基于GPU的并行相位解卷绕算法。首先分析了典型的串行解卷绕算法在GPU平台实现的可行性,之后设计了适合于GPU加速的并行解卷绕算法。最后对基于GPU的并行相位解卷绕算法进行了仿真验... 针对大量数据串行相位解卷绕实时性较差的问题,设计了基于GPU的并行相位解卷绕算法。首先分析了典型的串行解卷绕算法在GPU平台实现的可行性,之后设计了适合于GPU加速的并行解卷绕算法。最后对基于GPU的并行相位解卷绕算法进行了仿真验证,多次测试结果表明:在保证解卷绕正确性的基础上,基于GPU的并行相位解卷绕算法相比传统CPU串行解卷绕算法约有3.5倍的加速比,基于GPU的并行相位解卷绕算法相比GPU串行解卷绕算法有63倍的加速比。 展开更多
关键词 相位解卷绕 gpu 并行算法 实时处理 加速比
下载PDF
Using Graphics Processing Units to Parallelize the FDK Algorithm for Tomographic Image Reconstruction
7
作者 Joel Sancnchez Dominguez Luiz Femando de Oliveira +1 位作者 Nilton Alves Junior Joaquim Teixeira de Assis 《Journal of Chemistry and Chemical Engineering》 2012年第8期760-768,共9页
关键词 图形处理单元 FDK算法 并行化 断层图像 GEFORCE QUADRO gpu 断层扫描
下载PDF
基于GPU的超声弹性成像并行实现研究 被引量:6
8
作者 彭博 谌勇 刘东权 《光电工程》 CAS CSCD 北大核心 2013年第5期97-105,共9页
为了提高超声弹性成像计算速度,提出使用GPU硬件加速基于互相关技术和相位零估计的弹性成像技术。先描述这两种弹性成像技术的实现细节及特点,然后分析这两种技术的计算密集操作部分的并行化计算可能性,最后通过GPU程序开发工具ArrayFir... 为了提高超声弹性成像计算速度,提出使用GPU硬件加速基于互相关技术和相位零估计的弹性成像技术。先描述这两种弹性成像技术的实现细节及特点,然后分析这两种技术的计算密集操作部分的并行化计算可能性,最后通过GPU程序开发工具ArrayFire实现了基于GPU的互相关和相位零估计的超声弹性成像技术。通过模拟和扫描仿真人体组织的弹性成像体模获得的压缩前后数据帧对基于GPU的超声弹性成像方法进行测试与验证。实验结果表明,基于GPU的方法可以大幅提高弹性图计算速度,在处理单帧弹性图条件下,与基于互相关方法比较,加速比达到42,而基于相位零估计的方法在提高数据吞吐量的情况下加速比可达到65。 展开更多
关键词 超声影像 弹性成像 应变成像 图像处理器 并行算法
下载PDF
Bellman-Ford算法性能可移植的GPU并行优化 被引量:7
9
作者 刘磊 王燕燕 +2 位作者 申春 李玉祥 刘雷 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2015年第5期1559-1564,共6页
提出了一种面向GPU的性能可移植的并行归约求极值优化算法和全局访存优化算法,对Bellman-Ford算法进行并行化改造,以解决不同类型GPU设备上都存在的并行粒度不足和全局内存访问不连续等问题。实验结果表明:本文的优化算法在NVIDIA和AM... 提出了一种面向GPU的性能可移植的并行归约求极值优化算法和全局访存优化算法,对Bellman-Ford算法进行并行化改造,以解决不同类型GPU设备上都存在的并行粒度不足和全局内存访问不连续等问题。实验结果表明:本文的优化算法在NVIDIA和AMD的多款GPU设备上都取得了很好的效果,经本文算法优化后的程序性能较原始GPU并行版本提升3~6倍。 展开更多
关键词 计算机软件 Bellman-Ford算法 gpu并行编程及优化技术 并行归约算法 性能可移植性
下载PDF
基于双线性插值的图像缩放在GPU上的实现 被引量:19
10
作者 王平 全吉成 赵柏宇 《微电子学与计算机》 CSCD 北大核心 2016年第11期129-132,共4页
针对传统的在CPU上实现的基于双线性插值的图像缩放存在速度慢等问题,利用GPU高性能并行计算优势,实现了在GPU上基于双线性插值的快速缩放.此算法将目标图像的每个像素分配给GPU中每个线程同时执行,提高插值效率.从实验结果可以看出,此... 针对传统的在CPU上实现的基于双线性插值的图像缩放存在速度慢等问题,利用GPU高性能并行计算优势,实现了在GPU上基于双线性插值的快速缩放.此算法将目标图像的每个像素分配给GPU中每个线程同时执行,提高插值效率.从实验结果可以看出,此算法在放大图像时,随着图像分辨率的增大,GPU的插值速度相对CPU单线程和多线程的插值速度显著提高,能很好达到实时缩放图像的效果. 展开更多
关键词 gpu 双线性插值 并行算法 图像缩放
下载PDF
基于GPU的K-近邻算法实现 被引量:3
11
作者 田盼 华蓓 陆李 《计算机工程》 CAS CSCD 北大核心 2015年第2期189-192,198,共5页
K-近邻计算在数据集规模较大时计算复杂度较高,因此,利用图形处理器(GPU)强大的并行计算能力对K-近邻算法进行加速。在分析现有K-近邻算法的基础上,针对该算法时间开销过大的问题,结合GPU的体系结构特征实现基于GPU的K-近邻算法。利用... K-近邻计算在数据集规模较大时计算复杂度较高,因此,利用图形处理器(GPU)强大的并行计算能力对K-近邻算法进行加速。在分析现有K-近邻算法的基础上,针对该算法时间开销过大的问题,结合GPU的体系结构特征实现基于GPU的K-近邻算法。利用全局存储器的合并访问特性,提高GPU全局存储器访问数据的效率,通过事先过滤数据的方法来减少参与排序的数据量,进而减少排序阶段的线程串行化时间。在KDD,Poker,Covertype 3个数据集上进行实验,结果表明,该实现方法在距离计算阶段每秒执行的浮点运算次数为266.37×109次,而排序阶段为26.47×109次,优于已有方法。 展开更多
关键词 K-近邻问题 图形处理器 并行计算 算法加速 合并访问 全局存储器
下载PDF
基于GPU的现代并行优化算法 被引量:27
12
作者 张庆科 杨波 +1 位作者 王琳 朱福祥 《计算机科学》 CSCD 北大核心 2012年第4期304-310,F0003,共8页
针对现代优化算法在处理相对复杂问题中所面临的求解时间复杂度较高的问题,引入基于GPU的并行处理解决方法。首先从宏观角度阐释了基于计算统一设备架构CUDA的并行编程模型,然后在GPU环境下给出了基于CUDA架构的5种典型现代优化算法(模... 针对现代优化算法在处理相对复杂问题中所面临的求解时间复杂度较高的问题,引入基于GPU的并行处理解决方法。首先从宏观角度阐释了基于计算统一设备架构CUDA的并行编程模型,然后在GPU环境下给出了基于CUDA架构的5种典型现代优化算法(模拟退火算法、禁忌搜索算法、遗传算法、粒子群算法以及人工神经网络)的并行实现过程。通过对比分析在不同环境下测试的实验案例统计结果,指出基于GPU的单指令多线程并行优化策略的优势及其未来发展趋势。 展开更多
关键词 现代优化算法 图形处理器(gpu) 计算统一设备架构(CUDA) 组合优化 并行计算
下载PDF
一种基于GPU加速的细粒度并行粒子群算法 被引量:8
13
作者 李建明 万单领 +1 位作者 迟忠先 胡祥培 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2006年第12期2162-2166,共5页
提出了一种基于GPU加速的细粒度并行粒子群算法,将并行PSO求解过程转化为GPU纹理渲染过程,使PSO算法在GPU中加速执行,在取得了较好的优化效果的同时,增大了细粒度并行的粒子规模,提高了算法的运算速度,并为普通用户的并行PSO工作提供了... 提出了一种基于GPU加速的细粒度并行粒子群算法,将并行PSO求解过程转化为GPU纹理渲染过程,使PSO算法在GPU中加速执行,在取得了较好的优化效果的同时,增大了细粒度并行的粒子规模,提高了算法的运算速度,并为普通用户的并行PSO工作提供了一种可行的方法. 展开更多
关键词 粒子群优化算法 并行处理 gpu 细粒度
下载PDF
基于改进的GPU并行NSGA-Ⅲ的土地利用优化配置 被引量:7
14
作者 王海军 曾浩然 +2 位作者 张文婷 张彬 周玲慧 《农业工程学报》 EI CAS CSCD 北大核心 2020年第21期283-291,共9页
土地利用优化配置是实现土地资源可持续利用的重要途径。该研究根据地理单元发展演变特点对基于参考点的非支配排序的遗传算法进行针对性改进,并耦合多目标优化方法,构建了土地利用空间优化模型。针对目前空间优化模型耗时过长,效率低... 土地利用优化配置是实现土地资源可持续利用的重要途径。该研究根据地理单元发展演变特点对基于参考点的非支配排序的遗传算法进行针对性改进,并耦合多目标优化方法,构建了土地利用空间优化模型。针对目前空间优化模型耗时过长,效率低的问题,该研究将GPU(Graphics Processing Unit,GPU)并行计算和土地利用优化配置模型有机结合,提升模型的优化效率。选取武汉市东西湖区进行实证研究,对比了模型在CPU(Central Processing Unit,CPU)串行计算和GPU并行计算2种方式下的运行耗时,并从最终优化结果中选取生态保护优先和经济发展优先2种典型方案进行分析。结果表明:1)GPU并行计算能够显著提升模型的优化效率,模型运行耗时由原来的158.08 h缩短到了1.68 h;2)模型能够统筹协调多个目标,对研究区域土地的数量结构和空间布局进行合理配置,为规划决策者提供多个可行方案。生态保护优先方案中,生态效益降低了6.16%,经济效益增长了13.64%;经济发展优先方案中,生态效益降低了6.19%,经济效益增长了15.86%。 展开更多
关键词 土地利用 优化 非支配排序 遗传算法 gpu并行计算 武汉市东西湖区
下载PDF
基于GPU的SAR成像层次化并行处理研究 被引量:5
15
作者 李东生 何余洪 雍爱霞 《火力与指挥控制》 CSCD 北大核心 2015年第6期31-35,共5页
针对SAR成像处理具有的内在并行性,提出了一种基于GPU的SAR成像层次化并行处理方法。首先分析了SAR成像处理过程中信号的并行性,对任务进行了层次化分解与组合,设计了层次化并行的CS成像算法;然后通过CUDA编程将并行成像算法映射到CPU+G... 针对SAR成像处理具有的内在并行性,提出了一种基于GPU的SAR成像层次化并行处理方法。首先分析了SAR成像处理过程中信号的并行性,对任务进行了层次化分解与组合,设计了层次化并行的CS成像算法;然后通过CUDA编程将并行成像算法映射到CPU+GPUs系统平台上,实现了层次化并行成像处理;为了检验并行处理效果,采用原始数据进行了SAR成像处理实验。实验结果表明,在几乎没有损失图像质量的情况下,层次化并行处理获得了较高的加速比。 展开更多
关键词 合成孔径雷达 图形处理器 统一计算设备架构 并行成像处理 调频变标算法
下载PDF
一种求解机组组合问题的内点半定规划GPU并行算法 被引量:6
16
作者 张宁宇 高山 赵欣 《电力自动化设备》 EI CSCD 北大核心 2013年第7期126-131,138,共7页
针对内点法求解机组组合问题的半定规划(SDP)模型时大规模线性方程组计算时间太长的问题,提出一种基于图形处理器(GPU)的Krylov子空间并行算法。该算法采用预条件处理的拟最小残差法(QMR法),并以矩阵分块技术为基础。在CSR存储... 针对内点法求解机组组合问题的半定规划(SDP)模型时大规模线性方程组计算时间太长的问题,提出一种基于图形处理器(GPU)的Krylov子空间并行算法。该算法采用预条件处理的拟最小残差法(QMR法),并以矩阵分块技术为基础。在CSR存储格式下使用GPU实现Incomplete Cholesky并行预处理矩阵的计算。通过对不同规模线性方程组的计算分析表明,与传统的Ch01eskv直接法相比,QMR并行算法具有速度和存储优势.可获得良好的并行加速比。10-100机6个系统的仿真结果也表明,该SDP并行内点法在减少计算时间的同时可求得近似最优解。 展开更多
关键词 机组组合 半定规划 gpu QMR 不完全Cholesky分解 并行算法 Krylov 线性规划
下载PDF
CPU+GPU异构平台的一致性图像配准算法并行实现 被引量:1
17
作者 易见兵 陈国良 杨烜 《小型微型计算机系统》 CSCD 北大核心 2014年第1期114-120,共7页
针对标志点一致性图像配准算法收敛时间较长问题,提出在CPU+GPU异构平台上的并行实现方法。该方法在GPU上完成了一致性图像配准算法中的弹性变换求解及逆函数求解的并行实现,在CPU上实现变量初始化以及迭代更新等过程,充分利用异构平台... 针对标志点一致性图像配准算法收敛时间较长问题,提出在CPU+GPU异构平台上的并行实现方法。该方法在GPU上完成了一致性图像配准算法中的弹性变换求解及逆函数求解的并行实现,在CPU上实现变量初始化以及迭代更新等过程,充分利用异构平台优势,提高该算法的运行效率。实验结果表明该并行实现方法可以获得较高的加速比. 展开更多
关键词 gpu 加速比 图像配准 并行算法
下载PDF
多体问题在GPU上实现的讨论 被引量:3
18
作者 徐磊 徐莹 《计算机应用与软件》 CSCD 北大核心 2012年第1期92-95,共4页
多体问题(N-body)是力学的基本问题之一,研究N个质点互相作用的运动规律。结合分子动力学计算模拟软件LAMMPS和天体多体物理模拟软件Gadget-2这两个有广泛应用的多体并行计算软件,分析其基本算法和实现,讨论这两个有代表性的并行计算软... 多体问题(N-body)是力学的基本问题之一,研究N个质点互相作用的运动规律。结合分子动力学计算模拟软件LAMMPS和天体多体物理模拟软件Gadget-2这两个有广泛应用的多体并行计算软件,分析其基本算法和实现,讨论这两个有代表性的并行计算软件在GPU等加速部件上移植的基本思路。 展开更多
关键词 多体问题 分子动力学 天体多体问题 并行算法 gpu
下载PDF
基于GPU的机电暂态仿真细粒度并行算法 被引量:14
19
作者 张宁宇 高山 赵欣 《电力系统自动化》 EI CSCD 北大核心 2012年第9期54-60,共7页
提出一种基于图形处理器(GPU)并采用隐形梯度法的机电暂态仿真细粒度并行算法。该算法将整个系统分为发电机节点系统和非发电机节点系统,对发电机节点系统求解时,先将在网络中直接相连的发电机节点合并成一个子系统,然后在GPU中给每个... 提出一种基于图形处理器(GPU)并采用隐形梯度法的机电暂态仿真细粒度并行算法。该算法将整个系统分为发电机节点系统和非发电机节点系统,对发电机节点系统求解时,先将在网络中直接相连的发电机节点合并成一个子系统,然后在GPU中给每个子系统分配相应线程块进行并行求解,其中采用了LU并行分解来求解线性方程组。求解完成后,利用从发电机节点系统传递来的LU分解信息,再对非发电机节点系统使用GPU进行求解。通过对不同规模的算例进行分析表明:所提出的GPU并行算法的计算结果与CPU串行算法和BPA软件的计算结果大致相同,且随着系统规模的增加,GPU并行算法的加速效果更为明显。 展开更多
关键词 机电暂态仿真 图形处理器 隐式梯度法 LU分解 并行算法
下载PDF
压缩感知A*OMP重构算法的并行化与GPU加速实现 被引量:1
20
作者 熊承义 张静 +1 位作者 高志荣 雷梦 《中南民族大学学报(自然科学版)》 CAS 北大核心 2016年第2期79-84,共6页
针对压缩感知系统实时应用的需要,探讨了A*OMP算法的并行设计及基于GPU的加速方法.将耗时长的矩阵逆运算转化为可并行的矩阵/向量操作,并结合算法本身的关联特性,进一步采用迭代法实现以降低其计算复杂度.利用GPU高效的并行运算能力,将... 针对压缩感知系统实时应用的需要,探讨了A*OMP算法的并行设计及基于GPU的加速方法.将耗时长的矩阵逆运算转化为可并行的矩阵/向量操作,并结合算法本身的关联特性,进一步采用迭代法实现以降低其计算复杂度.利用GPU高效的并行运算能力,将算法中可并行的矩阵/向量计算映射到GPU上并行执行,在面向Matlab的Jacket软件平台上对整体串行算法进行了并行化的设计与实现.在NVIDIA Tesla K20Xm GPU和Intel(R)E5-2650 CPU上进行了测试,实验结果表明:对比CPU平台的串行实现,基于GPU的A*OMP算法整体上可获得约40倍的加速,实现了在保持系统较高重构质量的同时能有效降低计算时间,较好地满足了系统实时性的需要. 展开更多
关键词 A*OMP算法 并行 加速 图形处理单元
下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部