期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
一种基于GPU模型优化的外辐射源直接定位技术
1
作者 郭海召 母诗源 刘启凡 《计算机与网络》 2023年第11期40-44,共5页
分布式作战已经成为当前技术侦察领域的重要发展方向。针对外辐射源无源探测场景,采用一种基于图形处理器(Graphics Processing Unit,GPU)模型优化的外辐射源微弱信号分布式直接定位技术,通用平台天线采用相控阵体制,实现对重点凝视空... 分布式作战已经成为当前技术侦察领域的重要发展方向。针对外辐射源无源探测场景,采用一种基于图形处理器(Graphics Processing Unit,GPU)模型优化的外辐射源微弱信号分布式直接定位技术,通用平台天线采用相控阵体制,实现对重点凝视空域的波束覆盖侦收,通过对原始直达波信号与目标散射信号的直接融合处理,搭建GPU并行优化模型,匹配搜索得到目标位置信息。模拟内场数据和外场试验数据验证了所提方案的合理有效性。 展开更多
关键词 分布式 gpu优化 外辐射源 直接定位
下载PDF
Bellman-Ford算法性能可移植的GPU并行优化 被引量:7
2
作者 刘磊 王燕燕 +2 位作者 申春 李玉祥 刘雷 《吉林大学学报(工学版)》 EI CAS CSCD 北大核心 2015年第5期1559-1564,共6页
提出了一种面向GPU的性能可移植的并行归约求极值优化算法和全局访存优化算法,对Bellman-Ford算法进行并行化改造,以解决不同类型GPU设备上都存在的并行粒度不足和全局内存访问不连续等问题。实验结果表明:本文的优化算法在NVIDIA和AM... 提出了一种面向GPU的性能可移植的并行归约求极值优化算法和全局访存优化算法,对Bellman-Ford算法进行并行化改造,以解决不同类型GPU设备上都存在的并行粒度不足和全局内存访问不连续等问题。实验结果表明:本文的优化算法在NVIDIA和AMD的多款GPU设备上都取得了很好的效果,经本文算法优化后的程序性能较原始GPU并行版本提升3~6倍。 展开更多
关键词 计算机软件 Bellman-Ford算法 gpu并行编程及优化技术 并行归约算法 性能可移植性
下载PDF
NVIDIA Tegra K1异构计算平台访存优化研究 被引量:3
3
作者 梁军 李威 +1 位作者 肖琳 徐歆恺 《计算机工程》 CAS CSCD 北大核心 2016年第12期44-49,共6页
在异构计算平台的移植和优化过程中,数字图像处理算法的访存性能已成为制约系统性能的主要因素。为此,结合NVIDIA Tegra K1硬件架构特征和具体算法特性,从合并与向量化访存优化、全局访存bank和channel冲突消除等方面,对矩阵转置算法和... 在异构计算平台的移植和优化过程中,数字图像处理算法的访存性能已成为制约系统性能的主要因素。为此,结合NVIDIA Tegra K1硬件架构特征和具体算法特性,从合并与向量化访存优化、全局访存bank和channel冲突消除等方面,对矩阵转置算法和拉普拉斯滤波算法在NVIDIA Tegra K1异构计算平台上的实现和访存性能优化进行研究。实验结果表明,采用优化方法后的矩阵转置算法和拉普拉斯滤波算法在NVIDIA Tegra K1异构计算平台上取得了较大的访存性能提升,并且具有较好的实时性。 展开更多
关键词 gpu优化 访存带宽 数据本地化 向量化 合并访问 拉普拉斯滤波算法
下载PDF
基于CUBLAS和CUDA的MNF并行算法设计与优化 被引量:3
4
作者 周海芳 高畅 方民权 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第4期147-156,共10页
为实现高光谱影像数据快速降维,基于nVidia的图像处理单元(graphic processing unit,GPU)研究最大噪声分数变换(Maximum Noise Fraction Rotation,MNF Rotation)降维算法的并行设计与优化,通过对加速热点并行优化,择优整合,设计并实现基... 为实现高光谱影像数据快速降维,基于nVidia的图像处理单元(graphic processing unit,GPU)研究最大噪声分数变换(Maximum Noise Fraction Rotation,MNF Rotation)降维算法的并行设计与优化,通过对加速热点并行优化,择优整合,设计并实现基于CUBLAS(CUDA Basic Linear Algebra Subprograms)库的MNF-L(MNF-on-Library)算法和基于CPU/GPU异构系统的MNF-C(MNF-on-CUDA)算法.实验结果显示MNF-L算法加速11.5~60.6倍不等,MNF-C算法加速效果最好,加速46.5~92.9倍不等.研究结果表明了GPU在高光谱影像线性降维领域的巨大优势. 展开更多
关键词 图像处理单元 gpu性能优化 高光谱影像降维 最大噪声分数变换 协方差矩阵计算
下载PDF
简化的混合域全波形反演方法及GPU加速 被引量:2
5
作者 桂生 刘洪 李飞 《石油物探》 EI CSCD 北大核心 2017年第1期99-106,共8页
全波形反演(FWI)方法综合利用叠前地震波场的动力学和运动学信息,能够高精度地重建地下介质模型参数场,但巨大的计算量一直是制约其发展的一个重要因素。GPU组成的高性能计算集群为提高全波形反演计算效率提供了重要的硬件基础。基于GP... 全波形反演(FWI)方法综合利用叠前地震波场的动力学和运动学信息,能够高精度地重建地下介质模型参数场,但巨大的计算量一直是制约其发展的一个重要因素。GPU组成的高性能计算集群为提高全波形反演计算效率提供了重要的硬件基础。基于GPU平台,采用简化的混合域全波形反演算法实现了更快速的三维全波形反演计算。首先简单介绍了GPU加速技术应用于简化的混合域全波形反演时的一些优化技巧,包括线程调度、GPU之间数据传输以及共享内存的使用等,然后通过多GPU全波形反演测试了简化的混合域全波形反演的效果,证明了GPU加速技术能够有效地提高全波形反演的计算效率,相比CPU具有十几倍的加速比。 展开更多
关键词 gpu技术 高性能计算 gpu技术优化 全波形反演
下载PDF
异构计算平台激光雷达算法优化研究 被引量:3
6
作者 许武 梁军 +3 位作者 李威 徐鹏飞 徐圣瑞 张福贵 《计算机工程》 CAS CSCD 北大核心 2018年第7期1-7,共7页
单纯采用CPU处理激光雷达点云数据已无法满足其实时性需求。为此,选用NVIDIA Tegra X1作为异构计算平台,对激光雷达数据处理算法进行加速。结合硬件架构特征和激光雷达数据处理算法的特性,通过粗粒度并行解决GPU优化过程中出现的负载不... 单纯采用CPU处理激光雷达点云数据已无法满足其实时性需求。为此,选用NVIDIA Tegra X1作为异构计算平台,对激光雷达数据处理算法进行加速。结合硬件架构特征和激光雷达数据处理算法的特性,通过粗粒度并行解决GPU优化过程中出现的负载不均衡问题。同时采用零复制和数据本地化的方法进行数据的精细优化。实验结果表明,相较于目前智能车上使用的工控机,优化后的激光雷达数据处理算法能够加速5倍~6倍,提高了智能车对雷达数据处理的实时性。 展开更多
关键词 粗粒度并行 负载不均衡 零复制 数据本地化 gpu优化 异构计算平台
下载PDF
MATLAB与OpenACC结合实现中值滤波算法并行优化
7
作者 黄伟建 王月兴 黄远 《河北工程大学学报(自然科学版)》 CAS 2019年第2期101-104,共4页
针对当前基于CUDA的中值滤波并行加速算法存在的编程复杂,图像数据提取和显示环节实现繁琐等问题提出了利用MATLAB和OpenACC结合的并行算法。该算法采用MATLAB实现图像的提取并转换成数组文件,之后利用OpenACC实现串行代码到并行代码的... 针对当前基于CUDA的中值滤波并行加速算法存在的编程复杂,图像数据提取和显示环节实现繁琐等问题提出了利用MATLAB和OpenACC结合的并行算法。该算法采用MATLAB实现图像的提取并转换成数组文件,之后利用OpenACC实现串行代码到并行代码的转换并处理MATLAB转换的数组文件,最后通过MATLAB将滤波后的数据显示成图像。通过仿真实验进行中值滤波算法的加速实验,结果表明:提出的算法在大量减少代码转换工作量的情况下加速效果较串行程序提升明显且与CUDA加速效果相当。 展开更多
关键词 OpenACC MATLAB 中值滤波 gpu并行优化
下载PDF
基于softcascade的车牌检测算法 被引量:1
8
作者 徐达 朱叶盛 《工业控制计算机》 2016年第5期105-106,109,共3页
相较于传统的分类器级联方式,softcascade分类器具有很多优点:softcascade中每一级的输出为之前所有弱分类器输出值之和,这样前面选出的特征会参与后面每一级的决策,得到分类性能更好的分类器。采用softcade算法训练分类器,结合扩展的H... 相较于传统的分类器级联方式,softcascade分类器具有很多优点:softcascade中每一级的输出为之前所有弱分类器输出值之和,这样前面选出的特征会参与后面每一级的决策,得到分类性能更好的分类器。采用softcade算法训练分类器,结合扩展的HARR特征实现了车牌检测,并引入并行计算,在GPU设备上对整个训练过程进行了优化,使训练速度提升了3~4倍。与传统级联算法进行对比实验,实验结果表明基于softcascade算法训练得到的分类器较传统的级联算法训练得到的分类器的性能具有较大提升。 展开更多
关键词 softcascade算法 gpu优化 车牌检测
下载PDF
基于口令自生成的GPU暴力破解优化技术 被引量:3
9
作者 谢鑫君 罗顺 杨士华 《信息安全与通信保密》 2013年第3期82-84,共3页
文中在GPU硬件解密加速技术领域中,提出了对规则化口令穷举时,口令在设备端自动生成的技术。采用设备端每个并行线程唯一具有的线程号,建立线程号与口令的对应规则,以规则代替IO操作,并基于其中的一种对应规则进行了具体实现。最后以一... 文中在GPU硬件解密加速技术领域中,提出了对规则化口令穷举时,口令在设备端自动生成的技术。采用设备端每个并行线程唯一具有的线程号,建立线程号与口令的对应规则,以规则代替IO操作,并基于其中的一种对应规则进行了具体实现。最后以一个约20MB的规则口令库,对GPU口令自生成技术在暴力破解中的应用性能进行了测试。 展开更多
关键词 gpu优化技术 规则口令 自生成
原文传递
基于PMVS算法的大规模数据细粒度并行优化方法 被引量:4
10
作者 刘金硕 李扬眉 +3 位作者 江庄毅 邓娟 眭海刚 Pan Jeff 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2019年第4期608-616,共9页
三维多视角立体视觉算法(patch-based multi-view stereo, PMVS)以其良好的三维重建效果广泛应用于数字城市等领域,但用于大规模计算时算法的执行效率低下。针对此,提出了一种细粒度并行优化方法,从任务划分和负载均衡、主系统存储和GP... 三维多视角立体视觉算法(patch-based multi-view stereo, PMVS)以其良好的三维重建效果广泛应用于数字城市等领域,但用于大规模计算时算法的执行效率低下。针对此,提出了一种细粒度并行优化方法,从任务划分和负载均衡、主系统存储和GPU存储、通信开销等3方面加以优化;同时,设计了基于面片的PMVS算法特征提取的GPU和多线程并行改造方法,实现了CPUs_GPUs多粒度协同并行。实验结果表明,基于CPU多线程策略能实现4倍加速比,基于统一计算设备架构(compute unified device architecture, CUDA)并行策略能实现最高34倍加速比,而提出的策略在CUDA并行策略的基础上实现了30%的性能提升,可以用于其他领域大数据处理中快速调度计算资源。 展开更多
关键词 CPUs_gpus多粒度并行 gpu并行优化 CUDA 负载均衡 存储与通信优化 图像处理
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部