期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
无量纲最小二乘有限元法GPU实现及其在变压器绕组流场仿真中的应用研究 被引量:1
1
作者 靳立鹏 刘刚 +2 位作者 任增强 李浩 武卫革 《华北电力大学学报(自然科学版)》 CAS 北大核心 2024年第3期56-64,共9页
为了提高变压器流体场的计算效率,利用统一计算设备架构(compute unified device architecture,CUDA)实现流场的并行计算。首先基于C语言实现无量纲最小二乘有限元法的串行计算方法。然后在Visual Studio 2019+CUDA 10.2的环境下实现并... 为了提高变压器流体场的计算效率,利用统一计算设备架构(compute unified device architecture,CUDA)实现流场的并行计算。首先基于C语言实现无量纲最小二乘有限元法的串行计算方法。然后在Visual Studio 2019+CUDA 10.2的环境下实现并行运算,对于串行程序中最耗时的线性方程组求解部分调用了CUDA自带的函数库进行优化;在大规模模型的数值计算中使用了十字链表格式存储整体刚度阵形成时的非零元素,以解决满阵存储时的内存不足问题。为验证所提方法的有效性,针对方腔模型,分析了不同剖分网格数量下的加速比,分析结果表明,数据规模越大并行效果越好,验证了无量纲最小二乘有限元并行程序的准确性和高效性。最后将该方法应用到大型变压器绕组的流体场分析中,取得了18.3倍的加速效果,为产品级变压器的流体场仿真奠定了基础。 展开更多
关键词 变压器 绕组 无量纲最小二乘有限元 流场 gpu 加速比
下载PDF
基于GPU的受限玻尔兹曼机并行加速 被引量:1
2
作者 张立民 刘凯 范晓磊 《电子设计工程》 2016年第2期28-31,34,共5页
为针对受限玻尔兹曼机处理大数据时存在的训练缓慢、难以得到模型最优的问题,提出了基于GPU的RBM模型训练并行加速方法。首先重新规划了对比散度算法在GPU的实现步骤;其次结合以往GPU并行方案,提出采用CUBLAS执行训练的矩阵乘加运算,设... 为针对受限玻尔兹曼机处理大数据时存在的训练缓慢、难以得到模型最优的问题,提出了基于GPU的RBM模型训练并行加速方法。首先重新规划了对比散度算法在GPU的实现步骤;其次结合以往GPU并行方案,提出采用CUBLAS执行训练的矩阵乘加运算,设计周期更长、代码更为简洁的Tausworthe113和CLCG4的组合随机数生成器,利用CUDA拾取纹理内存的读取模式实现了Sigmoid函数值计算;最后对训练时间和效果进行检验。通过MNIST手写数字识别集实验证明,相较于以往RBM并行代码,新设计的GPU并行方案在处理大规模数据集训练上优势较为明显,加速比达到25以上。 展开更多
关键词 受限玻尔兹曼机 gpu CUDA 加速比 并行加速
下载PDF
基于GPU的图片特征提取与检测 被引量:5
3
作者 徐晶 曾苗祥 许炜 《计算机科学》 CSCD 北大核心 2014年第7期157-161,共5页
针对目前高速网络中图像数目多、分辨率大、普通PC机上的检测方法对图片检测达不到实时性的问题,提出了一种基于GPU的快速图片检测方案。该方案分别采用SURF(Speed-Up Robust Features,加速鲁棒特征)算法和SVM(Support Vector Machine,... 针对目前高速网络中图像数目多、分辨率大、普通PC机上的检测方法对图片检测达不到实时性的问题,提出了一种基于GPU的快速图片检测方案。该方案分别采用SURF(Speed-Up Robust Features,加速鲁棒特征)算法和SVM(Support Vector Machine,支持向量机)算法对图像进行特征提取和特征分类,并利用GPU浮点运算的并行性来优化系统。最后实验证实,相对于普通PC机上实现的方案,使用GPU的检测速度提升5到9倍。 展开更多
关键词 加速鲁棒特征 支持向量机 gpu
下载PDF
一种利用GPU优化大规模小方阵奇异值分解的新方法
4
作者 李晓敏 鄢社锋 侯朝焕 《长春理工大学学报(自然科学版)》 2011年第2期131-134,共4页
在宽带声纳和雷达信号处理中,对大量小方阵进行SVD(Singular Value Decomposition,奇异值分解)的执行时间在整个处理过程中占较大比重。为了提高SVD计算速度,该方法采用具有众多并行内核的GPU(Graphic Processing Unit,图形处理器),实... 在宽带声纳和雷达信号处理中,对大量小方阵进行SVD(Singular Value Decomposition,奇异值分解)的执行时间在整个处理过程中占较大比重。为了提高SVD计算速度,该方法采用具有众多并行内核的GPU(Graphic Processing Unit,图形处理器),实现了针对大规模小方阵SVD的优化。该方法的计算效率随矩阵个数的增加而提高,且在相同条件下的执行速度比MATLAB提高了约5.1倍,比Intel MKL提高了约3.4倍。 展开更多
关键词 加速 SVD gpu 大规模小方阵
下载PDF
基于GPU的并行非结构网格生成技术研究 被引量:3
5
作者 齐龙 肖素梅 +2 位作者 刘云楚 廖玲玲 蔡云龙 《机械设计与制造》 北大核心 2013年第2期184-186,共3页
为了解决非结构网格生成在时间和内存上的问题,研究了非结构网格的并行生成方法,提出了一种基于CUDA架构的GPU并行非结构网格生成技术。该技术结合了GPU的高速并行性和并行Delaunay网格生成技术的优点,在CUDA编程框架下,将非结构网格生... 为了解决非结构网格生成在时间和内存上的问题,研究了非结构网格的并行生成方法,提出了一种基于CUDA架构的GPU并行非结构网格生成技术。该技术结合了GPU的高速并行性和并行Delaunay网格生成技术的优点,在CUDA编程框架下,将非结构网格生成的技术应用到GPU并行环境中。通过分析此方法的加速比和效率,对其性能进行了评估。实验结果表明,所提出的方法具备有高效性,与传统方法相比,在保证网格质量的同时,大幅度减少了其时间消耗。 展开更多
关键词 非结构网格 网格并行生成 DELAUNAY三角化 gpu 加速比
下载PDF
基于GPU的高速铁路扣件实时探测技术 被引量:1
6
作者 王梦雪 陶卫 +4 位作者 杨金峰 吴芳 赵辉 王卫东 任盛伟 《大连交通大学学报》 CAS 2011年第6期63-67,共5页
针对传统的图像模式识别算法提出一种GPU加速新方法,结合对CUDA架构的分析,通过充分利用GPU优秀的并行计算能力和高存储器带宽提高图像处理速度.分别对不同大小及不同批数量(单次处理图像数)的图像进行识别处理,并对其进行了多种优化,... 针对传统的图像模式识别算法提出一种GPU加速新方法,结合对CUDA架构的分析,通过充分利用GPU优秀的并行计算能力和高存储器带宽提高图像处理速度.分别对不同大小及不同批数量(单次处理图像数)的图像进行识别处理,并对其进行了多种优化,实验证明相同算法在GPU上的实现与CPU相比处理速度最高提升了600倍左右,达到了平均每幅图优于2 ms的处理速度.此项技术已成功应用于高速铁路扣件在线探测,为高速铁路安全信息在线监测提供了新的有效的手段和方法. 展开更多
关键词 图像模式识别算法 gpu 加速比
下载PDF
基于GPU的加锁并行化非结构网格生成方法研究 被引量:1
7
作者 蔡云龙 肖素梅 齐龙 《计算机工程与应用》 CSCD 2014年第6期56-60,共5页
非结构网格的生成在时间和内存上有一定的缺陷,这里提出了一种新的方法,命名为GPU-PDMG,是基于CUDA架构的GPU并行非结构网格生成技术。该技术结合了GPU的高速并行计算能力与Delaunay三角化的优点,在英伟达GPU模块下采用CUDA程序模型,开... 非结构网格的生成在时间和内存上有一定的缺陷,这里提出了一种新的方法,命名为GPU-PDMG,是基于CUDA架构的GPU并行非结构网格生成技术。该技术结合了GPU的高速并行计算能力与Delaunay三角化的优点,在英伟达GPU模块下采用CUDA程序模型,开发出了加锁并行区划分技术,通过对NACA0012翼型、多段翼型等算例进行测试,分析此方法的加速比和效率,对其计算性能展开评估。实验结果表明,GPU-PDMG优于现存在的CPU算法的速度,在保证网格质量的同时,提高了效率。 展开更多
关键词 非结构网格 并行域 加锁 图形处理单元(gpu) 加速比
下载PDF
基于GPU并行计算的快速视觉惯性里程计方法 被引量:1
8
作者 陈财富 汪双 +2 位作者 陈波 张华 王姮 《传感器与微系统》 CSCD 北大核心 2022年第10期18-21,25,共5页
针对当前视觉即时定位与地图构建(VSLAM)前端视觉惯性里程计(VIO)存在运算量大导致计算时间长的问题,提出了一种全新的基于图形处理器(GPU)并行加速的VIO方法。首先,对VIO进行加速算法设计,包括限制对比度的自适应性直方图均衡化(CLAHE... 针对当前视觉即时定位与地图构建(VSLAM)前端视觉惯性里程计(VIO)存在运算量大导致计算时间长的问题,提出了一种全新的基于图形处理器(GPU)并行加速的VIO方法。首先,对VIO进行加速算法设计,包括限制对比度的自适应性直方图均衡化(CLAHE)算法加速、FAST角点筛选改进加速以及改进光流跟踪算法加速。最后,将设计的加速算法串并组合成前端,结合开源VINS-Mono后端进行定位精度与实时性测试,平均耗时减少12.03 ms,定位精度均方根(RMS)值相差0.008 963 m。实验结果表明:提出的方法在保持定位精度的同时提升了算法实时性能,且优于VINS-Mono中基于OpenCV GPU加速的方法。 展开更多
关键词 视觉即时定位与地图构建 视觉惯性里程计 图形处理器 OpenCV数据库 加速
下载PDF
基于CPU-GPU异构平台的高层结构地震响应分析方法研究 被引量:8
9
作者 李红豫 滕军 李祚华 《振动与冲击》 EI CSCD 北大核心 2014年第13期86-91,共6页
为了解决传统的串行有限元分析方法计算耗时多精度低的问题,基于GPU并行计算能力在CUDA架构下建立了一套兼顾精度和效率的高层结构有限元分析的CPU-CPU的异构平台。基于CPU-GPU异构平台研究了高层结构地震响应算法,将整个时间步积分在GP... 为了解决传统的串行有限元分析方法计算耗时多精度低的问题,基于GPU并行计算能力在CUDA架构下建立了一套兼顾精度和效率的高层结构有限元分析的CPU-CPU的异构平台。基于CPU-GPU异构平台研究了高层结构地震响应算法,将整个时间步积分在GPU中计算完成,每一时间步下利用基于GPU的预处理共轭梯度迭代法求解线性方程组获得该时刻的位移,最终实现了基于GPU的Newmark-β法。通过算例验证了本文所提方法的高精度、高效率。 展开更多
关键词 gpu 异构平台 有限元 地震响应 CUDA 加速比
下载PDF
基于GPU的位并行多模式串匹配研究 被引量:2
10
作者 赵光南 吴承荣 《计算机工程》 CAS CSCD 北大核心 2011年第14期265-267,273,共4页
图形处理器(GPU)具有较强的单一运算能力及高度并行的体系结构。根据上述特点,选择基于位并行技术的多模式串匹配算法M-BNDM,将其移植到GPU上加以实现和优化。通过对需要处理的数据进行预处理,将串匹配的过程简化为更适合CUDA计算数据... 图形处理器(GPU)具有较强的单一运算能力及高度并行的体系结构。根据上述特点,选择基于位并行技术的多模式串匹配算法M-BNDM,将其移植到GPU上加以实现和优化。通过对需要处理的数据进行预处理,将串匹配的过程简化为更适合CUDA计算数据的位操作。对基于CUDA架构的并行串匹配算法的性能影响因子进行分析。实验结果表明,与同等CPU算法相比,该算法能够获得约十几倍的加速比。 展开更多
关键词 图形处理器 多模式字符串匹配 位并行 M-BNDM算法 加速
下载PDF
基于图形处理器的电力系统稀疏线性方程组求解方法 被引量:9
11
作者 周挺辉 赵文恺 +2 位作者 严正 徐得超 江涵 《电力系统自动化》 EI CSCD 北大核心 2015年第2期74-80,共7页
针对电力系统大规模线性方程组的稀疏特点,提出了基于图形处理器(GPU)的直接求解方法。该方法首先利用基于先排序的分块对角加边形式(BBDF)划分方法对方程组系数矩阵进行分割,形成具有粗粒度和细粒度两层并行结构的线性方程组,然后... 针对电力系统大规模线性方程组的稀疏特点,提出了基于图形处理器(GPU)的直接求解方法。该方法首先利用基于先排序的分块对角加边形式(BBDF)划分方法对方程组系数矩阵进行分割,形成具有粗粒度和细粒度两层并行结构的线性方程组,然后利用GPU的线程块和线程并行特性对其分别予以求解。将上述方法应用到电力系统暂态稳定计算中,并对其加速效果进行了测试。测试结果表明,在目前普及的设备上,所提方法可获得3~4倍的加速比;在高端设备上,能够获得7~8倍的加速比。 展开更多
关键词 电力系统 并行计算 暂态稳定计算 图形处理器 稀疏技术 加速比
下载PDF
黏弹性叠前时间偏移:陡倾角构造成像与实际应用 被引量:14
12
作者 刘伟 张剑锋 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2018年第2期707-715,共9页
黏弹性叠前时间偏移通过在偏移过程中补偿地球介质的吸收衰减,恢复被衰减的高频成分,进而获得较常规叠前时间偏移更高分辨率的偏移成像结果.相比于常规叠前时间偏移,该方法实现环节包含的频率域积分产生的巨大计算量,需要基于GPU加速实... 黏弹性叠前时间偏移通过在偏移过程中补偿地球介质的吸收衰减,恢复被衰减的高频成分,进而获得较常规叠前时间偏移更高分辨率的偏移成像结果.相比于常规叠前时间偏移,该方法实现环节包含的频率域积分产生的巨大计算量,需要基于GPU加速实现才能满足工业应用对其计算效率的需求.本文针对黏弹性叠前时间偏移算法实现的这一特点,提出了修正其走时计算方法精度和应用分时段的频率域成像策略,在进一步提升计算效率的同时,改进了该方法对陡倾角构造和断层的成像效果.我们将改进的黏弹性叠前时间偏移方法应用于三维陆上地震资料,与现行的商业偏移软件对比表明,该方法不仅获得了更高分辨率的成像结果,也实现了对断层和陡倾角构造的清晰成像,而新方法的计算耗时也较改进前减少了三分之一以上. 展开更多
关键词 黏弹性 叠前时间偏移 陡倾角 走时 计算效率
下载PDF
膨胀与腐蚀算法的改进及并行实现 被引量:15
13
作者 杜慧敏 蒋忭忭 +2 位作者 常立博 郭冲宇 季凯柏 《西安邮电大学学报》 2017年第1期88-93,共6页
改进形态学中的膨胀与腐蚀算法,以求在数据增多情形下提高其运算速度。将处理前一像素的运算结果,引入后一像素的处理过程,以减少相邻像素重复区域的计算量;利用图形处理器的分层存储机制,优化数据在其中的存储结构,以提高访存速度;采... 改进形态学中的膨胀与腐蚀算法,以求在数据增多情形下提高其运算速度。将处理前一像素的运算结果,引入后一像素的处理过程,以减少相邻像素重复区域的计算量;利用图形处理器的分层存储机制,优化数据在其中的存储结构,以提高访存速度;采用线程并行处理方式,在统一计算设备架构平台上,实现形态学膨胀与腐蚀算法的并行化。实验结果表明,随着图像尺寸和结构元素尺寸的增大,改进算法实现加速效果显著,其加速比高于调用NPP库和MATLAB库函数实现的加速比。 展开更多
关键词 数学形态学 统一计算设备架构 存储 图形处理器 加速
下载PDF
基于CUDA的海洋监测数据并行压缩技术研究 被引量:3
14
作者 李浩琦 王海斌 汪俊 《海洋技术学报》 北大核心 2014年第1期39-44,共6页
为了提高海底观测网系统的运行效率,针对海洋仪器设备中海量监测数据的存储及传输问题,进行无损数据压缩算法的并行化技术研究。根据海洋监测数据的特点,进行压缩测试,选取出适合并行化的压缩算法,针对原有算法执行速度慢的问题,创新性... 为了提高海底观测网系统的运行效率,针对海洋仪器设备中海量监测数据的存储及传输问题,进行无损数据压缩算法的并行化技术研究。根据海洋监测数据的特点,进行压缩测试,选取出适合并行化的压缩算法,针对原有算法执行速度慢的问题,创新性地提出一种在CUDA架构上利用GPU并行加速平台,多线程分块并行实现数据压缩的方法。实验结果表明并行压缩算法的执行速度有大幅度的提升,压缩加速比最高可提高一个数量级,满足了海洋仪器设备中无损数据压缩的实时性需求。 展开更多
关键词 海洋监测数据 并行数据压缩 加速比 图形处理器
下载PDF
利用GPU技术及分块策略加速地震波场模拟 被引量:1
15
作者 王守进 林年添 +2 位作者 丁仁伟 宁旋旋 任晓芳 《地球物理学进展》 CSCD 北大核心 2014年第3期1292-1297,共6页
传统的利用有限差分方法模拟地震波场需要耗费较大的机时.为了提高地震波场的模拟效率,采用GPU并行计算技术是一种非常好的方法.文章基于一阶应力-速度声波方程的交错网格有限差分法,采用分块策略,将一个地质模型分解成多个小规模的地... 传统的利用有限差分方法模拟地震波场需要耗费较大的机时.为了提高地震波场的模拟效率,采用GPU并行计算技术是一种非常好的方法.文章基于一阶应力-速度声波方程的交错网格有限差分法,采用分块策略,将一个地质模型分解成多个小规模的地质子块,每个子块交由一个线程块负责,并利用常数存储器、块内共享存储器和寄存器减少对全局存储器的访问,实现了波场模拟的GPU加速.单CPU和GPU/CPU下不同规模网格的波场模拟结果表明:利用GPU加速可以将模拟效率提高数倍.尤其是当模拟大规模网格且炮点个数较多时,可以更加显著的提升模拟效率. 展开更多
关键词 波动方程 有限差分 正演模拟 CPU gpu 并行加速
原文传递
一种隐式算法的GPU加速技术
16
作者 黄俊峰 林智荣 袁新 《工程热物理学报》 EI CAS CSCD 北大核心 2013年第11期2035-2038,共4页
本文利用CUDA平台,将本文作者之一袁新开发的用于计算流体力学的隐式高精度高分辨率求解器由CPU版本(FORTRAN代码)修改为利用GPU计算的版本(CUDAC代码),实现了高精度隐式算法的GPU加速。本文使用GPU为:NVDIAGeForceGTX560Ti,CP... 本文利用CUDA平台,将本文作者之一袁新开发的用于计算流体力学的隐式高精度高分辨率求解器由CPU版本(FORTRAN代码)修改为利用GPU计算的版本(CUDAC代码),实现了高精度隐式算法的GPU加速。本文使用GPU为:NVDIAGeForceGTX560Ti,CPU为:单核i5(2.8-3.0GHz)处理器。通过简单的方管算例验证程序的正确性,并得到初步的加速比为9.53;并且通过典型跨声速的VKI的算例验证GPU计算的优势,实测加速比为9.95。最后,根据这些算例的计算结果分析GPU加速比的相关影响因素。 展开更多
关键词 gpu CUDA 加速 隐式算法
原文传递
多GPU并行可压缩流求解器及其性能分析 被引量:1
17
作者 赖剑奇 李桦 +1 位作者 张冉 常青 《航空学报》 EI CAS CSCD 北大核心 2018年第9期21-30,共10页
为实现可压缩流问题的大规模高效数值求解,开展基于图形处理单元(GPU)的并行计算研究。在NVIDIA GTX 1070上建立了基于消息传递接口+统一计算设备架构(MPI+CUDA)的多GPU并行可压缩流求解器,该求解器基于结构网格有限体积法,空间离散采用... 为实现可压缩流问题的大规模高效数值求解,开展基于图形处理单元(GPU)的并行计算研究。在NVIDIA GTX 1070上建立了基于消息传递接口+统一计算设备架构(MPI+CUDA)的多GPU并行可压缩流求解器,该求解器基于结构网格有限体积法,空间离散采用AUSM+UP格式。采用一维区域分解法对计算网格进行划分,使得各GPU之间达到负载平衡。针对超声速进气道算例,对算法单GPU并行性能和多GPU可扩展性能进行分析。数值结果显示,单GPU并行计算可以获得37~46倍的加速比,极大地提高了计算效率;4块GPU并行计算加速比从47倍增加到143倍,并行效率维持在70%以上,说明并行算法具有良好的可扩展性。 展开更多
关键词 图形处理单元(gpu) 统一计算设备架构(CUDA) 并行计算 加速比 并行效率
原文传递
GPU-accelerated phase field simulation of directional solidification 被引量:1
18
作者 GAO Ang HU YanSu +3 位作者 WANG ZhiJun MU DeJun LI JunJie WANG JinCheng 《Science China(Technological Sciences)》 SCIE EI CAS 2014年第6期1191-1197,共7页
The phase field simulation has been actively studied as a powerful method to investigate the microstructural evolution during the solidification.However,it is a great challenge to perform the phase field simulation in... The phase field simulation has been actively studied as a powerful method to investigate the microstructural evolution during the solidification.However,it is a great challenge to perform the phase field simulation in large length and time scale.The developed graphics processing unit(GPU)calculation is used in the phase filed simulation,greatly accelerating the calculation efficiency.The results show that the computation with GPU is about 36 times faster than that with a single Central Processing Unit(CPU)core.It provides the feasibility of the GPU-accelerated phase field simulation on a desktop computer.The GPU-accelerated strategy will bring a new opportunity to the application of phase field simulation. 展开更多
关键词 场模拟 gpu 定向凝固 图形处理单元 计算效率 中央处理单元 桌面计算机 组织演变
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部