期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
基于多GPU数值框架的流域地表径流过程数值模拟
1
作者 冯新政 张大伟 +1 位作者 徐海卿 鞠琴 《南水北调与水利科技(中英文)》 CAS CSCD 北大核心 2024年第1期48-55,共8页
与传统概念性水文模型相比,二维水动力模型可提供更丰富的流域地表水力要素信息,但是计算耗时太长的问题限制其推广应用,提升二维水动力模型的计算效率成为当前数字孪生流域建设工作中的关键技术难题之一。采用基于Godunov格式的有限体... 与传统概念性水文模型相比,二维水动力模型可提供更丰富的流域地表水力要素信息,但是计算耗时太长的问题限制其推广应用,提升二维水动力模型的计算效率成为当前数字孪生流域建设工作中的关键技术难题之一。采用基于Godunov格式的有限体积法离散完整二维浅水方程组建立模型,通过消息传递接口(message passing interface,MPI)与统一计算设备架构(compute unified device architecture,CUDA)相结合的技术实现了基于多图形处理器(graphics processing unit,GPU)的高性能加速计算,采用理想算例和真实流域算例验证模型具有较好的数值计算精度,其中,理想算例中洪峰的相对误差为0.011%,真实流域算例中洪峰的相对误差为2.98%。选取宝盖寺流域为研究对象,分析不同单元分辨率下模型的加速效果,结果表明:在5、2、1 m分辨率下,使用8张GPU卡计算获得的加速比分别为1.58、3.92、5.77,单元分辨率越高,即单元数越多,多GPU卡的加速效果越明显。基于多GPU的水动力模型加速潜力巨大,可为数字孪生流域建设提供有力技术支撑。 展开更多
关键词 水动力模型 地表径流 gpu Godunov格式 加速比
下载PDF
CPU-GPU并行矩阵乘法的实现与性能分析 被引量:11
2
作者 程豪 张云泉 +1 位作者 张先轶 李玉成 《计算机工程》 CAS CSCD 北大核心 2010年第13期24-26,29,共4页
实现ATI平台上的CPU-GPU混合并行DGEMM,采用在GPU和CPU上同时进行计算的方法来提高运算性能。实验结果证明,当矩阵规模较大时,在AMD Phenom II X4 940和ATI FireStream 9270平台上,混合DGEMM性能相对于单独使用GPU平均提升了16%。通过... 实现ATI平台上的CPU-GPU混合并行DGEMM,采用在GPU和CPU上同时进行计算的方法来提高运算性能。实验结果证明,当矩阵规模较大时,在AMD Phenom II X4 940和ATI FireStream 9270平台上,混合DGEMM性能相对于单独使用GPU平均提升了16%。通过实验验证了混合DGEMM性能、加速比、任务分配比例的估算方法,并探讨了影响混合DGEMM性能的各种因素。 展开更多
关键词 混合并行 gpu技术 DGEMM程序 加速比
下载PDF
Particle-Mesh Ewald(PME)算法的GPU加速 被引量:5
3
作者 徐骥 葛蔚 +1 位作者 任瑛 李静海 《计算物理》 EI CSCD 北大核心 2010年第4期548-554,共7页
讨论在NVIDIACUDA开发环境下,用GPU加速分子动力学模拟中静电作用的长程受力计算部分.采用Particle-Mesh Ewald(PME)方法,将其分解为参数确定、点电荷网格离散、离散网格的傅立叶变换、静电热能求解与静电力求解5个部分,并分别分析各部... 讨论在NVIDIACUDA开发环境下,用GPU加速分子动力学模拟中静电作用的长程受力计算部分.采用Particle-Mesh Ewald(PME)方法,将其分解为参数确定、点电荷网格离散、离散网格的傅立叶变换、静电热能求解与静电力求解5个部分,并分别分析各部分的GPU实现.此方法已成功用于7个不同大小的生物分子体系的模拟计算,达到了7倍左右的加速.该程序可耦合到现有分子动力学模拟软件中,或作为进一步开发的GPU分子动力学程序的一部分,显著加速传统分子动力学程序. 展开更多
关键词 PME(Particle-Mesh Ewald)加速 gpu(Graphic Processing Unit图形处理单元) CUDA(Compute Unified Device Architecture计算统一设备架构)
下载PDF
城市二维内涝模型的GPU并行方法 被引量:17
4
作者 向小华 陈颖悟 +3 位作者 吴晓玲 李超 王志伟 康爱卿 《河海大学学报(自然科学版)》 CAS CSCD 北大核心 2020年第6期528-533,共6页
针对二维水动力模型应用于城市内涝模拟时,在大尺度区域或精细分辨率情形下运行耗时过长的问题,通过耦合SWMM模型和LISFLOOD-FP模型构建城市内涝模型,采用GPU的并行计算技术加速城市二维内涝模型。以盐城响水县城区的内涝模拟为例,对并... 针对二维水动力模型应用于城市内涝模拟时,在大尺度区域或精细分辨率情形下运行耗时过长的问题,通过耦合SWMM模型和LISFLOOD-FP模型构建城市内涝模型,采用GPU的并行计算技术加速城市二维内涝模型。以盐城响水县城区的内涝模拟为例,对并行模型的效率进行分析,结果表明,基于GPU的并行计算技术可以显著提升模型运行效率,在5 m分辨率下能够8 min内模拟12 h的内涝事件,可用于突发内涝事件下的快速响应;并行模型的加速效果在更高的空间分辨率下表现更明显,在2 m分辨率下取得最高10.86倍的加速比;要最大化发挥GPU计算效率,首先需要单步长有较大的计算量,其次是要尽量减少与GPU的数据频繁传输导致的额外开销。 展开更多
关键词 城市二维内涝模型 gpu加速 CUDA 加速比 网格分辨率
下载PDF
基于GPU并行的重力、重力梯度三维正演快速计算及反演策略 被引量:44
5
作者 陈召曦 孟小红 +1 位作者 郭良辉 刘国峰 《地球物理学报》 SCIE EI CAS CSCD 北大核心 2012年第12期4069-4077,共9页
利用NVIDIA CUDA编程平台,实现了基于GPU并行的重力、重力梯度三维快速正演计算方法.采用当前在重力数据约束反演或联合反演中流行的物性模型(密度大小不同、规则排列的长方体单元)作为地下剖分单元,对任意三维复杂模型体均可用很多物... 利用NVIDIA CUDA编程平台,实现了基于GPU并行的重力、重力梯度三维快速正演计算方法.采用当前在重力数据约束反演或联合反演中流行的物性模型(密度大小不同、规则排列的长方体单元)作为地下剖分单元,对任意三维复杂模型体均可用很多物性模型进行组合近似,利用解析方法计算出所有物性模型在计算点的异常值并累加求和,得到整个模型体在某一计算点引起的重力(或重力梯度)值.针对精细的复杂模型体产生的问题,采用GPU并行计算技术,主要包括线程有效索引与优化的并行归约技术进行高效计算.在显卡型号为NVIDIAQuadro 2000相对于单线程CPU程序,重力和重力梯度Uxx、Uxy正演计算可以分别达到60与50倍的加速.本文还讨论了GPU并行计算在两种反演方法中的策略,为快速三维反演技术提供了借鉴. 展开更多
关键词 gpu CUDA 正演计算 重力 重力梯度 加速比
下载PDF
激波与火焰面相互作用数值模拟的GPU加速 被引量:5
6
作者 蒋华 董刚 陈霄 《计算物理》 CSCD 北大核心 2016年第1期23-29,共7页
为考察计算机图形处理器(GPU)在计算流体力学中的计算能力,采用基于CPU/GPU异构并行模式的方法对激波与火焰界面相互作用的典型可压缩反应流进行数值模拟,优化并行方案,考察不同网格精度对计算结果和计算加速性能的影响.结果表明,和传... 为考察计算机图形处理器(GPU)在计算流体力学中的计算能力,采用基于CPU/GPU异构并行模式的方法对激波与火焰界面相互作用的典型可压缩反应流进行数值模拟,优化并行方案,考察不同网格精度对计算结果和计算加速性能的影响.结果表明,和传统的基于信息传递的MPI 8线程并行计算相比,GPU并行模拟结果与MPI并行模拟结果相同;两种计算方法的计算时间均随网格数量的增加呈线性增长趋势,但GPU的计算时间比MPI明显降低.当网格数量较小时(1.6×104),GPU计算得到的单个时间步长平均时间的加速比为8.6;随着网格数量的增加,GPU的加速比有所下降,但对较大规模的网格数量(4.2×106),GPU的加速比仍可达到5.9.基于GPU的异构并行加速算法为可压缩反应流的高分辨率大规模计算提供了较好的解决途径. 展开更多
关键词 激波 火焰界面 gpu 异构系统 加速比
下载PDF
基于CTR模式的GPU并行AES算法的研究与实现 被引量:8
7
作者 费雄伟 李肯立 阳王东 《小型微型计算机系统》 CSCD 北大核心 2015年第3期529-533,共5页
为了对任意长的明/密文进行并行加密/解密,在分析了AES(Advanced Encryption Standard)的多种模式后,采用了最合适的CTR(Counter)模式设计和实现了GPU(Graphics Processing Unit)并行AES算法,并进行了优化.针对Nvidia Geforce GTX460平... 为了对任意长的明/密文进行并行加密/解密,在分析了AES(Advanced Encryption Standard)的多种模式后,采用了最合适的CTR(Counter)模式设计和实现了GPU(Graphics Processing Unit)并行AES算法,并进行了优化.针对Nvidia Geforce GTX460平台理论分析了CTR模式的并行AES算法和串行AES算法的时间复杂度,得到综合的加速比为31.59,然后在Nvidia Geforce GTX 460平台上实验运行,结果显示CTR模式的AES-256的GPU并行算法相对串行CTR模式的AES算法,实验加速比跟理论加速比基本吻合.在此基础上,对CTR模式的AES-256进行了优化.实验结果显示,优化的CTR模式的AES-256并行算法在加速比上随着明文的增大提升的比例渐渐减少并趋于稳定.优化的CTR模式的AES算法加密数据量小的明文时,其优化效果更为明显,故能有效地提升SSL(Secure Socket Layer,其明文区间为35KB-150KB)的加密性能. 展开更多
关键词 计数器模式 gpu并行 时间复杂度 加速比 统一计算架构
下载PDF
CPU+GPU异构平台的一致性图像配准算法并行实现 被引量:1
8
作者 易见兵 陈国良 杨烜 《小型微型计算机系统》 CSCD 北大核心 2014年第1期114-120,共7页
针对标志点一致性图像配准算法收敛时间较长问题,提出在CPU+GPU异构平台上的并行实现方法。该方法在GPU上完成了一致性图像配准算法中的弹性变换求解及逆函数求解的并行实现,在CPU上实现变量初始化以及迭代更新等过程,充分利用异构平台... 针对标志点一致性图像配准算法收敛时间较长问题,提出在CPU+GPU异构平台上的并行实现方法。该方法在GPU上完成了一致性图像配准算法中的弹性变换求解及逆函数求解的并行实现,在CPU上实现变量初始化以及迭代更新等过程,充分利用异构平台优势,提高该算法的运行效率。实验结果表明该并行实现方法可以获得较高的加速比. 展开更多
关键词 gpu 加速比 图像配准 并行算法
下载PDF
GPU在海洋环流模式POP中的应用 被引量:4
9
作者 宋振亚 刘海行 +1 位作者 雷晓燕 赵伟 《计算机应用与软件》 CSCD 2010年第10期27-29,共3页
在CUDA(Compute Unified Device Architecture)架构下将GPU(Graphic Processing Unit)计算首次应用到海洋环流模式POP(Parallel Ocean Program)中。测试结果表明:无论高分辨率还是低分辨率,GPU都能够提高海洋环流数值模式POP的计算速度,... 在CUDA(Compute Unified Device Architecture)架构下将GPU(Graphic Processing Unit)计算首次应用到海洋环流模式POP(Parallel Ocean Program)中。测试结果表明:无论高分辨率还是低分辨率,GPU都能够提高海洋环流数值模式POP的计算速度,GPU加速比最低都在1.5倍以上,最高可以超过2.2倍;并且随着模式使用线程数目的增多,GPU的加速比在降低,但是GPU利用效率在增长。 展开更多
关键词 gpu CUDA 海洋环流模式 加速比
下载PDF
基于CUDA的热传导GPU并行算法研究 被引量:3
10
作者 孟小华 黄丛珊 朱丽莎 《计算机工程》 CAS CSCD 2014年第5期41-44,48,共5页
在热传导算法中,使用传统的CPU串行算法或MPI并行算法处理大批量粒子时,存在执行效率低、处理时间长的问题。而图形处理单元(GPU)具有大数据量并行运算的优势,为此,在统一计算设备架构(CUDA)并行编程环境下,采用CPU和GPU协同合作的模式... 在热传导算法中,使用传统的CPU串行算法或MPI并行算法处理大批量粒子时,存在执行效率低、处理时间长的问题。而图形处理单元(GPU)具有大数据量并行运算的优势,为此,在统一计算设备架构(CUDA)并行编程环境下,采用CPU和GPU协同合作的模式,提出并实现一个基于CUDA的热传导GPU并行算法。根据GPU硬件配置设定Block和Grid的大小,将粒子划分为若干个block,粒子输入到GPU显卡中并行计算,每一个线程执行一个粒子计算,并将结果传回CPU主存,由CPU计算出每个粒子的平均热流。实验结果表明,与CPU串行算法在时间效率方面进行对比,该算法在粒子数到达16 000时,加速比提高近900倍,并且加速比随着粒子数的增加而加速提高。 展开更多
关键词 热传导算法 图形处理单元 统一计算设备架构 并行计算 时间效率 加速比
下载PDF
基于GPU的数学形态学运算并行加速研究 被引量:3
11
作者 张聪 邢同举 +2 位作者 罗颖 张静 孙强 《电子设计工程》 2011年第19期141-143,146,共4页
数学形态学运算是一种高度并行的运算,其计算量大而又如此广泛地应用于对实时性要求较高的诸多重要领域。为了提高数学形态学运算的速度,提出了一种基于CUDA架构的GPU并行数学形态学运算。文章详细描述了GPU硬件架构和CUDA编程模型,并... 数学形态学运算是一种高度并行的运算,其计算量大而又如此广泛地应用于对实时性要求较高的诸多重要领域。为了提高数学形态学运算的速度,提出了一种基于CUDA架构的GPU并行数学形态学运算。文章详细描述了GPU硬件架构和CUDA编程模型,并给出了GPU腐蚀并行运算的详细实现过程以及编程过程中为充分利用GPU资源所需要注意的具体问题。实验结果表明,GPU并行数学形态学运算速度可达到几个数量级的提高。 展开更多
关键词 数学形态学 腐蚀 gpu CUDA 加速比
下载PDF
使用GPU加速计算矩阵的Cholesky分解 被引量:3
12
作者 沈聪 高火涛 《计算机应用与软件》 CSCD 2016年第9期284-287,305,共5页
针对大型实对称正定矩阵的Cholesky分解问题,给出其在图形处理器(GPU)上的具体实现。详细分析了Volkov计算Cholesky分解的混合并行算法,并在此基础上依据自身计算机的CPU以及GPU的计算性能,给出一种更为合理的三阶段混合调度方案,进一... 针对大型实对称正定矩阵的Cholesky分解问题,给出其在图形处理器(GPU)上的具体实现。详细分析了Volkov计算Cholesky分解的混合并行算法,并在此基础上依据自身计算机的CPU以及GPU的计算性能,给出一种更为合理的三阶段混合调度方案,进一步减少CPU的空闲时间以及避免GPU空闲情况的出现。数值实验表明,当矩阵阶数超过7000时,新的混合调度算法相比标准的MKL算法获得了超过5倍的加速比,同时对比原Volkov混合算法获得了显著的性能提升。 展开更多
关键词 图形处理器 乔里斯基分解 加速比 混合算法
下载PDF
GPU加速光电耦合输运蒙卡程序研发及应用
13
作者 武祯 路伟 +3 位作者 鄢书畅 邱睿 张辉 李君利 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2022年第11期1649-1656,1663,共9页
针对辐射剂量学领域人员剂量快速评估的应用需求以及现有通用蒙卡程序计算时间过长的问题,本文开发了基于GPU加速的光电耦合输运蒙卡程序Gadep。根据GPU显卡CUDA编程模型下内存、线程层次结构和执行模型中的硬件层次结构特点,对程序框... 针对辐射剂量学领域人员剂量快速评估的应用需求以及现有通用蒙卡程序计算时间过长的问题,本文开发了基于GPU加速的光电耦合输运蒙卡程序Gadep。根据GPU显卡CUDA编程模型下内存、线程层次结构和执行模型中的硬件层次结构特点,对程序框架、粒子输运、步长抽样、数据结构和截面访问等进行了设计和优化。通过计算ICRP 116号成年男性参考人体素模型器官外照射剂量转换系数,对程序进行了正确性验证,和通用蒙卡程序MCNP5单核计算相比,加速效率在48~300倍。以南京放射源丢失事故人员物理剂量重建为例对该程序进行了实际应用,物理剂量重建计算结果和参考值、临床诊断结果相一致,与通用蒙卡程序MCNP5单核计算相比加速效率达到50倍以上,表明Gadep在事故剂量重建、放射诊断及治疗剂量评估等方面有一定的应用价值。 展开更多
关键词 gpu加速 光电耦合 粒子输运 蒙卡程序 加速效率 体素模型 剂量计算 事故剂量重建
下载PDF
GPU集群下第一原理非局部映射势能计算
14
作者 付继芸 贾伟乐 +3 位作者 曹宗雁 王龙 叶煌 迟学斌 《计算机应用》 CSCD 北大核心 2013年第6期1540-1543,1552,共5页
平面波赝势密度泛函(PWP-DFT)计算是材料计算中应用最广泛的方法,其中映射计算是PWP-DFT方法求解自洽迭代中重要的一部分。针对映射势能计算成为软件加速的瓶颈,提出了针对该部分的图形处理器(GPU)加速算法,其中考虑GPU的特点:1)使用了... 平面波赝势密度泛函(PWP-DFT)计算是材料计算中应用最广泛的方法,其中映射计算是PWP-DFT方法求解自洽迭代中重要的一部分。针对映射势能计算成为软件加速的瓶颈,提出了针对该部分的图形处理器(GPU)加速算法,其中考虑GPU的特点:1)使用了新的并行机制求解非局部映射势能;2)重新设计了数据分布结构;3)减少内存的使用;4)提出了一种解决算法中数据相关问题的方法。最终获得了18~57倍加速,使每步分子动力学模拟最终降为12 s。详细分析了该模块在GPU平台上的测试时间,同时对该算法在GPU集群上的计算瓶颈进行了讨论。 展开更多
关键词 第一性原理 密度泛函理论 赝势平面波 非局部映射势能 gpu加速
下载PDF
基于GPU并行的功能脑网络属性分析方法 被引量:2
15
作者 李丹丹 杨灿 《计算机工程与设计》 北大核心 2017年第6期1614-1618,共5页
为实现大规模功能脑网络拓扑属性的高效计算,提出基于GPU并行的脑网络属性分析方法。采用统一计算设备CUDA架构,属性分析方法中的计算密集型操作由GPU完成。以功能脑网络为对象,在GPU型号为NVIDIA Quadro K4200的工作站上对该并行方法... 为实现大规模功能脑网络拓扑属性的高效计算,提出基于GPU并行的脑网络属性分析方法。采用统一计算设备CUDA架构,属性分析方法中的计算密集型操作由GPU完成。以功能脑网络为对象,在GPU型号为NVIDIA Quadro K4200的工作站上对该并行方法进行模拟,将该方法与基于单程序多数据SPMD机制的脑网络属性分析方法进行比较。实验结果表明,当网络节点数大于1000时,该方法具有更高的计算性能。 展开更多
关键词 功能脑网络 网络属性 图像处理器 统一计算设备架构 加速比
下载PDF
基于GPU-CA异构并行的连铸坯凝固组织软测量模型
16
作者 汪静静 孟红记 +1 位作者 阳剑 谢植 《仪器仪表学报》 EI CAS CSCD 北大核心 2022年第11期219-228,共10页
铸坯凝固组织结构软测量模型算法复杂,计算量大,求解耗时长,基于中央处理器(CPU)的串行求解方法难以适应大尺寸铸件的预测需求。为了提高模型的计算效率,提出一种基于图形处理器(GPU)异构并行的元胞自动机(CA)软测量模型。首先设计GPU-C... 铸坯凝固组织结构软测量模型算法复杂,计算量大,求解耗时长,基于中央处理器(CPU)的串行求解方法难以适应大尺寸铸件的预测需求。为了提高模型的计算效率,提出一种基于图形处理器(GPU)异构并行的元胞自动机(CA)软测量模型。首先设计GPU-CA异构并行算法,消除元胞之间的数据依赖和数据竞争问题,优化数据并行度;其次设计多流任务调度方案,解决单流中独立任务互相等待的问题,提高任务并行度;最后,使用某钢厂大型连铸机生产的两个钢种进行模型测试,预测结果与钢厂实验数据有较高的吻合度,等轴晶率误差约分别为1%和1.5%,温度与实测温度的最大相对误差为1.37%。与CPU计算精度相同的情况下,GPU的计算加速比高达数百倍,极大地提高了模型的计算速度。 展开更多
关键词 gpu-CA异构 并行算法 凝固组织结构 加速比 软测量模型
下载PDF
GPU加速的图像一致性形变方法并行实现
17
作者 杨浩 孙瑞芳 +1 位作者 杨烜 姚水永 《计算机应用》 CSCD 北大核心 2017年第A01期49-53,57,共6页
针对新近提出的一种快速一致性形变方法提出一种GPU平台的并行实现策略。首先提出了一种分支优化方法,利用仿真工具获取描述每条线程行为的基本块矢量(BBV),通过最优偏移下的体数据划分,使执行路径相似的线程尽可能集中在同一线程束中,... 针对新近提出的一种快速一致性形变方法提出一种GPU平台的并行实现策略。首先提出了一种分支优化方法,利用仿真工具获取描述每条线程行为的基本块矢量(BBV),通过最优偏移下的体数据划分,使执行路径相似的线程尽可能集中在同一线程束中,利用该方法得到的线程分配方案可以减小GPU因分支而引起的执行效率下降;分析了全局内存、纹理内存和共享内存三种存储策略在实现插值算法时的性能,选取了共享内存完成插值算法所需的数据存取,并对数据边界的插值误差进行了分析;利用规约方法有效提高了GPU的求和效率。针对三维图像进行了实验,采用分支优化策略可以提高6%的性能,共享内存的存储策略优于全局内容和纹理内存策略,同时近似插值算法带来的误差对算法收敛影响较小,规约求和可以明显提高求和效率。实验结果表明该方法在NVIDIA C2050 GPU平台上可以获得了大约110的加速比。 展开更多
关键词 图形处理器 并行计算 图像配准 一致性形变 加速比
下载PDF
基于ADMM的多GPU快速DBT迭代精准重建
18
作者 黄杰星 李斌 +3 位作者 蔡江泽 马健晖 徐圆 周凌宏 《核电子学与探测技术》 CAS 北大核心 2018年第5期630-634,共5页
为实现高效率的DBT精准重建,本文提出了基于ADMM优化算法的多GPU快速DBT迭代重建算法。本方法选取全变差作为正则化项,应用ADMM法求解目标函数,并采用多GPU加速策略对算法进行加速。实验表明,与传统的带有正则化约束的凸集投影(POCS)迭... 为实现高效率的DBT精准重建,本文提出了基于ADMM优化算法的多GPU快速DBT迭代重建算法。本方法选取全变差作为正则化项,应用ADMM法求解目标函数,并采用多GPU加速策略对算法进行加速。实验表明,与传统的带有正则化约束的凸集投影(POCS)迭代重建模式相比,本方法在图像噪声平滑、特征边缘保留和计算效率提高等方面均取得了上佳效果。 展开更多
关键词 DBT图像重建 TV正则化 ADMM gpu加速
下载PDF
层流扩散燃烧在GPU上的并行计算和数值分析
19
作者 魏浩洋 曾国荪 丁春玲 《计算机应用》 CSCD 北大核心 2013年第9期2428-2431,2435,共5页
在实际工程应用中,使用传统的CPU串行计算来开展燃烧数值模拟往往难以满足对模拟速度的要求。利用GPU比CPU更强的计算能力,通过在交错网格上将燃烧物理方程离散化,使用预处理稳定双共轭梯度法(PBiCGSTAB)求解离散化方程,并且探索面向GP... 在实际工程应用中,使用传统的CPU串行计算来开展燃烧数值模拟往往难以满足对模拟速度的要求。利用GPU比CPU更强的计算能力,通过在交错网格上将燃烧物理方程离散化,使用预处理稳定双共轭梯度法(PBiCGSTAB)求解离散化方程,并且探索面向GPU编程的矩阵向量乘并行算法和逆矩阵向量乘并行算法,从而给出一种在GPU上数值求解层流扩散燃烧的可行方法。实验结果表明,GPU并行程序获得了相对串行CPU程序约10倍以上的加速效果,且计算结果与实际情况相符,因而所提方法是可行且高效的。 展开更多
关键词 层流扩散燃烧 数值模拟 gpu并行计算 预处理稳定双共轭梯度法 加速比
下载PDF
AVS标准中整数DCT变换的CUDA并行算法 被引量:1
20
作者 孟小华 刘坚强 《微计算机应用》 2011年第11期40-46,共7页
随着图形处理器(GPU)的处理能力的不断增强,图形处理器越来越多的运用在计算密集型的数据处理中。AVS标准视频压缩算法中一些步骤存在典型的并行特性,高清、超清视频压缩的串行算法执行时间开销较大,难以满足实时编码的需要,因此利用GP... 随着图形处理器(GPU)的处理能力的不断增强,图形处理器越来越多的运用在计算密集型的数据处理中。AVS标准视频压缩算法中一些步骤存在典型的并行特性,高清、超清视频压缩的串行算法执行时间开销较大,难以满足实时编码的需要,因此利用GPU的并行处理能力和CUDA的编程框架对AVS标准中的整数DCT变换算法进行了并行实现。经过实验测试,并行算法与串行算法相比具有较高的加速比。 展开更多
关键词 图形处理器 AVS CUDA 并行算法 加速比
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部