期刊文献+
共找到241篇文章
< 1 2 13 >
每页显示 20 50 100
利用GPU计算的双线性插值并行算法 被引量:8
1
作者 肖汉 《小型微型计算机系统》 CSCD 北大核心 2010年第11期2241-2245,共5页
双线性插值算法在数字图像处理中有广泛的应用,但计算速度慢.为提高其计算速度,提出一种基于图形处理器加速的双线性插值并行算法.主要利用Wallis变换双线性插值中各分块之间的独立性适合GPU并行处理架构的特点,把传统串行双线性插值算... 双线性插值算法在数字图像处理中有广泛的应用,但计算速度慢.为提高其计算速度,提出一种基于图形处理器加速的双线性插值并行算法.主要利用Wallis变换双线性插值中各分块之间的独立性适合GPU并行处理架构的特点,把传统串行双线性插值算法映射到CUDA并行编程模型,并从线程分配,内存使用,硬件资源划分等方面进行优化,来充分利用GPU的巨大运算能力.实验结果表明,随着图像分辨率的增大,双线性内插并行算法可以把计算速度提高28倍. 展开更多
关键词 图形处理器 统一计算设备架构 gpu计算 双线性插值 最邻近点法 Wallis变换
下载PDF
基于深度学习及GPU计算的航天器故障检测技术 被引量:8
2
作者 田林琳 《计算机测量与控制》 2020年第5期1-4,9,共5页
由于航天器在高温、高压等恶劣环境中工作,采用传统故障检测方法自主性相对较差,缺少对故障特征的分析,导致检测精准度较低;提出了基于深度学习及GPU计算的航天器故障检测技术,依据航天器故障信号特征分析与检测原理,在GPU计算技术支持... 由于航天器在高温、高压等恶劣环境中工作,采用传统故障检测方法自主性相对较差,缺少对故障特征的分析,导致检测精准度较低;提出了基于深度学习及GPU计算的航天器故障检测技术,依据航天器故障信号特征分析与检测原理,在GPU计算技术支持下,获取GPU图像,并在深度置信网络模型中引入该计算方法;根据构建的深度置信网络模型,预测轴承故障位置,经过GPU计算技术下提取的故障特征用于深度置信网络故障预测基本数据,将原始数据进行归一化处理,分析航天器轴承故障特征,并在不同参数支持下,利用深度学习算法自动确定网络关键参数,由此识别轴承故障,并学习故障特征,实现航天器故障检测;由实验结果可知,该技术检测精准度最高可达到98%,具有较强鲁棒性。 展开更多
关键词 深度学习 gpu计算 航天器 故障检测
下载PDF
地球物理高性能计算的新选择:GPU计算技术 被引量:23
3
作者 赵改善 《勘探地球物理进展》 2007年第5期399-404,共6页
随着地球物理对高性能计算需求的不断提升,集群系统节点规模不断提高,一方面大大提高了系统建设、运行、维护、管理及应用软件开发的复杂性,另一方面在提高系统总体性能方面也受到越来越大的制约。随着微电子技术的发展,GPU计算技术与... 随着地球物理对高性能计算需求的不断提升,集群系统节点规模不断提高,一方面大大提高了系统建设、运行、维护、管理及应用软件开发的复杂性,另一方面在提高系统总体性能方面也受到越来越大的制约。随着微电子技术的发展,GPU计算技术与可重构计算技术,将有可能替代集群计算技术成为高性能计算的主流技术。充分利用GPU并行处理能力,可以将GPU作为计算加速器为基于CPU的通用计算平台提供高性能的科学计算能力补充,这样可以在现有通用计算平台的基础上实现高性价比的高性能计算解决方案。GPU计算平台上的应用软件开发比可重构计算平台上的应用软件开发要容易得多,这一点使得GPU计算技术可以更早地广泛应用于地球物理领域。GPU计算产品已达到很高的性能,相应的软件开发环境也已推出,对于GPU计算平台应用软件开发技术的研究将使得GPU计算技术在不远的将来广泛地应用于地球物理计算中。 展开更多
关键词 gpu计算 高性能计算 地球物理 CUDA 流编程模式
下载PDF
基于卷积神经网络与GPU计算的名片文本识别算法研究 被引量:1
4
作者 王来兵 《长春工程学院学报(自然科学版)》 2020年第3期100-104,共5页
为了提高名片的识别精度与效率,提出了一种基于卷积神经网络与GPU计算的名片文本识别算法,并设计和编程实现。首先,收集海量名片,采集文本图像,进行数据标注,建立大数据样本库。然后,基于卷积神经网络和大数据样本,进行识别模型的学习训... 为了提高名片的识别精度与效率,提出了一种基于卷积神经网络与GPU计算的名片文本识别算法,并设计和编程实现。首先,收集海量名片,采集文本图像,进行数据标注,建立大数据样本库。然后,基于卷积神经网络和大数据样本,进行识别模型的学习训练,结合迁移学习技术与数据增强技术,达到准确识别名片文本的目的。最后,基于软件开发平台Visual Studio实现卷积神经网络模型,并融合并行计算开发平台CUDA,将模型代码移植至GPU显卡,实现高速平行计算,达到快速识别的目的。实验测试结果显示:所提算法具备更为理想的识别准确度。 展开更多
关键词 卷积神经网络 数据标注 数据增强 gpu计算 文本识别
下载PDF
基于脉冲神经网络与移动GPU计算的图像分类算法研究与实现 被引量:6
5
作者 徐频捷 王诲喆 +2 位作者 李策 唐丹 赵地 《计算机工程与科学》 CSCD 北大核心 2020年第3期397-403,共7页
计算机视觉旨在通过计算机模拟人的视觉系统,让计算机学会“看”,是人工智能、神经科学研究的一个热点。作为计算机视觉的经典任务,图像分类吸引了越来越多的研究,尤其是基于神经网络的算法在各种分类任务上表现优异。然而,传统浅层人... 计算机视觉旨在通过计算机模拟人的视觉系统,让计算机学会“看”,是人工智能、神经科学研究的一个热点。作为计算机视觉的经典任务,图像分类吸引了越来越多的研究,尤其是基于神经网络的算法在各种分类任务上表现优异。然而,传统浅层人工神经网络特征学习能力不强、生物可解释性不足,而深层神经网络存在过拟合、高功耗的缺点,因此在低功耗环境下具有生物可解释性的图像分类算法研究仍然是一个具有挑战性的任务。为了解决上述问题,结合脉冲神经网络,设计并实现了一种基于Jetson TK1和脉冲神经网络的图像分类算法。研究的主要创新点有:(1)设计了深度脉冲卷积神经网络算法,用于图像分类;(2)实现了基于CUDA改进的脉冲神经网络模型,并部署在Jetson TK1开发环境上。 展开更多
关键词 图像分类 脉冲神经网络 移动gpu计算
下载PDF
使用分布式计算及GPU计算提高有限元计算速度的研究
6
作者 刘有桥 《电子世界》 2017年第24期79-79,81,共2页
有限单元法是随着电子计算机的发展而迅速发展起来的一种现代计算方法,广泛地应用于求解热传导、电磁场、流体力学、机械、建筑等领域,是现代工程设计和分析的重要数值方法之一。但是对于节点较多的大型模型来说,运算量巨大,通常要计算... 有限单元法是随着电子计算机的发展而迅速发展起来的一种现代计算方法,广泛地应用于求解热传导、电磁场、流体力学、机械、建筑等领域,是现代工程设计和分析的重要数值方法之一。但是对于节点较多的大型模型来说,运算量巨大,通常要计算几天甚至数个星期。本文研究了使用分布式计算和GPU计算的方法来提高计算速度,取得了较好的效果。 展开更多
关键词 有限元 分布式计算 gpu计算 并行计算 多线程
下载PDF
隐私计算环境下深度学习的GPU加速技术综述
7
作者 秦智翔 杨洪伟 +2 位作者 郝萌 何慧 张伟哲 《信息安全研究》 CSCD 北大核心 2024年第7期586-593,共8页
随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密... 随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密2种隐私计算技术,而后探讨了明文环境与隐私计算环境下深度学习的GPU加速技术.在明文环境下,介绍了数据并行和模型并行2种基本的深度学习并行训练模式,分析了重计算和显存交换2种不同的内存优化技术,并介绍了分布式神经网络训练过程中的梯度压缩技术.介绍了在隐私计算环境下安全多方计算和同态加密2种不同隐私计算场景下的深度学习GPU加速技术.简要分析了2种环境下GPU加速深度学习方法的异同. 展开更多
关键词 深度学习 gpu计算 隐私计算 安全多方计算 同态加密
下载PDF
新时期“GPU并行计算”课程体系与教学模式设计
8
作者 谭立湘 李斌 郑重 《信息系统工程》 2024年第8期147-150,共4页
为满足新时期人工智能交叉方向人才培养需求,对“GPU并行计算”课程体系与教学模式进行了积极的探索和实践。理论教学方面,夯实并行计算基本理论,强化并行算法设计、GPU并行编程技巧及优化方法。实践教学方面,通过渐进式实验项目的反复... 为满足新时期人工智能交叉方向人才培养需求,对“GPU并行计算”课程体系与教学模式进行了积极的探索和实践。理论教学方面,夯实并行计算基本理论,强化并行算法设计、GPU并行编程技巧及优化方法。实践教学方面,通过渐进式实验项目的反复迭代,帮助学生建立实践经验和应用信心。新体系通过多样的教学模式使学生紧跟并行计算研究的前沿技术。通过鼓励不断创新和探索的课程评价体系使学生能够自觉、自愿地将并行计算应用于科学研究。 展开更多
关键词 gpu并行计算 体系设计 教学模式 评价体系
下载PDF
基于Seed-PCG法的列车-轨道-地基土三维随机振动GPU并行计算方法
9
作者 朱志辉 冯杨 +2 位作者 杨啸 李昊 邹有 《Journal of Central South University》 SCIE EI CAS CSCD 2024年第1期302-316,共15页
为了解决列车-轨道-地基土三维有限元模型随机多样本计算效率低的问题,本文提出了一种基于Seed-PCG法的高效并行计算方法。基于有限元法和虚拟激励法建立轨道不平顺激励下的三维列车-轨道-地基土耦合随机振动分析模型;针对车致地基土随... 为了解决列车-轨道-地基土三维有限元模型随机多样本计算效率低的问题,本文提出了一种基于Seed-PCG法的高效并行计算方法。基于有限元法和虚拟激励法建立轨道不平顺激励下的三维列车-轨道-地基土耦合随机振动分析模型;针对车致地基土随机振动分析产生的多右端项线性方程组求解问题,采用Seed-PCG方法进行求解。通过PCG方法求解种子系统得到的Krylov子空间进行投影,以改进其余线性方程组的初始解和对应的初始残量,有效提高了PCG法的收敛速度,最后,在MATLABCUDA混合平台上开发了并行计算程序。数值算例表明:相同计算平台下的该方法相比多点同步算法获得了104.2倍的加速;相比PCG法逐个求解方案减少了18%的迭代次数,获得了1.21倍的加速。 展开更多
关键词 Seed-PCG法 多右端项线性方程组 随机振动 gpu并行计算 列车-轨道-地基土耦合模型
下载PDF
基于GPU的分布式并行CFD计算方法
10
作者 丁一丹 吴之南 +2 位作者 范志君 潘雅欣 汪龙飞 《民用飞机设计与研究》 2024年第2期33-43,共11页
计算流体力学(computational fluid dynamic,简称CFD)是一种通过数值求解控制方程来模拟流体的流动和热传导的方法。在民用飞机设计中,CFD被广泛应用于翼型设计优化、风洞试验验证、全机气动布局优化和燃油消耗评估等领域。这些问题涉... 计算流体力学(computational fluid dynamic,简称CFD)是一种通过数值求解控制方程来模拟流体的流动和热传导的方法。在民用飞机设计中,CFD被广泛应用于翼型设计优化、风洞试验验证、全机气动布局优化和燃油消耗评估等领域。这些问题涉及复杂的湍流、反应流和多相流,涉及到大网格量级计算和大批量状态计算,因此需要大量的计算资源。为了提高计算效率,提出了一种基于图形处理单元(graphic processing unit,简称GPU)的分布式并行计算方法。该方法利用统一计算设备架构(compute unified device architecture,简称CUDA)和消息传递接口技术(message passing interface,简称MPI),在GPU上进行并行计算,并使用MPI在多GPU之间进行通信。该方法实现了计算任务和数据传输的并行化,并进行了多流并行优化和非阻塞通信优化,实现了GPU之间的负载均衡。同时将该方法应用于超音速平板流这个典型的CFD案例中,与CPU串行计算相比,单GPU获取了204倍的加速比,4GPU实现了近640倍的加速比,两节点8GPU获得了900倍以上的加速比。这表明该方法具有较好的并行效率和计算性能,在一定程度上解决了CFD应用的计算资源需求问题。 展开更多
关键词 CFD gpu并行计算 CUDA MPI 分布式
下载PDF
eMD:基于异构计算的大规模分子动力学模拟软件
11
作者 徐顺 张宝花 +1 位作者 刘倩 金钟 《数据与计算发展前沿》 CSCD 2024年第1期21-34,共14页
【目的】异构计算已经成为高性能计算的重要组成部分,GPU异构计算可显著提速计算密集型的分子动力学模拟应用,本文介绍自研分子动力学模拟软件eMD的系统设计及其异构计算应用。【方法】首先介绍eMD软件的目标定位,包括应用功能和计算性... 【目的】异构计算已经成为高性能计算的重要组成部分,GPU异构计算可显著提速计算密集型的分子动力学模拟应用,本文介绍自研分子动力学模拟软件eMD的系统设计及其异构计算应用。【方法】首先介绍eMD软件的目标定位,包括应用功能和计算性能两方面;然后介绍软件概要设计,包括框架、模块和接口等组成部分;重点围绕面向异构计算的软件架构设计和移植优化技术进行阐述。【结果】eMD软件系统基于GPU异构计算可实现大规模体系模拟,同时提供特色的分子动力学模拟算法和模型。【结论】eMD将充分发挥GPU异构计算算力,以提升分子动力学模拟应用效率,助力分子建模理论方法的创新应用和分子科学问题的研究。 展开更多
关键词 分子动力学 gpu异构计算 并行计算 国产超算
下载PDF
基于GPU的大状态密码S盒差分性质评估方法
12
作者 张润莲 张密 +1 位作者 武小年 舒瑞 《计算机应用》 CSCD 北大核心 2024年第9期2785-2790,共6页
大状态的密码S盒能够为对称密码算法提供更好的混淆性,但对大状态S盒的性质评估开销巨大。为高效评估大状态密码S盒的差分性质,提出基于GPU并行计算的大状态密码S盒差分性质评估方法。该方法基于现有的差分均匀度计算方法,针对16比特S... 大状态的密码S盒能够为对称密码算法提供更好的混淆性,但对大状态S盒的性质评估开销巨大。为高效评估大状态密码S盒的差分性质,提出基于GPU并行计算的大状态密码S盒差分性质评估方法。该方法基于现有的差分均匀度计算方法,针对16比特S盒的差分均匀度和32比特S盒的差分性质,分别设计GPU并行方案,通过优化GPU并行粒度和负载均衡提高了核函数和GPU的执行效率,并缩短了计算时间。测试结果表明,相较于CPU方法和GPU并行方法,所提方法大幅降低了大状态S盒差分性质评估的计算时间,提高了对大状态S盒差分性质的评估效率:对16比特S盒差分均匀度的计算时间为0.3 min;对32比特S盒的单个输入差分的最大输出差分概率计算时间约5 min,对它的差分性质计算时间约2.6 h。 展开更多
关键词 密码S盒 差分密码分析 差分均匀度 最大输出差分概率 gpu并行计算
下载PDF
CPU/GPU协同并行计算研究综述 被引量:95
13
作者 卢风顺 宋君强 +1 位作者 银福康 张理论 《计算机科学》 CSCD 北大核心 2011年第3期5-9,46,共6页
CPU/GPU异构混合并行系统以其强劲计算能力、高性价比和低能耗等特点成为新型高性能计算平台,但其复杂体系结构为并行计算研究提出了巨大挑战。CPU/GPU协同并行计算属于新兴研究领域,是一个开放的课题。根据所用计算资源的规模将CPU/GP... CPU/GPU异构混合并行系统以其强劲计算能力、高性价比和低能耗等特点成为新型高性能计算平台,但其复杂体系结构为并行计算研究提出了巨大挑战。CPU/GPU协同并行计算属于新兴研究领域,是一个开放的课题。根据所用计算资源的规模将CPU/GPU协同并行计算研究划分为三类,尔后从立项依据、研究内容和研究方法等方面重点介绍了几个混合计算项目,并指出了可进一步研究的方向,以期为领域科学家进行协同并行计算研究提供一定参考。 展开更多
关键词 异构混合 协同并行计算 gpu计算 性能优化 可扩展
下载PDF
大规模有限元系统的GPU加速计算研究 被引量:11
14
作者 刘小虎 胡耀国 符伟 《计算力学学报》 EI CAS CSCD 北大核心 2012年第1期146-152,共7页
研究了GPU(Graphics Processing Units)计算应用于有限元方法中的总刚计算和组装、稀疏矩阵与向量乘积运算、线性方程组求解问题,并基于CUDA(Compute Unified Device Architecture)平台利用GTX295GPU进行程序实现和测试。系统总刚采用CS... 研究了GPU(Graphics Processing Units)计算应用于有限元方法中的总刚计算和组装、稀疏矩阵与向量乘积运算、线性方程组求解问题,并基于CUDA(Compute Unified Device Architecture)平台利用GTX295GPU进行程序实现和测试。系统总刚采用CSR(Compressed Sparse Row)压缩格式存放于GPU显存中,用单元染色方法实现总刚并行计算组装,用共轭梯度迭代法求解大规模线性方程组。对300万自由度以内的空间桁架和平面问题算例,GPU有限元计算分别获得最高9.5倍和6.5倍的计算加速比,并且加速比随系统自由度的增加而近似线性增加,GFLOP/s峰值也有近10倍的增加。 展开更多
关键词 gpu计算 有限元 共轭梯度法 并行计算 CUDA
下载PDF
大规模声学边界元法的GPU并行计算 被引量:7
15
作者 张锐 文立华 校金友 《计算物理》 CSCD 北大核心 2015年第3期299-309,共11页
提出一种大规模声学边界元法的高效率、高精度GPU并行计算方法.基于Burton-Miller边界积分方程,推导适于GPU的并行计算格式并实现了传统边界元法的GPU加速算法.为提高原型算法的效率,研究GPU数据缓存优化方法.由于GPU的双精度浮点运算... 提出一种大规模声学边界元法的高效率、高精度GPU并行计算方法.基于Burton-Miller边界积分方程,推导适于GPU的并行计算格式并实现了传统边界元法的GPU加速算法.为提高原型算法的效率,研究GPU数据缓存优化方法.由于GPU的双精度浮点运算能力较低,为了降低数值误差,研究基于单精度浮点运算实现的doublesingle精度算法.数值算例表明,改进的算法实现了最高89.8%的GPU使用效率,且数值精度与直接使用双精度数相当,而计算时间仅为其1/28,显存消耗也仅为其一半.该方法可在普通PC机(8GB内存,NVIDIA Ge Force 660 Ti显卡)上快速完成自由度超过300万的大规模声学边界元分析,计算速度和内存消耗均优于快速边界元法. 展开更多
关键词 声学 边界元法 大规模问题 gpu计算 优化算法
下载PDF
GPU上计算流体力学的加速 被引量:13
16
作者 董廷星 李新亮 +1 位作者 李森 迟学斌 《计算机系统应用》 2011年第1期104-109,共6页
本文将计算流体力学中的可压缩的纳维叶-斯托克斯(Navier-Stokes),不可压缩的Navier-Stokes和欧拉(Euler)方程移植到NVIDIA GPU上。模拟了3个测试例子,2维的黎曼问题,方腔流问题和RAE2822型的机翼绕流。相比于CPU,我们在GPU平台上最高... 本文将计算流体力学中的可压缩的纳维叶-斯托克斯(Navier-Stokes),不可压缩的Navier-Stokes和欧拉(Euler)方程移植到NVIDIA GPU上。模拟了3个测试例子,2维的黎曼问题,方腔流问题和RAE2822型的机翼绕流。相比于CPU,我们在GPU平台上最高得到了33.2倍的加速比。为了最大程度提高代码的性能,针对GPU平台上探索了几种优化策略。和CPU以及实验结果对比表明,利用计算流体力学在GPU平台上能够得到预想的结果,具有很好的应用前景。 展开更多
关键词 gpu计算 CUDA 计算流体力学
下载PDF
静态程序切片的GPU通用计算功耗预测模型 被引量:6
17
作者 王海峰 陈庆奎 《软件学报》 EI CSCD 北大核心 2013年第8期1746-1760,共15页
随着图形处理器通用计算的发展,GPU(graphics processing unit)通用计算程序功耗的度量与优化成为绿色计算领域中的一个基础问题.当前,GPU计算能耗评测主要通过硬件来实现,而开发人员无法在编译之前了解应用程序能耗,难以实现能耗约束... 随着图形处理器通用计算的发展,GPU(graphics processing unit)通用计算程序功耗的度量与优化成为绿色计算领域中的一个基础问题.当前,GPU计算能耗评测主要通过硬件来实现,而开发人员无法在编译之前了解应用程序能耗,难以实现能耗约束下的代码优化与重构.为了解决开发人员评估应用程序能耗的问题,提出了针对应用程序源代码的静态功耗预测模型,根据分支结构的疏密程度以及静态程序切片技术,分别建立分支稀疏和稠密两类应用程序的功耗预测模型.程序切片是介于指令与函数之间的度量粒度,在分析GPU应用程序时具有较强的理论支持和可行性.用非线性回归和小波神经网络建立两种切片功耗模型.针对特定GPU非线性回归模型的准确性较好.小波神经网络预测模型适合各种体系的GPU,具有较好的通用性.对应用程序分支结构进行分析后,为分支稀疏程序提供加权功率统计模型,以保证功耗评估算法的效率.分支稠密程序则采用基于执行路径概率的功耗预测法,以提高预测模型的准确性.实验结果表明,两种预测模型及算法能够有效评估GPU通用计算程序的功耗,模型预测值与实际测量值的相对误差低于6%. 展开更多
关键词 功耗模型 gpu计算 非线性回归 程序切片 小波神经网络
下载PDF
三维连续-非连续并行计算方法及其在岩爆过程模拟中的应用
18
作者 王学滨 杜轩 +3 位作者 薛承宇 陈双印 廖裴彬 余保健 《水资源与水工程学报》 CSCD 北大核心 2024年第1期177-185,共9页
随着深部岩石工程的发展,岩爆变得越发严重。在岩爆的数值模拟方面,连续方法和非连续方法均具有一定的局限性。兼具二者优势的连续-非连续方法更具优势,且正在快速发展。基于CUDA对自主开发的三维拉格朗日元与离散元耦合连续-非连续方... 随着深部岩石工程的发展,岩爆变得越发严重。在岩爆的数值模拟方面,连续方法和非连续方法均具有一定的局限性。兼具二者优势的连续-非连续方法更具优势,且正在快速发展。基于CUDA对自主开发的三维拉格朗日元与离散元耦合连续-非连续方法进行了GPU并行加速。为了探索岩爆的机理和过程,模拟了不同静水压力、侧压系数和单元数目(最多达100×10^(4))条件下圆形洞室围岩V形坑的演化规律和单元弹射现象。考察了洞室围岩中裂纹的定量演化规律。研究表明:当静水压力较大时,基于芬纳公式的支护设计偏于不安全。由于V形坑的位置发生改变,V形坑的平均最大深度随着静水压力的增加先缓慢增加后快速增加。关于洞室围岩V形坑的模拟结果能与有关的实验结果、数值结果和现场观测结果吻合。上述研究很好地体现了岩爆并行计算较串行计算和商业软件计算的优势。 展开更多
关键词 岩爆 gpu并行计算 三维连续-非连续方法 V形坑 静水压力 侧压系数 洞室
下载PDF
有限元GPU加速计算的实现方法 被引量:4
19
作者 张健飞 沈德飞 《计算机辅助工程》 2014年第2期41-45,共5页
研究基于GPU的有限元求解中的总刚矩阵生成和线性方程组求解问题.通过对单元着色和分组完成总刚矩阵的生成,并以行压缩存储(Compressed Sparse Row,CSR)格式存储,用预处理共轭梯度法求解所生成的大规模线性稀疏方程组.在CUDA(Compute Un... 研究基于GPU的有限元求解中的总刚矩阵生成和线性方程组求解问题.通过对单元着色和分组完成总刚矩阵的生成,并以行压缩存储(Compressed Sparse Row,CSR)格式存储,用预处理共轭梯度法求解所生成的大规模线性稀疏方程组.在CUDA(Compute Unified Device Architecture)平台上完成程序设计,并用GT430 GPU对弹性力学的平面问题和空间问题进行试验.结果表明,总刚矩阵生成和方程组求解分别得到最高11.7和8的计算加速比. 展开更多
关键词 gpu计算 有限元法 刚度矩阵 预处理共轭梯度法
下载PDF
基于GPU加速的等几何拓扑优化高效多重网格求解方法
20
作者 杨峰 罗世杰 +1 位作者 杨江鸿 王英俊 《中国机械工程》 EI CAS CSCD 北大核心 2024年第4期602-613,共12页
针对大规模等几何拓扑优化(ITO)计算量巨大、传统求解方法效率低的问题,提出了一种基于样条h细化的高效多重网格方程求解方法。该方法利用h细化插值得到粗细网格之间的权重信息,然后构造多重网格方法的插值矩阵,获得更准确的粗细网格映... 针对大规模等几何拓扑优化(ITO)计算量巨大、传统求解方法效率低的问题,提出了一种基于样条h细化的高效多重网格方程求解方法。该方法利用h细化插值得到粗细网格之间的权重信息,然后构造多重网格方法的插值矩阵,获得更准确的粗细网格映射信息,从而提高求解速度。此外,对多重网格求解过程进行分析,构建其高效GPU并行算法。数值算例表明,所提出的求解方法与线性插值的多重网格共轭梯度法、代数多重网格共轭梯度法和预处理共轭梯度法相比分别取得了最高1.47、11.12和17.02的加速比。GPU并行求解相对于CPU串行求解的加速比高达33.86,显著提高了大规模线性方程组的求解效率。 展开更多
关键词 等几何拓扑优化 方程组求解 h细化 多重网格法 gpu并行计算
下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部