期刊文献+
共找到121篇文章
< 1 2 7 >
每页显示 20 50 100
无网格法结构拓扑优化模型的GPU并行加速求解及应用
1
作者 唐芳 冯应朗 卢海山 《装备制造技术》 2023年第6期10-15,31,共7页
基于无网格法的连续体结构拓扑优化,具有计算精度高、可消除传统拓扑优化中的数值不稳定性等优势,然而无网格法结构拓扑优化模型的求解存在计算耗时长的问题。为此引入GPU(Graphic processing unit,GPU)并行加速技术,开展无网格法结构... 基于无网格法的连续体结构拓扑优化,具有计算精度高、可消除传统拓扑优化中的数值不稳定性等优势,然而无网格法结构拓扑优化模型的求解存在计算耗时长的问题。为此引入GPU(Graphic processing unit,GPU)并行加速技术,开展无网格法结构拓扑优化模型的GPU并行加速求解及应用研究,以缩短拓扑优化模型的求解耗时。基于交叉节点对思想构建了拓扑迭代中刚度矩阵的GPU并行组装流程,结合CUDA(Compute unified device architecture,CUDA)库函数与预处理共轭梯度法实现了离散方程的GPU并行加速计算,且通过提前计算并存储形函数及其导数值以避免重复计算,建立了无网格法拓扑优化模型的GPU并行加速求解算法。通过二维悬臂梁算例验证了算法的正确性,完成了二维曲形支架、三维支撑平台以及多工况固支梁的拓扑优化设计,并分析了GPU并行算法的加速性能。算例结果表明所提GPU并行加速算法的计算结果正确,且极大地提高了无网格法拓扑优化模型的求解效率。 展开更多
关键词 拓扑优化 无网格法 GPU并行加速 CUDA
下载PDF
电力系统状态估计并行加速研究
2
作者 闫童 《上海电气技术》 2023年第1期1-5,共5页
随着电力系统输配一体化发展,计算耗时急剧增加。根据中央处理器逻辑处理能力强,图形处理器浮点运算能力强的特点,对于状态估计算法中浮点计算最密集的线性方程组求解部分,采用图形处理器并行处理,提高求解速度。将Matpower 6.0潮流算... 随着电力系统输配一体化发展,计算耗时急剧增加。根据中央处理器逻辑处理能力强,图形处理器浮点运算能力强的特点,对于状态估计算法中浮点计算最密集的线性方程组求解部分,采用图形处理器并行处理,提高求解速度。将Matpower 6.0潮流算例混合噪声作为状态估计量测,通过不同规模节点算例验证图形处理器的加速效果,体现图形处理器在状态估计问题求解方面的性能优势。 展开更多
关键词 电力系统 状态估计 并行加速 研究
下载PDF
能耗并行加速比:高性能计算系统综合性能的有效度量 被引量:2
3
作者 王之元 胡庆丰 陈娟 《计算机工程与科学》 CSCD 北大核心 2009年第11期113-116,共4页
随着并行系统规模的扩大,高性能计算系统运行时消耗的能耗也在急剧增长,过高的能耗也给系统的可靠性、稳定性等方面带来严峻挑战。在这种情形下,能耗问题受到了前所未有的关注。因此,设计和研究高性能计算系统,需要在考虑高计算性能的... 随着并行系统规模的扩大,高性能计算系统运行时消耗的能耗也在急剧增长,过高的能耗也给系统的可靠性、稳定性等方面带来严峻挑战。在这种情形下,能耗问题受到了前所未有的关注。因此,设计和研究高性能计算系统,需要在考虑高计算性能的同时兼顾系统低能耗的要求,这为高性能计算系统的度量模型提出了新的挑战。于是,大规模并行系统逐渐从"高性能"走向"高效能"的衡量标准。基于此,本文采用加速比度量指标,从系统可扩展角度将计算性能和能量消耗要素进行综合,提出了一种度量高性能计算系统综合性能的能耗并行加速比模型。该模型能够直观地反映并行计算系统的效能,旨在指导系统设计和应用研究。最后,通过对该模型的分析和模拟,验证了模型的有效性。 展开更多
关键词 能耗并行加速 高效能 度量模型
下载PDF
基于GPU的受限玻尔兹曼机并行加速 被引量:1
4
作者 张立民 刘凯 范晓磊 《电子设计工程》 2016年第2期28-31,34,共5页
为针对受限玻尔兹曼机处理大数据时存在的训练缓慢、难以得到模型最优的问题,提出了基于GPU的RBM模型训练并行加速方法。首先重新规划了对比散度算法在GPU的实现步骤;其次结合以往GPU并行方案,提出采用CUBLAS执行训练的矩阵乘加运算,设... 为针对受限玻尔兹曼机处理大数据时存在的训练缓慢、难以得到模型最优的问题,提出了基于GPU的RBM模型训练并行加速方法。首先重新规划了对比散度算法在GPU的实现步骤;其次结合以往GPU并行方案,提出采用CUBLAS执行训练的矩阵乘加运算,设计周期更长、代码更为简洁的Tausworthe113和CLCG4的组合随机数生成器,利用CUDA拾取纹理内存的读取模式实现了Sigmoid函数值计算;最后对训练时间和效果进行检验。通过MNIST手写数字识别集实验证明,相较于以往RBM并行代码,新设计的GPU并行方案在处理大规模数据集训练上优势较为明显,加速比达到25以上。 展开更多
关键词 受限玻尔兹曼机 GPU CUDA 加速 并行加速
下载PDF
基于GPU并行加速的黏声最小二乘逆时偏移及应用 被引量:2
5
作者 张猛 《岩性油气藏》 CSCD 北大核心 2022年第1期148-153,共6页
常规逆时偏移算法(RTM)在浅层成像中容易产生较强的低频噪声,无法消除地球介质的吸收衰减效应。基于广义标准线性固体模型,建立黏声波动方程,在Born正演和梯度计算2个核心算法过程中开展了GPU加速,建立了黏声最小二乘逆时偏移实现流程,... 常规逆时偏移算法(RTM)在浅层成像中容易产生较强的低频噪声,无法消除地球介质的吸收衰减效应。基于广义标准线性固体模型,建立黏声波动方程,在Born正演和梯度计算2个核心算法过程中开展了GPU加速,建立了黏声最小二乘逆时偏移实现流程,并将该方法应用在胜利油田某探区三维资料中,结果显示,计算效率和偏移成像质量都得到了有效提升。并且开展了与常规声波最小二乘逆时偏移的对比和分析工作,结果表明该方法对提升深层储层成像精度,实现真振幅成像,以及岩性油气藏的勘探都具有重要的意义。 展开更多
关键词 GPU并行加速 黏声介质 最小二乘逆时偏移 波动方程
下载PDF
产出率并行加速比模型 被引量:1
6
作者 王之元 《计算机工程》 CAS CSCD 北大核心 2011年第5期10-12,共3页
针对并行计算系统的性能度量问题,在产出率度量模型的基础上,建立综合系统可靠性、通信、并行化控制和成本投入要素的产出率并行加速比模型,分析总结模型中各要素影响产出率并行加速比的关键因子,包括容错开销因子、通信开销因子、并行... 针对并行计算系统的性能度量问题,在产出率度量模型的基础上,建立综合系统可靠性、通信、并行化控制和成本投入要素的产出率并行加速比模型,分析总结模型中各要素影响产出率并行加速比的关键因子,包括容错开销因子、通信开销因子、并行控制开销因子及成本开销因子,对上述关键因子进行模拟实验,以验证该模型的有效性。 展开更多
关键词 产出率模型 产出率并行加速比模型 高产出率计算系统
下载PDF
基于GPU并行加速的多特征融合的超图降维方法
7
作者 洪朝群 陈旭辉 +2 位作者 王晓栋 李士锦 吴克寿 《计算机科学》 CSCD 北大核心 2015年第11期90-93,117,共5页
基于图的学习方法目前广泛用于降低特征维度。然而,对于多特征数据而言,不同特征之间的不同关联性很难结合到单个图中。针对多特征数据提出了新的半监督降维方法。首先,以超图中的超边作为片,使超图应用到片对齐框架中。然后,通过统计... 基于图的学习方法目前广泛用于降低特征维度。然而,对于多特征数据而言,不同特征之间的不同关联性很难结合到单个图中。针对多特征数据提出了新的半监督降维方法。首先,以超图中的超边作为片,使超图应用到片对齐框架中。然后,通过统计片中相邻的特征对的距离计算超边的权重,使得不同特征下的片得到结合。其次,由于欧氏距离和矩阵乘法的计算在拉普拉斯矩阵的构造过程中占用了大部分的时间,因此使用GPU对其进行加速。实验结果表明了所提方法在分类性能和学习速度上的提升效果。 展开更多
关键词 降维 多特征融合 片对齐框架 超图学习 基于GPU的并行加速
下载PDF
基于SHARC DSP芯片的并行加速板性能研究
8
作者 高曙 孙元龙 高洁 《计算机工程》 CAS CSCD 北大核心 2003年第1期23-25,共3页
分析了基于SHARC DSP芯片的并行加速板的组成、结构特点、工作原理;分别以著名的分形问题Mandelbrot Set和一个非线性瞬态热传导方程的多重网格并行算法的实现为例,对这种并行加速板的性能进行了研究;在带有这种并行加速板的多种计... 分析了基于SHARC DSP芯片的并行加速板的组成、结构特点、工作原理;分别以著名的分形问题Mandelbrot Set和一个非线性瞬态热传导方程的多重网格并行算法的实现为例,对这种并行加速板的性能进行了研究;在带有这种并行加速板的多种计算机平台上测试了这两种并行算法的运行结果,表明这种加速板适用面广、性能稳定、功能强大、使用方便、运算速度快,具有很好的应用前景。 展开更多
关键词 SHARCDSP芯片 并行加速 性能 并行计算机系统 并行算法 CPU
下载PDF
遥感图像渐进式传输的GPU并行加速研究
9
作者 杨靖宇 刘昭华 张永生 《计算机工程与应用》 CSCD 北大核心 2010年第15期185-187,共3页
遥感图像的渐进式传输大大提高了数据响应效率,但同时也增加了数据接收端的计算量。为进一步提高数据传输效率,研究了基于可编程图形硬件GPU的并行加速方法,通过小波逆变换的GPU并行化来加速图像重构,并通过纹理查找表来提高数据读取效... 遥感图像的渐进式传输大大提高了数据响应效率,但同时也增加了数据接收端的计算量。为进一步提高数据传输效率,研究了基于可编程图形硬件GPU的并行加速方法,通过小波逆变换的GPU并行化来加速图像重构,并通过纹理查找表来提高数据读取效率,利用离线渲染缓存Pbuffer来保存多层小波变换的中间计算结果,进一步提高了并行效率。最后,通过实验验证了该方法的有效性。 展开更多
关键词 渐进式传输 并行加速 离散小波变换 图形处理器
下载PDF
I/O受限的并行加速比模型与可扩展I/O体系结构
10
作者 李琼 杜云飞 杨学军 《计算机工程与科学》 CSCD 北大核心 2011年第3期28-33,共6页
为了缓解I/O瓶颈问题,可以从应用程序、可扩展算法、编译器和语言、运行时库、操作系统和体系结构六方面展开研究。其中,I/O体系结构是所有技术途径的关键支撑。当前并行I/O性能分析缺乏科学的理论模型为I/O体系结构设计提供理论依据。... 为了缓解I/O瓶颈问题,可以从应用程序、可扩展算法、编译器和语言、运行时库、操作系统和体系结构六方面展开研究。其中,I/O体系结构是所有技术途径的关键支撑。当前并行I/O性能分析缺乏科学的理论模型为I/O体系结构设计提供理论依据。本文针对并行计算机系统的可扩展性问题,研究了I/O负载对并行计算机系统可扩展性的影响,建立了I/O受限的并行加速比性能模型,对目前大规模并行计算机系统中三种常用I/O体系结构的可扩展性进行了分析;以此为理论依据,提出了一种面向高性能计算的可扩展并行I/O系统结构。同时,还提出了几种有效降低I/O操作服务时间的策略,从而达到增强系统可扩展性的目的,为后续研究奠定了基础。 展开更多
关键词 高性能计算 I/O体系结构 并行加速比模型
下载PDF
面向多媒体的并行加速系统中可重构网络结构设计
11
作者 张晶 高文 陈熙霖 《计算机研究与发展》 EI CSCD 北大核心 1995年第10期16-21,共6页
本文讨论了面向多媒体数据处理的并行加速系统硬件平台的设计,采用数字信号处理芯片作为基本的工作单元,提出了一种基于mesh阵列的可重构网络结构设计及其控制方式,并对其性能进行了定性分析。
关键词 可重构网 多媒体 并行加速系统 结构设计
下载PDF
基于Hash索引的高通量基因序列比对并行加速技术研究 被引量:4
12
作者 王文迪 汤文 +3 位作者 段勃 张春明 张佩珩 孙凝晖 《计算机研究与发展》 EI CSCD 北大核心 2013年第11期2463-2471,共9页
近年来随着高通量基因测序技术的迅速发展,测序成本和周期都得到了大幅降低.然而,新一代测序技术海量数据生成能力以及各类测序算法蕴含的高并发性却对现有计算机的运算能力提出了新挑战.以一个基于Hash索引算法实现的开源重测序程... 近年来随着高通量基因测序技术的迅速发展,测序成本和周期都得到了大幅降低.然而,新一代测序技术海量数据生成能力以及各类测序算法蕴含的高并发性却对现有计算机的运算能力提出了新挑战.以一个基于Hash索引算法实现的开源重测序程序(PerM)为例,研究了在商用多核CPU上加速该应用程序的关键技术.在一个64核SMP系统上的实验结果证明,提出的优化技术可以使Cache缺失率降低90%,性能提升4~11倍.接下来探讨了在一个包含XilinxLX330FPGA的加速卡上设计实现专用并行加速系统的相关问题.作为原型验证系统,在基于FPGA的PCIe加速卡上设计并实现了包含11个处理单元的脉动陈列并行计算系统.和IntelXeonX75508核CPU相比,提出的并行加速器有30~65倍性能功耗比优势. 展开更多
关键词 Hash索引 生物信息学 高通量测序 FPGA 并行加速
下载PDF
使用GPU并行加速的星表检索算法 被引量:2
13
作者 李超 张利强 +1 位作者 吴佳泽 郑昌文 《宇航学报》 EI CAS CSCD 北大核心 2012年第5期584-589,共6页
提出一种基于GPU的恒星检索并行算法,解决大视场下星表检索在仿真应用中效率不高的问题。首先使用经纬度分区法将星表划分为星区存储,然后在可快速查询的分区星表上,提出构造球面三角形法精确求出探测视场覆盖的星区,以有效减小搜索范... 提出一种基于GPU的恒星检索并行算法,解决大视场下星表检索在仿真应用中效率不高的问题。首先使用经纬度分区法将星表划分为星区存储,然后在可快速查询的分区星表上,提出构造球面三角形法精确求出探测视场覆盖的星区,以有效减小搜索范围。最后,采用计算统一设备架构(CUDA)计算平台,将并行的视场内恒星检索过程放入GPU下进行并行加速。实验结果表明,与面向CPU的实现相比,所提算法获得数十倍的加速比,并且在大视场、宽星等域下将检索时间控制在毫秒级别,满足了实时仿真要求。 展开更多
关键词 通用处理机 星表检索 CUDA 并行加速 分区法
下载PDF
一种基于GPU并行加速的快速建模方法 被引量:1
14
作者 罗德新 谢凯 +1 位作者 夏巍 廖虎 《长江大学学报(自科版)(上旬)》 CAS 2015年第1期15-19,4,共5页
在油气开发领域,经常采用网格模型对地形进行描述,当采样数据点分布相对规则时,可以快速建立网格模型,而当采样数据点不规则分布时,建立网格模型则比较困难。为此,提出了一种基于GPU并行加速的快速建模方法:首先分离规则分布数据和不规... 在油气开发领域,经常采用网格模型对地形进行描述,当采样数据点分布相对规则时,可以快速建立网格模型,而当采样数据点不规则分布时,建立网格模型则比较困难。为此,提出了一种基于GPU并行加速的快速建模方法:首先分离规则分布数据和不规则分布数据;然后根据数据特征建立适合不规则数据的规则网格模型,并利用GPU加速修正网格,从而实现了不规则数据的规则化;最后进行三角形剖分并通过OpenGL绘制。试验结果表明,该方法能够处理不规则分布的大数据并在保持较高逼真度的前提下大幅度提升了建模速度,适用于复杂地质体的快速建模。 展开更多
关键词 地形模型 GPU 并行加速 三角形网格
下载PDF
遥感图像海陆分割的GPU并行加速 被引量:2
15
作者 张帆 张立国 《科学技术与工程》 北大核心 2017年第12期223-227,共5页
海陆分割是光学遥感图像海上目标识别过程中一个重要步骤,海陆分割的结果直接影响下一步目标识别的效率和正确率;而遥感数据的大量增长,使得图像处理速度变慢,因此分割算法的执行效率变得越来越重要。利用Nvidia开发的统一计算架构CUDA(... 海陆分割是光学遥感图像海上目标识别过程中一个重要步骤,海陆分割的结果直接影响下一步目标识别的效率和正确率;而遥感数据的大量增长,使得图像处理速度变慢,因此分割算法的执行效率变得越来越重要。利用Nvidia开发的统一计算架构CUDA(compute unified device architecture),将海陆分割流程的一系列函数移植到GPU(graphic processing unit)上进行并行处理,能够有效提高算法执行速度。经实验验证最终完成2 000×2 000大小的图片在11 ms内的海陆分割处理。该方法能够满足对于图像数据的传输在25 ms内的处理,适合用于建立地面或者航空搭载的"实时"处理平台。 展开更多
关键词 海陆分割 并行加速 GPU 实时处理
下载PDF
基于MIC的Turbo码译码并行加速 被引量:2
16
作者 赵梦伟 陈永锋 +1 位作者 刘凯 孙超群 《电子测量技术》 2019年第1期126-131,共6页
Turbo码因具有卓越的纠错能力和接近香农理论极限的性能而受到广泛关注。为了满足译码的实时性需求,利用Intel公司的众核处理器的多核并行处理和迭代运算能力,并结合OpenMP在编译层面可以自动将程序并行化的能力,对Turbo译码的CPU程序... Turbo码因具有卓越的纠错能力和接近香农理论极限的性能而受到广泛关注。为了满足译码的实时性需求,利用Intel公司的众核处理器的多核并行处理和迭代运算能力,并结合OpenMP在编译层面可以自动将程序并行化的能力,对Turbo译码的CPU程序进行众核移植和并行化。在保证译码性能的同时,使用折线逼近的Log-MAP算法,并在代码层面进行调整和优化。针对实际卫星信号,采用基于数据的MIC多线程并行处理模式,相比利用CPU进行处理,使用Intel Xeon Phi Coprocessor 7120众核处理器在计算速度上有将近60倍的提升,并且可以实现8路突发信号的实时处理。 展开更多
关键词 TURBO码 译码算法 众核处理器 并行加速
下载PDF
卷积神经网络的FPGA并行加速设计与实现 被引量:9
17
作者 满涛 郭子豪 曲志坚 《电讯技术》 北大核心 2021年第11期1438-1445,共8页
为提高目前硬件设备上运行卷积神经网络的速度和能效,针对主流的卷积神经网络提出了一种基于现场可编程门阵列(Field Programmable Gate Array,FPGA)的流水线并行加速方案,设计优化了数据存储模块、卷积计算模块、池化模块以及全连接模... 为提高目前硬件设备上运行卷积神经网络的速度和能效,针对主流的卷积神经网络提出了一种基于现场可编程门阵列(Field Programmable Gate Array,FPGA)的流水线并行加速方案,设计优化了数据存储模块、卷积计算模块、池化模块以及全连接模块,结合高层次综合技术构建了基于FPGA的卷积神经网络基本单元。为了降低加速系统的硬件开销,在保证卷积神经网络精度损失很小的前提下,采用数据量化的方式将网络参数从32位浮点数转化为16位定点数。系统测试使用MNIST数据集和CIFAR-10数据集,实验结果显示,所提出的卷积神经网络FPGA加速具有更快的识别效果,并且该方案在资源和功耗较少的情况下可以提供更好的性能,同时能够高效地利用FPGA上的硬件资源。 展开更多
关键词 卷积神经网络 现场可编程门阵列 并行加速 高层次综合 定点数量化
下载PDF
一种基于OpenCL的Lukas-Kanade光流并行加速算法 被引量:6
18
作者 吴进 李乔深 +1 位作者 闵育 马思敏 《电讯技术》 北大核心 2018年第8期871-877,共7页
LK(Lukas-Kanade)光流法在运动目标检测和跟踪领域具有广泛应用,但其计算复杂、速度慢,难以适应异构硬件平台。为实现LK光流法在不同平台上的高效运行,设计了一种基于开放式计算语言(OpenCL)的LK光流法并行算法。该算法通过将二维图像... LK(Lukas-Kanade)光流法在运动目标检测和跟踪领域具有广泛应用,但其计算复杂、速度慢,难以适应异构硬件平台。为实现LK光流法在不同平台上的高效运行,设计了一种基于开放式计算语言(OpenCL)的LK光流法并行算法。该算法通过将二维图像上像素点上的稠密计算映射到多线程上实现数据并行,并基于OpenCL平台的共享内存等优化方法减小了主机内存与设备内存数据传输。实验测试表明,该算法相比于多核CPU下的基础OpenCV函数库中的LK算法获得了最高31倍的加速比,同时在速度上与统一计算设备体系结构(CUDA)加速的LK光流法相近。此外,还在多种不同设备下验证了加速算法的平台通用性。 展开更多
关键词 行为识别 目标跟踪 Lukas-Kanade光流法 OpenCL异构计算 GPU并行加速
下载PDF
一个基于GPU并行加速的海啸数值模型
19
作者 王宗辰 原野 李宏伟 《海洋通报》 CAS CSCD 北大核心 2020年第2期200-205,共6页
地震海啸通常发生在大洋板块向陆地板块俯冲的区域,距离震源最近的国家和地区往往在震后5~20 min之内就会遭受到海啸袭击。因此,及时的海啸预警和准确的海啸预报结果对于民众和决策者都至关重要。为了提升海啸预警效率,缩短海啸预报时间... 地震海啸通常发生在大洋板块向陆地板块俯冲的区域,距离震源最近的国家和地区往往在震后5~20 min之内就会遭受到海啸袭击。因此,及时的海啸预警和准确的海啸预报结果对于民众和决策者都至关重要。为了提升海啸预警效率,缩短海啸预报时间,本研究对COMCOT海啸数值模型进行了基于图形计算单元GPU的二次并行开发。将原模型中海啸传播计算模块通过CUDA_C语言编写内核函数整体移植到GPU上并行加速,CPU负责模型其他代码的执行。为了减少CPU和GPU之间的数据通信,将吸收边界和变量更新函数一并改写。仅在需要输出的时间节点,GPU向CPU传递结果,其他时间步长,CPU和GPU之间只有指令和少量参数传输,基本可视为零耗时。基于GPU并行加速的COMCOT较串行版本效率提升超过67倍,加速性能显著优于基于CPU共享内存的OpenMP并行版本。交叉使用常水深和真实地形,采用均匀滑移海啸源和有限元海啸源对模型的计算结果进行了较为全面的分析检验,相对误差最大不超过1%,为大范围的越洋海啸实时计算提供了有力工具。 展开更多
关键词 海啸数值模型 COMCOT GPU并行加速 CUDA_C
下载PDF
一种基于CUDA的大数据量地理加权回归并行加速算法
20
作者 刘振涛 杨毅 +1 位作者 王东超 谢晓尧 《测绘通报》 CSCD 北大核心 2020年第12期1-5,共5页
针对传统地理加权回归(GWR)在大数据量计算中存在的计算效率低、内存占用大、数据规模受限等问题,本文提出了快速并行地理加权回归(FPGWR)算法,基于英伟达CUDA架构实现了GWR的并行加速,将串行过程分解为并行的独立回归计算模块,同时优... 针对传统地理加权回归(GWR)在大数据量计算中存在的计算效率低、内存占用大、数据规模受限等问题,本文提出了快速并行地理加权回归(FPGWR)算法,基于英伟达CUDA架构实现了GWR的并行加速,将串行过程分解为并行的独立回归计算模块,同时优化了内存使用模型,提高了算法的运行速度。对比FPGWR和传统GWR在不同数量级模拟数据上和真实数据上的运行速度,结果显示,FPGWR能够支持更大规模的样本量计算并有效提升运行效率,数据量越大加速效果越显著。 展开更多
关键词 地理加权回归 CUDA GPU 并行加速 大数据
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部