期刊文献+
共找到1,060篇文章
< 1 2 53 >
每页显示 20 50 100
A typhoon-induced storm surge numerical model with GPU acceleration based on an unstructured spherical centroidal Voronoi tessellation grid
1
作者 Yuanyong Gao Fujiang Yu +2 位作者 Cifu Fu Jianxi Dong Qiuxing Liu 《Acta Oceanologica Sinica》 SCIE CAS CSCD 2024年第3期40-47,共8页
Storm surge is often the marine disaster that poses the greatest threat to life and property in coastal areas.Accurate and timely issuance of storm surge warnings to take appropriate countermeasures is an important me... Storm surge is often the marine disaster that poses the greatest threat to life and property in coastal areas.Accurate and timely issuance of storm surge warnings to take appropriate countermeasures is an important means to reduce storm surge-related losses.Storm surge numerical models are important for storm surge forecasting.To further improve the performance of the storm surge forecast models,we developed a numerical storm surge forecast model based on an unstructured spherical centroidal Voronoi tessellation(SCVT)grid.The model is based on shallow water equations in vector-invariant form,and is discretized by Arakawa C grid.The SCVT grid can not only better describe the coastline information but also avoid rigid transitions,and it has a better global consistency by generating high-resolution grids in the key areas through transition refinement.In addition,the simulation speed of the model is accelerated by using the openACC-based GPU acceleration technology to meet the timeliness requirements of operational ensemble forecast.It only takes 37 s to simulate a day in the coastal waters of China.The newly developed storm surge model was applied to simulate typhoon-induced storm surges in the coastal waters of China.The hindcast experiments on the selected representative typhoon-induced storm surge processes indicate that the model can reasonably simulate the distribution characteristics of storm surges.The simulated maximum storm surges and their occurrence times are consistent with the observed data at the representative tide gauge stations,and the mean absolute errors are 3.5 cm and 0.6 h respectively,showing high accuracy and application prospects. 展开更多
关键词 typhoon-induced storm surge numerical model gpu acceleration unstructured grid spherical centroidal Voronoi tessellation(SCVT)
下载PDF
融合GPU的拟单层覆盖近似集计算方法
2
作者 吴正江 吕成功 王梦松 《计算机工程》 CAS CSCD 北大核心 2024年第5期71-82,共12页
拟单层覆盖粗糙集是一种匹配集值信息系统且有高质量和高效率的粗糙集模型。拟单层覆盖近似集的计算过程中存在大量计算密集且逻辑简单的运算,为此,提出拟单层覆盖近似集的矩阵化表示方法,以利用图形处理器(GPU)强大的计算性能加速计算... 拟单层覆盖粗糙集是一种匹配集值信息系统且有高质量和高效率的粗糙集模型。拟单层覆盖近似集的计算过程中存在大量计算密集且逻辑简单的运算,为此,提出拟单层覆盖近似集的矩阵化表示方法,以利用图形处理器(GPU)强大的计算性能加速计算过程。为了实现这一目标,使用布尔矩阵表示拟单层覆盖近似空间中的元素,引入与集合运算对应的布尔矩阵算子,提出拟单层覆盖粗糙近似集(DE、DA、DE0与DA0)的矩阵表示,并设计矩阵化拟单层覆盖近似集算法(M_SMC)。同时,相应的定理证明了拟单层覆盖近似集的矩阵表示形式与原始定义的等价性。然而,M_SMC运行过程中出现了矩阵存储和计算步骤的内存消耗过多问题。为了将算法部署到显存有限的GPU上,优化矩阵存储和计算步骤,提出分批处理的矩阵化拟单层覆盖近似集算法(BM_SMC)。在10个数据集上的实验结果表明,融合GPU的BM_SMC算法与单纯使用中央处理器(CPU)的BM_SMC算法相比计算效率提高2.16~11.3倍,BM_SMC算法可以在有限的存储空间条件下充分利用GPU,能够有效地提高拟单层覆盖近似集的计算效率。 展开更多
关键词 拟单层覆盖近似集 集值信息系统 矩阵化 gpu加速 分批处理
下载PDF
TEB:GPU上矩阵分解重构的高效SpMV存储格式
3
作者 王宇华 张宇琪 +2 位作者 何俊飞 徐悦竹 崔环宇 《计算机科学与探索》 CSCD 北大核心 2024年第4期1094-1108,共15页
稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的... 稀疏矩阵向量乘法(SpMV)是科学与工程领域中一个至关重要的计算过程,CSR(compressed sparse row)格式是最常用的稀疏矩阵存储格式之一,在图形处理器(GPU)平台上实现并行SpMV的过程中,其只存储稀疏矩阵的非零元,避免零元素填充所带来的计算冗余,节约存储空间,但存在着负载不均衡的问题,浪费了计算资源。针对上述问题,对近年来效果良好的存储格式进行了研究,提出了一种逐行分解重组存储格式——TEB(threshold-exchangeorder block)格式。该格式采用启发式阈值选择算法确定合适分割阈值,并结合基于重排序的行归并算法,对稀疏矩阵进行重构分解,使得块与块之间非零元个数尽可能得相近,其次结合CUDA(computer unified device architecture)线程技术,提出了基于TEB存储格式的子块间并行SpMV算法,能够合理分配计算资源,解决负载不均衡问题,从而提高SpMV并行计算效率。为了验证TEB存储格式的有效性,在NVIDIA Tesla V100平台上进行实验,结果表明TEB相较于PBC(partition-block-CSR)、AMF-CSR(adaptive multi-row folding of CSR)、CSR-Scalar(compressed sparse row-scalar)和CSR5(compressed sparse row 5)存储格式,在SpMV的时间性能方面平均可提升3.23、5.83、2.33和2.21倍;在浮点计算性能方面,平均可提高3.36、5.95、2.29和2.13倍。 展开更多
关键词 稀疏矩阵向量乘法(SpMV) 重新排序 CSR格式 负载均衡 存储格式 图形处理器(gpu)
下载PDF
GPU异构计算环境中长短时记忆网络模型的应用及优化
4
作者 梁桂才 梁思成 陆莹 《计算机应用文摘》 2024年第10期37-41,共5页
随着深度学习的广泛应用及算力资源的异构化,在GPU异构计算环境下的深度学习加速成为又一研究热点。文章探讨了在GPU异构计算环境中如何应用长短时记忆网络模型,并通过优化策略提高其性能。首先,介绍了长短时记忆网络模型的基本结构(包... 随着深度学习的广泛应用及算力资源的异构化,在GPU异构计算环境下的深度学习加速成为又一研究热点。文章探讨了在GPU异构计算环境中如何应用长短时记忆网络模型,并通过优化策略提高其性能。首先,介绍了长短时记忆网络模型的基本结构(包括门控循环单元、丢弃法、Adam与双向长短时记忆网络等);其次,提出了在GPU上执行的一系列优化方法,如CuDNN库的应用及并行计算的设计等。最终,通过实验分析了以上优化方法在训练时间、验证集性能、测试集性能、超参数和硬件资源使用等方面的差异。 展开更多
关键词 gpu异构 长短时记忆网络 门控循环单元 ADAM DROPOUT CuDNN
下载PDF
GNNSched:面向GPU的图神经网络推理任务调度框架 被引量:1
5
作者 孙庆骁 刘轶 +4 位作者 杨海龙 王一晴 贾婕 栾钟治 钱德沛 《计算机工程与科学》 CSCD 北大核心 2024年第1期1-11,共11页
由于频繁的显存访问,图神经网络GNN在GPU上运行时往往资源利用率较低。现有的推理框架由于没有考虑GNN输入的不规则性,直接适用到GNN进行推理任务共置时可能会超出显存容量导致任务失败。对于GNN推理任务,需要根据其输入特点预先分析并... 由于频繁的显存访问,图神经网络GNN在GPU上运行时往往资源利用率较低。现有的推理框架由于没有考虑GNN输入的不规则性,直接适用到GNN进行推理任务共置时可能会超出显存容量导致任务失败。对于GNN推理任务,需要根据其输入特点预先分析并发任务的显存占用情况,以确保并发任务在GPU上的成功共置。此外,多租户场景提交的推理任务亟需灵活的调度策略,以满足并发推理任务的服务质量要求。为了解决上述问题,提出了GNNSched,其在GPU上高效管理GNN推理任务的共置运行。具体来说,GNNSched将并发推理任务组织为队列,并在算子粒度上根据成本函数估算每个任务的显存占用情况。GNNSched实现了多种调度策略来生成任务组,这些任务组被迭代地提交到GPU并发执行。实验结果表明,GNNSched能够满足并发GNN推理任务的服务质量并降低推理任务的响应时延。 展开更多
关键词 图神经网络 图形处理器 推理框架 任务调度 估计模型
下载PDF
隐私计算环境下深度学习的GPU加速技术综述
6
作者 秦智翔 杨洪伟 +2 位作者 郝萌 何慧 张伟哲 《信息安全研究》 CSCD 北大核心 2024年第7期586-593,共8页
随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密... 随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密2种隐私计算技术,而后探讨了明文环境与隐私计算环境下深度学习的GPU加速技术.在明文环境下,介绍了数据并行和模型并行2种基本的深度学习并行训练模式,分析了重计算和显存交换2种不同的内存优化技术,并介绍了分布式神经网络训练过程中的梯度压缩技术.介绍了在隐私计算环境下安全多方计算和同态加密2种不同隐私计算场景下的深度学习GPU加速技术.简要分析了2种环境下GPU加速深度学习方法的异同. 展开更多
关键词 深度学习 gpu计算 隐私计算 安全多方计算 同态加密
下载PDF
面向现代GPU的Winograd卷积加速研究
7
作者 童敢 黄立波 吕雅帅 《电子学报》 EI CAS CSCD 北大核心 2024年第1期244-257,共14页
卷积运算是现代卷积神经网络中必不可少的组成部分,同时也是最耗时的.为了解决卷积算子的性能问题,包括快速傅里叶变换(Fast Fourier Transform,FFT)和Winograd在内的快速卷积算法被提出. Winograd卷积可被用于提高小卷积核的推理性能,... 卷积运算是现代卷积神经网络中必不可少的组成部分,同时也是最耗时的.为了解决卷积算子的性能问题,包括快速傅里叶变换(Fast Fourier Transform,FFT)和Winograd在内的快速卷积算法被提出. Winograd卷积可被用于提高小卷积核的推理性能,是目前卷积神经网络中的主流实现方法 .然而,Winograd卷积在许多高度优化的深度神经网络库和深度学习编译器中的实现比较低效.由于Winograd卷积的四个阶段的复杂数据依赖关系,面向GPU对其进行优化非常具有挑战性.本文针对现代GPU体系结构优化了Winograd卷积算子的性能.本文提出了Winograd计算阶段的等价变化及其利用Tensor Core进行计算的无同步实现,并进一步提出了利用不同GPU内存层级的部分计算核融合方法 PKF(Partial Kernel Fusion).基于张量虚拟机(Tensor Virtual Machine,TVM)和代码重构器PKF-Reconstructor(Partial Kernel Fusion Reconstructor),实现了高性能的Winograd卷积.对真实应用中卷积神经网络的卷积算子的评估表明,与cuDNN相比,本文所提算法实现了7.58~13.69倍的性能提升. 展开更多
关键词 Winograd卷积 低精度 部分计算核融合 卷积加速 gpu内存层级 Tensor Core
下载PDF
EG-STC: An Efficient Secure Two-Party Computation Scheme Based on Embedded GPU for Artificial Intelligence Systems
8
作者 Zhenjiang Dong Xin Ge +2 位作者 Yuehua Huang Jiankuo Dong Jiang Xu 《Computers, Materials & Continua》 SCIE EI 2024年第6期4021-4044,共24页
This paper presents a comprehensive exploration into the integration of Internet of Things(IoT),big data analysis,cloud computing,and Artificial Intelligence(AI),which has led to an unprecedented era of connectivity.W... This paper presents a comprehensive exploration into the integration of Internet of Things(IoT),big data analysis,cloud computing,and Artificial Intelligence(AI),which has led to an unprecedented era of connectivity.We delve into the emerging trend of machine learning on embedded devices,enabling tasks in resource-limited environ-ments.However,the widespread adoption of machine learning raises significant privacy concerns,necessitating the development of privacy-preserving techniques.One such technique,secure multi-party computation(MPC),allows collaborative computations without exposing private inputs.Despite its potential,complex protocols and communication interactions hinder performance,especially on resource-constrained devices.Efforts to enhance efficiency have been made,but scalability remains a challenge.Given the success of GPUs in deep learning,lever-aging embedded GPUs,such as those offered by NVIDIA,emerges as a promising solution.Therefore,we propose an Embedded GPU-based Secure Two-party Computation(EG-STC)framework for Artificial Intelligence(AI)systems.To the best of our knowledge,this work represents the first endeavor to fully implement machine learning model training based on secure two-party computing on the Embedded GPU platform.Our experimental results demonstrate the effectiveness of EG-STC.On an embedded GPU with a power draw of 5 W,our implementation achieved a secure two-party matrix multiplication throughput of 5881.5 kilo-operations per millisecond(kops/ms),with an energy efficiency ratio of 1176.3 kops/ms/W.Furthermore,leveraging our EG-STC framework,we achieved an overall time acceleration ratio of 5–6 times compared to solutions running on server-grade CPUs.Our solution also exhibited a reduced runtime,requiring only 60%to 70%of the runtime of previously best-known methods on the same platform.In summary,our research contributes to the advancement of secure and efficient machine learning implementations on resource-constrained embedded devices,paving the way for broader adoption of AI technologies in various applications. 展开更多
关键词 Secure two-party computation embedded gpu acceleration privacy-preserving machine learning edge computing
下载PDF
基于GPU加速的溃坝洪水演进模拟研究
9
作者 康永德 李伟 +4 位作者 许尔文 任小凤 王荣新 闫春鸣 敬文茂 《水电能源科学》 北大核心 2024年第3期20-24,共5页
溃坝洪水演进与淹没范围快速模拟,对指导抢险救灾至关重要。为此,引入GPU加速技术,构建了一套高效高分辨率溃坝数值模型,与经典三驼峰溃坝试验对比发现,模拟结果与试验结果非常吻合,并利用该模型模拟了典型溃坝洪水演进及溃口流场、溃... 溃坝洪水演进与淹没范围快速模拟,对指导抢险救灾至关重要。为此,引入GPU加速技术,构建了一套高效高分辨率溃坝数值模型,与经典三驼峰溃坝试验对比发现,模拟结果与试验结果非常吻合,并利用该模型模拟了典型溃坝洪水演进及溃口流场、溃后水位变化情况。结果表明,模型能较好地模拟溃坝洪水演进,较好捕捉溃口发展过程及泥沙输移。t=200 s时溃决流量出现小峰值4 m3/s,t=450 s时,溃决流量出现最大峰值13.8 m3/s;随着下泄流量增大,溃口加速侵蚀和冲刷并逐渐连通,溃口由0.21 m扩大至0.40 m。GPU加速比约为CPU的10.33~13.75倍,且网格数越多,加速效果越明显。 展开更多
关键词 溃坝 水动力模型 洪水演进 gpu加速
下载PDF
GPU加速的演化算法求解多目标流水车间调度问题
10
作者 姜涛 梁振宇 +1 位作者 程然 金耀初 《计算机应用》 CSCD 北大核心 2024年第5期1364-1371,共8页
智能制造和环境可持续性研究中,多目标调度问题对于协调生产效率、成本管理与环境保护之间的平衡具有至关重要的意义,但现有基于CPU的调度解决方案在处理大规模生产任务时仍面临效率和时效性的限制,而GPU的并行计算能力可为优化大规模... 智能制造和环境可持续性研究中,多目标调度问题对于协调生产效率、成本管理与环境保护之间的平衡具有至关重要的意义,但现有基于CPU的调度解决方案在处理大规模生产任务时仍面临效率和时效性的限制,而GPU的并行计算能力可为优化大规模流水车间调度问题提供新的解决途径。针对多目标零等待流水车间调度问题(NWFSP),以同时最小化最大完成时间和总能耗(TEC)为优化目标,构建了混合整数线性规划模型(MILP)表征该调度问题,并提出一种基于GPU加速的张量化演化算法(Tensor-GPU-NSGA-Ⅱ)求解该问题。Tensor-GPU-NSGA-Ⅱ的主要创新在于对NWFSP关于最小化最大完成时间和TEC的计算过程的张量化处理,并提出了一种基于GPU的并行种群更新方法。实验结果表明,在500工件和20机器的问题规模下,Tensor-GPU-NSGA-Ⅱ在计算效率上相较于传统NSGA-Ⅱ算法取得了9761.75的加速比;且随着种群规模的增加,它的加速性能有显著提升。 展开更多
关键词 智能制造 多目标优化 流水车间调度 gpu加速 张量化方法
下载PDF
基于GPU的LBM迁移模块算法优化
11
作者 黄斌 柳安军 +3 位作者 潘景山 田敏 张煜 朱光慧 《计算机工程》 CAS CSCD 北大核心 2024年第2期232-238,共7页
格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但... 格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但是LBM算法迁移模块中每个格点的计算都需要与其他格点进行通信,存在较强的数据依赖。提出一种基于GPU的LBM迁移模块算法优化策略。首先分析迁移部分的实现逻辑,通过模型降维,将三维模型按照速度分量离散为多个二维模型,降低模型的复杂度;然后分析迁移模块计算前后格点中的数据差异,通过数据定位找到迁移模块的通信规律,并对格点之间的数据交换方式进行分类;最后使用分类的交换方式对离散的二维模型进行区域划分,设计新的数据通信方式,由此消除数据依赖的影响,将迁移模块完全并行化。对并行算法进行测试,结果显示:该算法在1.3×10^(8)规模网格下能达到1.92的加速比,表明算法具有良好的并行效果;同时对比未将迁移模块并行化的算法,所提优化策略能提升算法30%的并行计算效率。 展开更多
关键词 高性能计算 格子玻尔兹曼方法 图形处理器 并行优化 数据重排
下载PDF
基于GPU的加速船舶轨迹相似性度量与聚类
12
作者 刘奕 李湘 +3 位作者 李之琛 周备 许鹏 刘敬贤 《中国航海》 CSCD 北大核心 2023年第2期33-39,45,共8页
针对使用中央处理器(Central Processing Unit, CPU)硬件实现密度聚类、相似性度量等算法提取船舶习惯航迹的过程中存在复杂度高、计算时间长等方面的不足,提出使用图形处理器(Graphics Processing Unit, GPU)高性能计算及GPU优化算法... 针对使用中央处理器(Central Processing Unit, CPU)硬件实现密度聚类、相似性度量等算法提取船舶习惯航迹的过程中存在复杂度高、计算时间长等方面的不足,提出使用图形处理器(Graphics Processing Unit, GPU)高性能计算及GPU优化算法以提升船舶轨迹相似性度量与聚类的速度性能,大幅缩短船舶轨迹特征提取过程中的时间开销。利用长江南槽交汇水域船舶自动识别系统(Automatic Identification System, AIS)动态船舶轨迹信息进行方法验证,通过对比传统基于CPU的方法验证了所提出的基于GPU的船舶轨迹相似性度量及聚类算法存在较优的速度性能,为快速提取研究水域中的船舶特征提供新的理论依据。 展开更多
关键词 水路运输 船舶自动识别系统 中央处理器 图形处理器 加速相似性度量 加速聚类
下载PDF
GPU数据库OLAP优化技术研究
13
作者 张延松 刘专 +2 位作者 韩瑞琛 张宇 王珊 《软件学报》 EI CSCD 北大核心 2023年第11期5205-5229,共25页
GPU数据库近年来在学术界和工业界吸引了大量的关注.尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统,但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问,如果能够超越,那什么样的负载/数据/查询处理模... GPU数据库近年来在学术界和工业界吸引了大量的关注.尽管一些原型系统和商业系统(包括开源系统)开发了作为下一代的数据库系统,但基于GPU的OLAP引擎性能是否真的超过CPU系统仍然存有疑问,如果能够超越,那什么样的负载/数据/查询处理模型更加适合,则需要更深入的研究.基于GPU的OLAP引擎有两个主要的技术路线:GPU内存处理模式和GPU加速模式.前者将所有的数据集存储在GPU显存来充分利用GPU的计算性能和高带宽内存性能,不足之处在于GPU容量有限的显存制约了数据集大小以及稀疏访问模式的数据存储降低GPU显存的存储效率.后者只在GPU显存中存储部分数据集并通过GPU加速计算密集型负载来支持大数据集,主要的挑战在于如何为GPU显存选择优化的数据分布和负载分布模型来最小化PCIe传输代价和最大化GPU计算效率.致力于将两种技术路线集成到OLAP加速引擎中,研究一个定制化的混合CPU-GPU平台上的OLAP框架OLAP Accelerator,设计CPU内存计算、GPU内存计算和GPU加速3种OLAP计算模型,实现GPU平台向量化查询处理技术,优化显存利用率和查询性能,探索GPU数据库的不同的技术路线和性能特征.实验结果显示GPU内存向量化查询处理模型在性能和内存利用率两方面获得最佳性能,与OmniSciDB和Hyper数据库相比性能达到3.1和4.2倍加速.基于分区的GPU加速模式仅加速了连接负载来平衡CPU和GPU端的负载,能够比GPU内存模式支持更大的数据集. 展开更多
关键词 混合CPU-gpu平台 gpu加速OLAP OLAP gpu内存 gpu量化处理模型
下载PDF
基于GPU加速随机场的洞室变形破坏特征研究
14
作者 孟庆祥 崔志浩 +2 位作者 朱淳 李小双 谢良甫 《地下空间与工程学报》 CSCD 北大核心 2023年第4期1087-1096,1105,共11页
洞室围岩参数一般具有很强的空间变异性,本文研究了岩体参数随机空间分布对围岩稳定性的影响。提出了基于协方差矩阵分解和GPU加速的空间随机场生成方法,建立将随机场与高级应变软化模型参数的映射,对比不同条件下随机场的变化以及对后... 洞室围岩参数一般具有很强的空间变异性,本文研究了岩体参数随机空间分布对围岩稳定性的影响。提出了基于协方差矩阵分解和GPU加速的空间随机场生成方法,建立将随机场与高级应变软化模型参数的映射,对比不同条件下随机场的变化以及对后续模拟开挖的影响。结果表明:指数型相关函数生成的随机场较为稳定分散,其最大位移值变化范围较小;平方指数型相关函数生成的随机场更为紧凑,最大位移值波动范围较大,偶然出现较危险的位移;对比X,Y相关长度可以发现,最大位移点的分布是相似的,开挖过程中洞室两侧中部、底部和拱顶是危险区域,损伤位置主要集中在洞室侧墙、拱顶交接处和侧墙中部。 展开更多
关键词 随机场 gpu加速 相关函数 相关长度 应变软化
下载PDF
基于GPU加速随机森林算法的大豆基因型填充研究 被引量:1
15
作者 李明亮 李卓 +4 位作者 黄斌 于军 辛鹏 张继成 唐友 《大豆科学》 CAS CSCD 北大核心 2023年第6期742-748,共7页
基因型填充(Genotype Imputation, GI)是一种利用现有的基因型信息来推断未测定或不完整基因型的技术。为了探索在大豆基因组测序中处理不完整数据的高效填充方法,以提高数据处理速度和效率,本研究采用真实的大豆参考面板基因型数据,通... 基因型填充(Genotype Imputation, GI)是一种利用现有的基因型信息来推断未测定或不完整基因型的技术。为了探索在大豆基因组测序中处理不完整数据的高效填充方法,以提高数据处理速度和效率,本研究采用真实的大豆参考面板基因型数据,通过对数据进行2%、5%、10%和25%的完全随机缺失处理,利用GPU加速的随机森林机器学习算法构建填充模型,并对不同缺失比例的数据进行填充。同时,对比分析了不同处理器的准确性和性能。结果显示:基于GPU加速的随机森林算法在大豆基因组中实现了优秀的填充精度。与主流基因填充软件相比,该方法至少提供了4倍以上的运算时间优势。因此,GPU加速的基因型填充策略可应用于大规模基因型数据处理中,提高大豆基因型数据处理的速度和效率,同时减少计算时间和资源消耗。 展开更多
关键词 大豆基因填充 随机森林算法 gpu加速 数据处理
下载PDF
A dual channel perturbation particle filter algorithm based on GPU acceleration 被引量:1
16
作者 LI Fan BI Hongkui +2 位作者 XIONG Jiajun YU Chenlong LAN Xuhui 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2018年第4期854-863,共10页
The particle filter(PF) algorithm is one of the most commonly used algorithms for maneuvering target tracking. The traditional PF maps from multi-dimensional information to onedimensional information during particle... The particle filter(PF) algorithm is one of the most commonly used algorithms for maneuvering target tracking. The traditional PF maps from multi-dimensional information to onedimensional information during particle weight calculation, and the incorrect transmission of information leads to the fact that the particle prediction information does not match the weight information, and its essence is the reduction of the information entropy of the useful information. To solve this problem, a dual channel independent filtering method is proposed based on the idea of equalization mapping. Firstly, the particle prediction performance is described by particle manipulations of different dimensions, and the accuracy of particle prediction is improved. The improvement of particle degradation of this algorithm is analyzed in the aspects of particle weight and effective particle number. Secondly, according to the problem of lack of particle samples, the new particles are generated based on the filtering results, and the particle diversity is increased. Finally, the introduction of the graphics processing unit(GPU) parallel computing the platform, the “channel-level” and “particlelevel” parallel computing the program are designed to accelerate the algorithm. The simulation results show that the algorithm has the advantages of better filtering precision, higher particle efficiency and faster calculation speed compared with the traditional algorithm of the CPU platform. 展开更多
关键词 particle filter (PF) dual channel filtering graphic pro-cessing unit gpu parallel operation.
下载PDF
An Improved Graphics Processing Unit Acceleration Approach for Three-Dimensional Structural Topology Optimization Using the Element-Free Galerkin Method 被引量:1
17
作者 Haishan Lu Shuguang Gong +2 位作者 Jianping Zhang Guilan Xie Shuohui Yin 《Computer Modeling in Engineering & Sciences》 SCIE EI 2021年第9期1151-1178,共28页
We proposed an improved graphics processing unit(GPU)acceleration approach for three-dimensional structural topology optimization using the element-free Galerkin(EFG)method.This method can effectively eliminate the ra... We proposed an improved graphics processing unit(GPU)acceleration approach for three-dimensional structural topology optimization using the element-free Galerkin(EFG)method.This method can effectively eliminate the race condition under parallelization.We established a structural topology optimization model by combining the EFG method and the solid isotropic microstructures with penalization model.We explored the GPU parallel algorithm of assembling stiffness matrix,solving discrete equation,analyzing sensitivity,and updating design variables in detail.We also proposed a node pair-wise method for assembling the stiffnessmatrix and a node-wise method for sensitivity analysis to eliminate race conditions during the parallelization.Furthermore,we investigated the effects of the thread block size,the number of degrees of freedom,and the convergence error of preconditioned conjugate gradient(PCG)on GPU computing performance.Finally,the results of the three numerical examples demonstrated the validity of the proposed approach and showed the significant acceleration of structural topology optimization.To save the cost of optimization calculation,we proposed the appropriate thread block size and the convergence error of the PCG method. 展开更多
关键词 Topology optimization EFG method gpu acceleration race condition preconditioned conjugate gradient
下载PDF
The inversion of density structure by graphic processing unit(GPU) and identification of igneous rocks in Xisha area 被引量:1
18
作者 Lei Yu Jian Zhang +2 位作者 Wei Lin Rongqiang Wei Shiguo Wu 《Earthquake Science》 2014年第1期117-125,共9页
Organic reefs, the targets of deep-water petro- leum exploration, developed widely in Xisha area. However, there are concealed igneous rocks undersea, to which organic rocks have nearly equal wave impedance. So the ig... Organic reefs, the targets of deep-water petro- leum exploration, developed widely in Xisha area. However, there are concealed igneous rocks undersea, to which organic rocks have nearly equal wave impedance. So the igneous rocks have become interference for future explo- ration by having similar seismic reflection characteristics. Yet, the density and magnetism of organic reefs are very different from igneous rocks. It has obvious advantages to identify organic reefs and igneous rocks by gravity and magnetic data. At first, frequency decomposition was applied to the free-air gravity anomaly in Xisha area to obtain the 2D subdivision of the gravity anomaly and magnetic anomaly in the vertical direction. Thus, the dis- tribution of igneous rocks in the horizontal direction can be acquired according to high-frequency field, low-frequency field, and its physical properties. Then, 3D forward model- ing of gravitational field was carried out to establish the density model of this area by reference to physical properties of rocks based on former researches. Furthermore, 3D inversion of gravity anomaly by genetic algorithm method of the graphic processing unit (GPU) parallel processing in Xisha target area was applied, and 3D density structure of this area was obtained. By this way, we can confine the igneous rocks to the certain depth according to the density of the igneous rocks. The frequency decomposition and 3D inversion of gravity anomaly by genetic algorithm method of the GPU parallel processing proved to be a useful method for recognizing igneous rocks to its 3D geological position. So organic reefs and igneous rocks can be identified, which provide a prescient information for further exploration. 展开更多
关键词 Xisha area Organic reefs and igneous rocks -Frequency decomposition of potential field 3D inversionof the graphic processing unit gpu parallel processing
下载PDF
基于GPU的区块链交易验签加速技术 被引量:1
19
作者 崔璨 杨小虎 +1 位作者 邱炜伟 黄方蕾 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第8期1505-1515,共11页
为了提高区块链中节点的验签效率,提出基于GPU的区块链交易验签加速技术.结合CPU-GPU异构平台架构特性对交易验签过程进行分阶段优化,大幅提高SM2验签算法运行效率,同时充分利用GPU内核调用的异步性,有效降低交易验签过程的整体IO开销.... 为了提高区块链中节点的验签效率,提出基于GPU的区块链交易验签加速技术.结合CPU-GPU异构平台架构特性对交易验签过程进行分阶段优化,大幅提高SM2验签算法运行效率,同时充分利用GPU内核调用的异步性,有效降低交易验签过程的整体IO开销.考虑到GPU计算能力强而分支预测能力弱的特性,提出改进的同时多点乘算法,不仅提升了GPU验签效率,而且增加了多线程并行规模.所提方法将交易验签操作卸载至GPU处理,释放了节点被占用的CPU资源,在不修改区块链协议的情况下实现了区块链系统整体性能的提升.基于RTX3080平台和国产许可区块链Hyperchain平台进行实验,结果表明,该方法峰值验签吞吐量为4.52×10^(6)次/s,集成该方法的Hyperchain平台交易吞吐量提高了15.81%,且延迟下降了6.56%. 展开更多
关键词 区块链 交易验签 gpu加速 吞吐量 延迟
下载PDF
晶硅分子动力学模拟的GPU加速算法优化 被引量:1
20
作者 林琳 祝爱琦 +6 位作者 赵明璨 张帅 叶炎昊 徐骥 韩林 赵荣彩 侯超峰 《计算机工程》 CAS CSCD 北大核心 2023年第4期166-173,共8页
分子动力学(MD)模拟是研究硅纳米薄膜热力学性质的主要方法,但存在数据处理量大、计算密集、原子间作用模型复杂等问题,限制了MD模拟的深入应用。针对晶硅分子动力学模拟算法中数据访问不连续和大量分支判断造成并行资源浪费、线程等待... 分子动力学(MD)模拟是研究硅纳米薄膜热力学性质的主要方法,但存在数据处理量大、计算密集、原子间作用模型复杂等问题,限制了MD模拟的深入应用。针对晶硅分子动力学模拟算法中数据访问不连续和大量分支判断造成并行资源浪费、线程等待等问题,结合Nvidia Tesla V100 GPU硬件体系结构特点,对晶硅MD模拟算法进行设计。通过全局内存的合并访存、循环展开、原子操作等优化方法,利用GPU强大并行计算和浮点运算能力,减少显存访问及算法执行过程中的分支冲突和判断指令,提升算法整体计算性能。测试结果表明,优化后的晶硅MD模拟算法的计算速度相比于优化前提升了1.69~1.97倍,相比于国际上主流的GPU加速MD模拟软件HOOMDblue和LAMMPS分别提升了3.20~3.47倍和17.40~38.04倍,具有较好的模拟加速效果。 展开更多
关键词 分子动力学 图形处理器 合并访存 循环展开 原子操作 性能优化
下载PDF
上一页 1 2 53 下一页 到第
使用帮助 返回顶部