期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
面向国产异构DCU平台的大规模并行矩量法研究
1
作者 贾瑞鹏 林中朝 +2 位作者 左胜 张玉 杨美红 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期76-83,共8页
面向国产异构众核处理器超级计算机发展趋势,实现了基于CPU+DCU国产异构并行系统的大规模并行高阶矩量法。在同构并行矩量法负载均衡策略的基础上,提出了一种“MPI+openMP+DCU”的高效异构并行编程框架,解决了计算任务与计算能力不匹配... 面向国产异构众核处理器超级计算机发展趋势,实现了基于CPU+DCU国产异构并行系统的大规模并行高阶矩量法。在同构并行矩量法负载均衡策略的基础上,提出了一种“MPI+openMP+DCU”的高效异构并行编程框架,解决了计算任务与计算能力不匹配的问题,实现了矩量法异构并行计算过程的负载均衡。采用细粒度任务划分策略与异步通信技术,对深度计算处理器计算过程进行了流水线优化设计,实现了计算与通信重叠,提升了矩量法异构协同计算的效率。通过与有限元法的仿真结果对比,验证了CPU+DCU异构并行矩量法的准确性。基于国产深度计算处理器异构平台的可扩展性分析结果表明,与单纯CPU计算相比,所实现的CPU+DCU异构协同计算方法能够获得5.5~7.0倍的加速效果,且在国家超级计算西安中心能够实现全系统运行,并行规模从360节点扩展到3 600节点(共1 036 800个处理器核心),并行效率可以达到约73.5%。 展开更多
关键词 高阶矩量法 国产异构并行系统 深度计算处理器 异构协同并行计算
下载PDF
面向DCU的LDS访存向量化优化 被引量:2
2
作者 杨思驰 赵荣彩 +1 位作者 韩林 王洪生 《计算机工程》 CAS CSCD 北大核心 2024年第2期206-213,共8页
在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问... 在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问应遵循一定原则才能高效利用,当线程间的数据访问呈现重叠的访存特征时,访问向量化指令会因此产生延迟。针对此问题,提出面向DCU的LDS访存向量化优化方法。通过实现连续数据访问的向量化,减少LDS的访问次数,降低访存耗时,由此提高程序访存效率。在此基础上,通过设计访存特征的判断方法,提出能够有效解决数据重叠的LDS访存向量化方法,实现一种面向国产通用加速器的LDS高效访存技术,确保向量化方法对访存效率的有效提升。实验结果表明:在使用LDS的异构程序中,LDS访存向量化实现后程序性能平均提升了22.6%,验证了所提方法的有效性;同时,向量化方法能够实现LDS线程间访存数据重叠问题的优化,使异构程序得到平均30%的性能提升。 展开更多
关键词 深度计算器 本地数据共享 访存向量化 访存特征 bank冲突
下载PDF
DeepFlame:基于深度学习和高性能计算的反应流模拟开源平台
3
作者 毛润泽 吴子恒 +2 位作者 徐嘉阳 章严 陈帜 《计算机工程与科学》 CSCD 北大核心 2024年第11期1901-1907,共7页
近年来,深度学习被广泛认为是加速反应流模拟的一种可靠方法。近期开发了一个名为DeepFlame的开源平台,可以在模拟反应流过程中实现对机器学习库和算法的支持。基于DeepFlame,成功地采用深度神经网络来计算化学反应源项,并对DeepFlame... 近年来,深度学习被广泛认为是加速反应流模拟的一种可靠方法。近期开发了一个名为DeepFlame的开源平台,可以在模拟反应流过程中实现对机器学习库和算法的支持。基于DeepFlame,成功地采用深度神经网络来计算化学反应源项,并对DeepFlame平台进行了高性能优化。首先,为了充分发挥深度神经网络(DNN)的加速潜力,研究实现了DeepFlame对DNN多卡并行推理的支持,开发了节点内分割算法和主从通信结构,并完成了DeepFlame向图形处理单元(GPU)和深度计算单元(DCU)的移植。其次,还基于Nvidia AmgX库在GPU上实现了偏微分方程求解和离散稀疏矩阵构造。最后,对CPU-GPU/DCU异构架构上的新版本DeepFlame的计算性能进行了评估。结果表明,仅利用单个GPU卡,在模拟具有反应性的泰勒格林涡(TGV)时可以实现的最大加速比达到15。 展开更多
关键词 计算流体力学 反应流动 深度神经网络 GPU 偏微分方程
下载PDF
面向DCU非一致控制流的编译优化 被引量:2
4
作者 杨小艺 赵荣彩 +2 位作者 王洪生 韩林 徐坤坤 《计算机应用》 CSCD 北大核心 2023年第10期3170-3177,共8页
国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化... 国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化方法——部分控制流合并(PCFM)。首先,通过散度分析找到同构且含有大量相同指令和相似指令的可融合发散区域;其次,统计合并后节省的指令周期百分比,从而评估可融合发散区域的融合盈利;最后,查找对齐序列,并合并有收益的可融合发散区域。在DCU上使用PCFM测试从图形处理器(GPU)基准测试套件Rodinia和经典的排序算法中选择的测试用例,实验结果表明,PCFM对测试用例能够取得1.146的平均加速比,与分支融合+尾合并方法相比,使用PCFM的加速比平均提高了5.72%。可见,所提方法减少线程束分化的效果更好。 展开更多
关键词 dcu 单指令多线程 线程束分化 复杂控制流 编译优化
下载PDF
Deep Learning Applied to Computational Mechanics:A Comprehensive Review,State of the Art,and the Classics 被引量:1
5
作者 Loc Vu-Quoc Alexander Humer 《Computer Modeling in Engineering & Sciences》 SCIE EI 2023年第11期1069-1343,共275页
Three recent breakthroughs due to AI in arts and science serve as motivation:An award winning digital image,protein folding,fast matrix multiplication.Many recent developments in artificial neural networks,particularl... Three recent breakthroughs due to AI in arts and science serve as motivation:An award winning digital image,protein folding,fast matrix multiplication.Many recent developments in artificial neural networks,particularly deep learning(DL),applied and relevant to computational mechanics(solid,fluids,finite-element technology)are reviewed in detail.Both hybrid and pure machine learning(ML)methods are discussed.Hybrid methods combine traditional PDE discretizations with ML methods either(1)to help model complex nonlinear constitutive relations,(2)to nonlinearly reduce the model order for efficient simulation(turbulence),or(3)to accelerate the simulation by predicting certain components in the traditional integration methods.Here,methods(1)and(2)relied on Long-Short-Term Memory(LSTM)architecture,with method(3)relying on convolutional neural networks.Pure ML methods to solve(nonlinear)PDEs are represented by Physics-Informed Neural network(PINN)methods,which could be combined with attention mechanism to address discontinuous solutions.Both LSTM and attention architectures,together with modern and generalized classic optimizers to include stochasticity for DL networks,are extensively reviewed.Kernel machines,including Gaussian processes,are provided to sufficient depth for more advanced works such as shallow networks with infinite width.Not only addressing experts,readers are assumed familiar with computational mechanics,but not with DL,whose concepts and applications are built up from the basics,aiming at bringing first-time learners quickly to the forefront of research.History and limitations of AI are recounted and discussed,with particular attention at pointing out misstatements or misconceptions of the classics,even in well-known references.Positioning and pointing control of a large-deformable beam is given as an example. 展开更多
关键词 deep learning breakthroughs network architectures backpropagation stochastic optimization methods from classic to modern recurrent neural networks long short-term memory gated recurrent unit attention transformer kernel machines Gaussian processes libraries Physics-Informed Neural Networks state-of-the-art history limitations challenges Applications to computational mechanics Finite-element matrix integration improved Gauss quadrature Multiscale geomechanics fluid-filled porous media Fluid mechanics turbulence proper orthogonal decomposition Nonlinear-manifold model-order reduction autoencoder hyper-reduction using gappy data control of large deformable beam
下载PDF
隐私计算环境下深度学习的GPU加速技术综述
6
作者 秦智翔 杨洪伟 +2 位作者 郝萌 何慧 张伟哲 《信息安全研究》 CSCD 北大核心 2024年第7期586-593,共8页
随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密... 随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密2种隐私计算技术,而后探讨了明文环境与隐私计算环境下深度学习的GPU加速技术.在明文环境下,介绍了数据并行和模型并行2种基本的深度学习并行训练模式,分析了重计算和显存交换2种不同的内存优化技术,并介绍了分布式神经网络训练过程中的梯度压缩技术.介绍了在隐私计算环境下安全多方计算和同态加密2种不同隐私计算场景下的深度学习GPU加速技术.简要分析了2种环境下GPU加速深度学习方法的异同. 展开更多
关键词 深度学习 GPU计算 隐私计算 安全多方计算 同态加密
下载PDF
基于FPGA的VPX型智能加速模块的设计与实现
7
作者 叶亚峰 张宁 +1 位作者 寇金桥 王昕 《计算机技术与发展》 2024年第10期8-15,共8页
针对航空航天领域中智能计算单元运行环境恶劣、智能算法推理速度要求高以及模型部署过程复杂的问题,设计并实现了一种基于国产现场可编程门阵列(FPGA)的智能加速模块。该加速模块接口符合高速串行总线标准(VPX)规范,具有较好的机械结... 针对航空航天领域中智能计算单元运行环境恶劣、智能算法推理速度要求高以及模型部署过程复杂的问题,设计并实现了一种基于国产现场可编程门阵列(FPGA)的智能加速模块。该加速模块接口符合高速串行总线标准(VPX)规范,具有较好的机械结构和环境适应性,支持深度学习目标检测等算法的推理加速。在FPGA芯片、DDR内存、电源转换模块等核心元器件的硬件选型符合国产化要求的基础上,完成硬件电路设计,得到智能加速模块实物。以目标检测算法为例,使用设计的自动编译工具将权重文件和模型文件部署到智能加速模块上进行推理计算,实验证明了智能加速模块具有较好的环境适应性、部署便捷性以及计算加速性能,且加速比约为国产中央处理器(CPU)的4.47倍。 展开更多
关键词 智能计算单元 现场可编程门阵列 目标检测 智能加速模块 深度学习处理单元 自动编译工具
下载PDF
基于深度神经网络的脑控技术研究
8
作者 杨昊智 钟明月 李健 《现代计算机》 2024年第16期10-17,共8页
提出一种通过对脑机接口数据进行时域、频域划分的运动想象信号识别和分类系统。实验采集了4名被试者的前进、停止、左转、右转运动想象的脑电信号数据作为实验数据集,提出了两种深度学习模型,门控循环单元神经网络(GRU)和一种混合深度... 提出一种通过对脑机接口数据进行时域、频域划分的运动想象信号识别和分类系统。实验采集了4名被试者的前进、停止、左转、右转运动想象的脑电信号数据作为实验数据集,提出了两种深度学习模型,门控循环单元神经网络(GRU)和一种混合深度学习框架1DCNN-GRU模型来进行信号识别准确性对比。并对未处理的脑电信号进行快速傅里叶变换提取数据重要特征值,对实验数据集进行6∶2∶2训练-验证-测试分割。 展开更多
关键词 脑机接口 运动想象 门控循环单元 混合深度学习框架
下载PDF
结合卷积和轴注意力的光流估计网络
9
作者 刘爽 陈璟 《智能系统学报》 CSCD 北大核心 2024年第3期575-583,共9页
现有的光流估计网络为了获得更高的精度,往往使用相关性成本量和门控循环单元(gate recurrent unit,GRU)来进行迭代优化,但是这样会导致计算量大并限制了在边缘设备上的部署性能。为了实现更轻量的光流估计方法,本文提出局部约束与局部... 现有的光流估计网络为了获得更高的精度,往往使用相关性成本量和门控循环单元(gate recurrent unit,GRU)来进行迭代优化,但是这样会导致计算量大并限制了在边缘设备上的部署性能。为了实现更轻量的光流估计方法,本文提出局部约束与局部扩张模块(local constraint and local dilation module,LC-LD module),通过结合卷积和一次轴注意力来替代自注意力,以较低的计算量对每个匹配特征点周边区域内不同重要程度的关注,生成更准确的相关性成本量,进而降低迭代次数,达到更轻量化的目的。其次,提出了混洗凸优化上采样,通过将分组卷积、混洗操作与凸优化上采样相结合,在实现其参数数量降低的同时进一步提高精度。实验结果证明了该方法在保证高精度的同时,运行效率显著提升,具有较高的应用前景。 展开更多
关键词 光流估计 迭代次数 卷积神经网络 轴注意力机制 门控循环单元网络 深度学习 时间优化 边缘计算平台
下载PDF
基于DDQN改进方法的“斗地主”策略
10
作者 孔燕 吴晓聪 +1 位作者 芮烨锋 史鸿远 《信息技术》 2024年第5期66-72,80,共8页
基于当前一些已有方法在牌类博弈中训练时间长、动作空间大、胜率低等问题,提出了针对DDQN算法网络架构、编码方式的改进方法。采用二进制对手牌特征进行编码,采用手牌拆分的方法把神经网络分为主牌神经网络和副牌神经网络,并且增加GRU... 基于当前一些已有方法在牌类博弈中训练时间长、动作空间大、胜率低等问题,提出了针对DDQN算法网络架构、编码方式的改进方法。采用二进制对手牌特征进行编码,采用手牌拆分的方法把神经网络分为主牌神经网络和副牌神经网络,并且增加GRU神经网络处理序列动作。经实验表明,该算法训练时间比传统DQN算法缩短了13%,在“地主”和“农民”位置上的平均胜率为70%和75%,高于DQN算法的28%和60%,证明了改进算法在上述部分指标方面的优势。 展开更多
关键词 深度强化学习 Double deep Q-learning 计算机博弈 Gate Recurrent unit神经网络 大规模离散动作空间
下载PDF
地质调查大数据研究的主要问题分析 被引量:52
11
作者 严光生 薛群威 +3 位作者 肖克炎 陈建平 缪谨励 余海龙 《地质通报》 CAS CSCD 北大核心 2015年第7期1273-1279,共7页
地质调查大数据包含地质调查工作中产生的多来源、多模态地质数据,以及公共服务与支撑管理产生的数据。一些与数据和计算有关的地质问题,限于当时的信息技术条件,没有得到很好的解决,解决这类地质问题及信息数据共享问题是地质调查大数... 地质调查大数据包含地质调查工作中产生的多来源、多模态地质数据,以及公共服务与支撑管理产生的数据。一些与数据和计算有关的地质问题,限于当时的信息技术条件,没有得到很好的解决,解决这类地质问题及信息数据共享问题是地质调查大数据处理技术的基本目标。在地质调查大数据处理技术中,应当积极开展多类型地质数据采集器、新型非易失性存储技术、分布式计算、内存计算技术产品开发与应用,然后集中开展、深度分析与挖掘、可视分析技术产品开发与应用,最终形成地质调查大数据处理技术体系与产品线,以产品应用推动资源共享,提升地质调查信息化服务品质。 展开更多
关键词 地质调查 大数据 地质数据采集器 分布式计算 内存计算 深度挖掘
下载PDF
GPU通用计算及其在计算智能领域的应用 被引量:15
12
作者 丁科 谭营 《智能系统学报》 CSCD 北大核心 2015年第1期1-11,共11页
在日趋复杂的图形处理任务的推动下,GPU已经演化成为具有众多计算核心、计算能力强大的通用计算设备,并被越来越多地应用于图形处理之外的计算领域。GPU具有高并行、低能耗和低成本的特点,在数据并行度高的计算任务中,相比与传统的CPU... 在日趋复杂的图形处理任务的推动下,GPU已经演化成为具有众多计算核心、计算能力强大的通用计算设备,并被越来越多地应用于图形处理之外的计算领域。GPU具有高并行、低能耗和低成本的特点,在数据并行度高的计算任务中,相比与传统的CPU平台有着显著的优势。随着GPU体系结构的不断演进以及开发平台的逐步完善,GPU已经进入到高性能计算的主流行列。GPU通用计算的普及,使个人和小型机构能有机会获得以往昂贵的大型、超级计算机才能提供的计算能力,并一定程度上改变了科学计算领域的格局和编程开发模式。GPU提供的强大计算能力极大地推动了计算智能的发展,并且已经在深度学习和群体智能优化方法等子领域获得了巨大的成功,更是在图像、语音等领域取得了突破性的进展。随着人工智能技术和方法的不断进步,GPU将在更多的领域获得更加广泛的应用。 展开更多
关键词 计算智能 群体智能 演化算法 机器学习 深度学习 图形处理器 GPU通用计算 异构计算 高性能计算
下载PDF
常减压蒸馏装置减压深拔效益初探 被引量:4
13
作者 李利辉 姜斌 严錞 《石油化工设计》 CAS 2011年第4期26-28,36,共3页
青岛炼油化工有限公司10 Mt/a常减压蒸馏装置的减压渣油作为焦化装置的原料,为原油实沸点(TBP)切割温度大于565℃的馏分,要达到这个要求,必须采用减压深拔技术。该装置已于2008年4月12日一次投产成功,装置至今一直生产平稳,操作正常,各... 青岛炼油化工有限公司10 Mt/a常减压蒸馏装置的减压渣油作为焦化装置的原料,为原油实沸点(TBP)切割温度大于565℃的馏分,要达到这个要求,必须采用减压深拔技术。该装置已于2008年4月12日一次投产成功,装置至今一直生产平稳,操作正常,各项指标达到或超过了设计值。根据青岛炼油化工有限公司常减压蒸馏装置、延迟焦化装置的生产数据,对这两个装置在常减压蒸馏实现减压深拔后的产品收率、产品质量、装置能耗等进行了分析、对比。说明设置焦化装置的炼油厂,减压深拔能较大地提高全厂的经济效益。 展开更多
关键词 常减压装置 焦化装置 减压深拔 收率 能耗
下载PDF
语义关系引导的面部动作单元分析 被引量:3
14
作者 李冠彬 张锐斐 +1 位作者 朱鑫 林倞 《软件学报》 EI CSCD 北大核心 2023年第6期2922-2941,共20页
面部动作单元分析旨在识别人脸图像每个面部动作单元的状态,可以应用于测谎,自动驾驶和智能医疗等场景.近年来,随着深度学习在计算机视觉领域的普及,面部动作单元分析逐渐成为人们关注的热点.面部动作单元分析可以分为面部动作单元检测... 面部动作单元分析旨在识别人脸图像每个面部动作单元的状态,可以应用于测谎,自动驾驶和智能医疗等场景.近年来,随着深度学习在计算机视觉领域的普及,面部动作单元分析逐渐成为人们关注的热点.面部动作单元分析可以分为面部动作单元检测和面部动作单元强度预测两个不同的任务,然而现有的主流算法通常只针对其中一个问题.更重要的是,这些方法通常只专注于设计更复杂的特征提取模型,却忽略了面部动作单元之间的语义相关性.面部动作单元之间往往存在着很强的相互关系,有效利用这些语义知识进行学习和推理是面部动作单元分析任务的关键.因此,通过分析不同人脸面部行为中面部动作单元之间的共生性和互斥性构建了基于面部动作单元关系的知识图谱,并基于此提出基于语义关系的表征学习算法(semantic relationship embedded representation learning,SRERL).在现有公开的面部动作单元检测数据集(BP4D、DISFA)和面部动作单元强度预测数据集(FERA2015、DISFA)上,SRERL算法均超越现有最优的算法.更进一步地,在BP4D+数据集上进行泛化性能测试和在BP4D数据集上进行遮挡测试,同样取得当前最优的性能. 展开更多
关键词 面部动作单元分析 深度学习 计算机视觉
下载PDF
基于残差模块的红螯螯虾虾卵计数方法的研究 被引量:2
15
作者 杨国伟 周超 +3 位作者 胡起立 孙丽慧 张俊杰 郭建林 《渔业现代化》 CSCD 2022年第4期60-69,共10页
红螯螯虾人工繁育中需要对离体虾卵进行准确计数。由于虾卵个体小、密度大、人工计数效率低且可能损伤虾卵,提出了一种基于残差模块的计算机视觉虾卵计数模型。该计数网络模型在前端编码器网络中集成残差模块,对虾卵位置信息进行特征提... 红螯螯虾人工繁育中需要对离体虾卵进行准确计数。由于虾卵个体小、密度大、人工计数效率低且可能损伤虾卵,提出了一种基于残差模块的计算机视觉虾卵计数模型。该计数网络模型在前端编码器网络中集成残差模块,对虾卵位置信息进行特征提取和下采样,在后端解码器网络中使用转置卷积,使模型可以自动学习上采样参数。与VGG-16、CSRNet等模型相比,基于残差模块的虾卵计数模型精度达98.88%,具有最低的平均绝对误差、均方误差以及最好的预测密度图质量,可有效解决密集虾卵计数的困难,为红螯螯虾虾卵计数提供了新方法。利用该模型的计算机视觉虾卵自动计数装置,结构简单、计数精准,可以应用于真实场景。 展开更多
关键词 红螯螯虾 虾卵计数 残差模块 密度图 深度学习 计算机视觉
下载PDF
基于混合平台的深空通信遥测接收机架构设计
16
作者 侯毅 刘荣科 +1 位作者 葛帅 赵岭 《飞行器测控学报》 2012年第S1期13-16,共4页
针对目前深空通信遥测信号接收机硬件实现存在的重配置及扩展灵活性较差的问题,提出了一种符合CCSDS(空间数据系统咨询委员会)标准基于混合平台的接收机架构设计。本设计充分利用了GPU(图形处理器)平台片上存储资源的低访问延迟特性、... 针对目前深空通信遥测信号接收机硬件实现存在的重配置及扩展灵活性较差的问题,提出了一种符合CCSDS(空间数据系统咨询委员会)标准基于混合平台的接收机架构设计。本设计充分利用了GPU(图形处理器)平台片上存储资源的低访问延迟特性、流多处理器的高速并行处理特性以及CUDA(统一计算架构)软件开发的配置灵活性,对接收过程中的帧同步和信道译码进行了高速实现。同时采用FPGA(现场可编程门阵列)对接收数据进行解调处理,通过CPU(中央处理器)对接收机内部数据流传输进行控制,实现了可重配置的混合平台接收机架构。实验结果表明本接收机架构在采用CCSDS标准的LDPC(低密度奇偶校验)编码时能够灵活切换多种码长码率模式,译码后数据吞吐率能够达到10 Mbit/s以上。 展开更多
关键词 深空通信 遥测接收机 混合平台 GPU(图形处理器
下载PDF
基于GRU的扑翼非定常气动特性快速预测 被引量:2
17
作者 赵嘉墀 王天琪 +1 位作者 曾丽芳 邵雪明 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第6期1251-1256,共6页
为了克服传统计算流体力学代理模型不能有效模拟流体力学高度非线性系统的困难,解决现有基于深度学习的代理模型难以有效处理时间顺序信息的问题,以扑翼飞行器的二维翼型为研究对象,基于门控循环单元(GRU)与多层感知机,建立扑翼非定常... 为了克服传统计算流体力学代理模型不能有效模拟流体力学高度非线性系统的困难,解决现有基于深度学习的代理模型难以有效处理时间顺序信息的问题,以扑翼飞行器的二维翼型为研究对象,基于门控循环单元(GRU)与多层感知机,建立扑翼非定常气动参数的快速预测模型,实现对扑翼扑动时高度非定常、非线性气动参数的实时预测.使用计算流体力学方法获得扑翼二维翼型扑动时的气动参数,以该参数为样本训练预测模型.将扑翼的扑动振幅、频率、摆动角度与运动时间输入预测模型,快速得到扑翼在对应扑动状态下的升力、阻力与力矩.实验结果表明,所建立的预测模型精度高、计算速度快,能够实现对扑翼非定常气动参数变化的实时高精度预测. 展开更多
关键词 门控循环单元(GRU) 多层感知机 扑翼 气动参数预测 深度学习 计算流体力学
下载PDF
基于高性能计算平台的TensorFlow应用探索与实践 被引量:18
18
作者 王一超 韦建文 《实验室研究与探索》 CAS 北大核心 2017年第12期125-128,共4页
近年来,伴随着深度学习方法在人工智能领域中的广泛应用,在校级高性能计算平台上也产生了越来越多人工智能领域应用的计算需求。上海交通大学的超级计算机π充分利用GPU加速卡的硬件资源,率先在校级高性能计算平台上部署了多款主流深度... 近年来,伴随着深度学习方法在人工智能领域中的广泛应用,在校级高性能计算平台上也产生了越来越多人工智能领域应用的计算需求。上海交通大学的超级计算机π充分利用GPU加速卡的硬件资源,率先在校级高性能计算平台上部署了多款主流深度学习软件框架,如TensorFlow等,向校内用户提供面向深度学习应用的计算服务。将阐述在传统高性能计算平台上部署深度学习软件框架的探索与实践,并通过对图像识别领域Inception模型的训练实验,验证目前校级高性能计算平台对深度学习应用的支持效果。实验结果显示,交大π超算的模型训练性能与目前最新NVIDIA Minsky GPU工作站上的性能相当,可以充分支撑校内深度学习相关应用。 展开更多
关键词 高性能计算 深度学习 TensorFlow 图形处理器
下载PDF
面向深度学习的SoC架构设计与仿真
19
作者 崔浩然 李涵 +4 位作者 冯煜晶 吴萌 王超 陶冠良 张志敏 《计算机工程与科学》 CSCD 北大核心 2019年第1期14-23,共10页
互联网时代信息量的爆炸式增长、深度学习的普及使传统通用计算无法适应大规模、高并发的计算需求。异构计算能够为深度学习释放更强的计算能力,达到更高的性能要求,并可应用于更广阔的计算场景。针对深度学习算法,设计仿真了一款完整... 互联网时代信息量的爆炸式增长、深度学习的普及使传统通用计算无法适应大规模、高并发的计算需求。异构计算能够为深度学习释放更强的计算能力,达到更高的性能要求,并可应用于更广阔的计算场景。针对深度学习算法,设计仿真了一款完整的异构计算SoC架构。首先,通过对常用深度学习算法,如GoogleNet、LSTM、SSD,进行计算特征分析,将其归纳为有限个共性算子类,并用图表及结构框图的形式进行展示,同时生成最小算子级别伪指令流。其次,根据提取的算法特征,进行面向深度学习的硬件加速AI IP核设计,构建异构计算SoC架构。最后,通过仿真建模平台进行实验验证,SoC系统的性能功耗比大于1.5TOPS/W,可通过GoogleNet算法对10路1 080p 30fps视频逐帧处理,且每帧端到端的处理时间不超过30ms。 展开更多
关键词 异构计算 深度学习 加速部件 仿真建模
下载PDF
基于“嵩山”超级计算机系统的大规模管网仿真 被引量:2
20
作者 杨周凡 韩林 +3 位作者 李冰洋 谢景明 韩璞 刘勇杰 《计算机工程》 CAS CSCD 北大核心 2022年第9期155-161,共7页
供水管网仿真广泛应用于城市供水输配调度,是城市供水管网监测与维护的重要技术手段。由于在面向城市级的大规模管网中产生了海量的计算数据,因此在一般计算平台上无法满足管网仿真计算的算力需求。为提升城市级供水管网仿真的计算效率... 供水管网仿真广泛应用于城市供水输配调度,是城市供水管网监测与维护的重要技术手段。由于在面向城市级的大规模管网中产生了海量的计算数据,因此在一般计算平台上无法满足管网仿真计算的算力需求。为提升城市级供水管网仿真的计算效率,提出一种有效的并行化方案。基于“嵩山”超级计算机系统采用中央处理器+数据缓存单元(CPU+DCU)架构,利用其在密集数据计算方面的优势,对“嵩山”超级计算机进行供水管网仿真。参照可移植性异构计算接口(HIP)异构编程模型,在“嵩山”超级计算机上实现供水管网仿真的异构计算,并结合管道数据分割方案,使用消息传递接口开启多进程以实现DCU加速数据通信传递。通过重定义数据类型解决计算过程中结构体传输问题,实现单节点内多DCU的大规模密集计算。在不同计算平台和多种计算策略仿真上的对比结果表明,与传统x86平台相比,该优化方案在小规模数据与大规模数据上的加速比分别达到5.269、10.760,与采用计算统一设备架构异构编程模型的传统GPU异构平台相比,计算性能有明显提高。 展开更多
关键词 中央处理器+数据缓存单元架构 数据缓存单元加速器 仿真计算 可移植性异构计算接口 消息传递接口
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部