期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
面向国产异构DCU平台的大规模并行矩量法研究
1
作者 贾瑞鹏 林中朝 +2 位作者 左胜 张玉 杨美红 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期76-83,共8页
面向国产异构众核处理器超级计算机发展趋势,实现了基于CPU+DCU国产异构并行系统的大规模并行高阶矩量法。在同构并行矩量法负载均衡策略的基础上,提出了一种“MPI+openMP+DCU”的高效异构并行编程框架,解决了计算任务与计算能力不匹配... 面向国产异构众核处理器超级计算机发展趋势,实现了基于CPU+DCU国产异构并行系统的大规模并行高阶矩量法。在同构并行矩量法负载均衡策略的基础上,提出了一种“MPI+openMP+DCU”的高效异构并行编程框架,解决了计算任务与计算能力不匹配的问题,实现了矩量法异构并行计算过程的负载均衡。采用细粒度任务划分策略与异步通信技术,对深度计算处理器计算过程进行了流水线优化设计,实现了计算与通信重叠,提升了矩量法异构协同计算的效率。通过与有限元法的仿真结果对比,验证了CPU+DCU异构并行矩量法的准确性。基于国产深度计算处理器异构平台的可扩展性分析结果表明,与单纯CPU计算相比,所实现的CPU+DCU异构协同计算方法能够获得5.5~7.0倍的加速效果,且在国家超级计算西安中心能够实现全系统运行,并行规模从360节点扩展到3 600节点(共1 036 800个处理器核心),并行效率可以达到约73.5%。 展开更多
关键词 高阶矩量法 国产异构并行系统 深度计算处理器 异构协同并行计算
下载PDF
面向DCU的LDS访存向量化优化
2
作者 杨思驰 赵荣彩 +1 位作者 韩林 王洪生 《计算机工程》 CAS CSCD 北大核心 2024年第2期206-213,共8页
在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问... 在深度计算器(DCU)中,本地数据共享(LDS)是相较于全局内存延迟更低、带宽更高的关键存储部件。随着异构程序对LDS的使用越来越频繁,LDS访存效率低下成为限制异构程序性能的重要因素。此外,LDS访问过程中存在bank冲突的特性,使LDS的访问应遵循一定原则才能高效利用,当线程间的数据访问呈现重叠的访存特征时,访问向量化指令会因此产生延迟。针对此问题,提出面向DCU的LDS访存向量化优化方法。通过实现连续数据访问的向量化,减少LDS的访问次数,降低访存耗时,由此提高程序访存效率。在此基础上,通过设计访存特征的判断方法,提出能够有效解决数据重叠的LDS访存向量化方法,实现一种面向国产通用加速器的LDS高效访存技术,确保向量化方法对访存效率的有效提升。实验结果表明:在使用LDS的异构程序中,LDS访存向量化实现后程序性能平均提升了22.6%,验证了所提方法的有效性;同时,向量化方法能够实现LDS线程间访存数据重叠问题的优化,使异构程序得到平均30%的性能提升。 展开更多
关键词 深度计算器 本地数据共享 访存向量化 访存特征 bank冲突
下载PDF
面向DCU非一致控制流的编译优化 被引量:2
3
作者 杨小艺 赵荣彩 +2 位作者 王洪生 韩林 徐坤坤 《计算机应用》 CSCD 北大核心 2023年第10期3170-3177,共8页
国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化... 国产DCU采用单指令多线程(SIMT)的并行执行模型,在程序执行时核函数内会产生非一致控制流,导致线程束中的线程部分只能串行执行,即线程束分化。针对核函数的性能因线程束分化受到严重制约的问题,提出一种减少线程束分化时间的编译优化方法——部分控制流合并(PCFM)。首先,通过散度分析找到同构且含有大量相同指令和相似指令的可融合发散区域;其次,统计合并后节省的指令周期百分比,从而评估可融合发散区域的融合盈利;最后,查找对齐序列,并合并有收益的可融合发散区域。在DCU上使用PCFM测试从图形处理器(GPU)基准测试套件Rodinia和经典的排序算法中选择的测试用例,实验结果表明,PCFM对测试用例能够取得1.146的平均加速比,与分支融合+尾合并方法相比,使用PCFM的加速比平均提高了5.72%。可见,所提方法减少线程束分化的效果更好。 展开更多
关键词 dcu 单指令多线程 线程束分化 复杂控制流 编译优化
下载PDF
Deep Learning Applied to Computational Mechanics:A Comprehensive Review,State of the Art,and the Classics 被引量:1
4
作者 Loc Vu-Quoc Alexander Humer 《Computer Modeling in Engineering & Sciences》 SCIE EI 2023年第11期1069-1343,共275页
Three recent breakthroughs due to AI in arts and science serve as motivation:An award winning digital image,protein folding,fast matrix multiplication.Many recent developments in artificial neural networks,particularl... Three recent breakthroughs due to AI in arts and science serve as motivation:An award winning digital image,protein folding,fast matrix multiplication.Many recent developments in artificial neural networks,particularly deep learning(DL),applied and relevant to computational mechanics(solid,fluids,finite-element technology)are reviewed in detail.Both hybrid and pure machine learning(ML)methods are discussed.Hybrid methods combine traditional PDE discretizations with ML methods either(1)to help model complex nonlinear constitutive relations,(2)to nonlinearly reduce the model order for efficient simulation(turbulence),or(3)to accelerate the simulation by predicting certain components in the traditional integration methods.Here,methods(1)and(2)relied on Long-Short-Term Memory(LSTM)architecture,with method(3)relying on convolutional neural networks.Pure ML methods to solve(nonlinear)PDEs are represented by Physics-Informed Neural network(PINN)methods,which could be combined with attention mechanism to address discontinuous solutions.Both LSTM and attention architectures,together with modern and generalized classic optimizers to include stochasticity for DL networks,are extensively reviewed.Kernel machines,including Gaussian processes,are provided to sufficient depth for more advanced works such as shallow networks with infinite width.Not only addressing experts,readers are assumed familiar with computational mechanics,but not with DL,whose concepts and applications are built up from the basics,aiming at bringing first-time learners quickly to the forefront of research.History and limitations of AI are recounted and discussed,with particular attention at pointing out misstatements or misconceptions of the classics,even in well-known references.Positioning and pointing control of a large-deformable beam is given as an example. 展开更多
关键词 deep learning breakthroughs network architectures backpropagation stochastic optimization methods from classic to modern recurrent neural networks long short-term memory gated recurrent unit attention transformer kernel machines Gaussian processes libraries Physics-Informed Neural Networks state-of-the-art history limitations challenges Applications to computational mechanics Finite-element matrix integration improved Gauss quadrature Multiscale geomechanics fluid-filled porous media Fluid mechanics turbulence proper orthogonal decomposition Nonlinear-manifold model-order reduction autoencoder hyper-reduction using gappy data control of large deformable beam
下载PDF
隐私计算环境下深度学习的GPU加速技术综述
5
作者 秦智翔 杨洪伟 +2 位作者 郝萌 何慧 张伟哲 《信息安全研究》 CSCD 北大核心 2024年第7期586-593,共8页
随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密... 随着深度学习技术的不断发展,神经网络模型的训练时间越来越长,使用GPU计算对神经网络训练进行加速便成为一项关键技术.此外,数据隐私的重要性也推动了隐私计算技术的发展.首先介绍了深度学习、GPU计算的概念以及安全多方计算、同态加密2种隐私计算技术,而后探讨了明文环境与隐私计算环境下深度学习的GPU加速技术.在明文环境下,介绍了数据并行和模型并行2种基本的深度学习并行训练模式,分析了重计算和显存交换2种不同的内存优化技术,并介绍了分布式神经网络训练过程中的梯度压缩技术.介绍了在隐私计算环境下安全多方计算和同态加密2种不同隐私计算场景下的深度学习GPU加速技术.简要分析了2种环境下GPU加速深度学习方法的异同. 展开更多
关键词 深度学习 GPU计算 隐私计算 安全多方计算 同态加密
下载PDF
结合卷积和轴注意力的光流估计网络
6
作者 刘爽 陈璟 《智能系统学报》 CSCD 北大核心 2024年第3期575-583,共9页
现有的光流估计网络为了获得更高的精度,往往使用相关性成本量和门控循环单元(gate recurrent unit,GRU)来进行迭代优化,但是这样会导致计算量大并限制了在边缘设备上的部署性能。为了实现更轻量的光流估计方法,本文提出局部约束与局部... 现有的光流估计网络为了获得更高的精度,往往使用相关性成本量和门控循环单元(gate recurrent unit,GRU)来进行迭代优化,但是这样会导致计算量大并限制了在边缘设备上的部署性能。为了实现更轻量的光流估计方法,本文提出局部约束与局部扩张模块(local constraint and local dilation module,LC-LD module),通过结合卷积和一次轴注意力来替代自注意力,以较低的计算量对每个匹配特征点周边区域内不同重要程度的关注,生成更准确的相关性成本量,进而降低迭代次数,达到更轻量化的目的。其次,提出了混洗凸优化上采样,通过将分组卷积、混洗操作与凸优化上采样相结合,在实现其参数数量降低的同时进一步提高精度。实验结果证明了该方法在保证高精度的同时,运行效率显著提升,具有较高的应用前景。 展开更多
关键词 光流估计 迭代次数 卷积神经网络 轴注意力机制 门控循环单元网络 深度学习 时间优化 边缘计算平台
下载PDF
基于DDQN改进方法的“斗地主”策略
7
作者 孔燕 吴晓聪 +1 位作者 芮烨锋 史鸿远 《信息技术》 2024年第5期66-72,80,共8页
基于当前一些已有方法在牌类博弈中训练时间长、动作空间大、胜率低等问题,提出了针对DDQN算法网络架构、编码方式的改进方法。采用二进制对手牌特征进行编码,采用手牌拆分的方法把神经网络分为主牌神经网络和副牌神经网络,并且增加GRU... 基于当前一些已有方法在牌类博弈中训练时间长、动作空间大、胜率低等问题,提出了针对DDQN算法网络架构、编码方式的改进方法。采用二进制对手牌特征进行编码,采用手牌拆分的方法把神经网络分为主牌神经网络和副牌神经网络,并且增加GRU神经网络处理序列动作。经实验表明,该算法训练时间比传统DQN算法缩短了13%,在“地主”和“农民”位置上的平均胜率为70%和75%,高于DQN算法的28%和60%,证明了改进算法在上述部分指标方面的优势。 展开更多
关键词 深度强化学习 Double deep Q-learning 计算机博弈 Gate Recurrent unit神经网络 大规模离散动作空间
下载PDF
语义关系引导的面部动作单元分析 被引量:1
8
作者 李冠彬 张锐斐 +1 位作者 朱鑫 林倞 《软件学报》 EI CSCD 北大核心 2023年第6期2922-2941,共20页
面部动作单元分析旨在识别人脸图像每个面部动作单元的状态,可以应用于测谎,自动驾驶和智能医疗等场景.近年来,随着深度学习在计算机视觉领域的普及,面部动作单元分析逐渐成为人们关注的热点.面部动作单元分析可以分为面部动作单元检测... 面部动作单元分析旨在识别人脸图像每个面部动作单元的状态,可以应用于测谎,自动驾驶和智能医疗等场景.近年来,随着深度学习在计算机视觉领域的普及,面部动作单元分析逐渐成为人们关注的热点.面部动作单元分析可以分为面部动作单元检测和面部动作单元强度预测两个不同的任务,然而现有的主流算法通常只针对其中一个问题.更重要的是,这些方法通常只专注于设计更复杂的特征提取模型,却忽略了面部动作单元之间的语义相关性.面部动作单元之间往往存在着很强的相互关系,有效利用这些语义知识进行学习和推理是面部动作单元分析任务的关键.因此,通过分析不同人脸面部行为中面部动作单元之间的共生性和互斥性构建了基于面部动作单元关系的知识图谱,并基于此提出基于语义关系的表征学习算法(semantic relationship embedded representation learning,SRERL).在现有公开的面部动作单元检测数据集(BP4D、DISFA)和面部动作单元强度预测数据集(FERA2015、DISFA)上,SRERL算法均超越现有最优的算法.更进一步地,在BP4D+数据集上进行泛化性能测试和在BP4D数据集上进行遮挡测试,同样取得当前最优的性能. 展开更多
关键词 面部动作单元分析 深度学习 计算机视觉
下载PDF
基于GRU的扑翼非定常气动特性快速预测 被引量:1
9
作者 赵嘉墀 王天琪 +1 位作者 曾丽芳 邵雪明 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2023年第6期1251-1256,共6页
为了克服传统计算流体力学代理模型不能有效模拟流体力学高度非线性系统的困难,解决现有基于深度学习的代理模型难以有效处理时间顺序信息的问题,以扑翼飞行器的二维翼型为研究对象,基于门控循环单元(GRU)与多层感知机,建立扑翼非定常... 为了克服传统计算流体力学代理模型不能有效模拟流体力学高度非线性系统的困难,解决现有基于深度学习的代理模型难以有效处理时间顺序信息的问题,以扑翼飞行器的二维翼型为研究对象,基于门控循环单元(GRU)与多层感知机,建立扑翼非定常气动参数的快速预测模型,实现对扑翼扑动时高度非定常、非线性气动参数的实时预测.使用计算流体力学方法获得扑翼二维翼型扑动时的气动参数,以该参数为样本训练预测模型.将扑翼的扑动振幅、频率、摆动角度与运动时间输入预测模型,快速得到扑翼在对应扑动状态下的升力、阻力与力矩.实验结果表明,所建立的预测模型精度高、计算速度快,能够实现对扑翼非定常气动参数变化的实时高精度预测. 展开更多
关键词 门控循环单元(GRU) 多层感知机 扑翼 气动参数预测 深度学习 计算流体力学
下载PDF
地质调查大数据研究的主要问题分析 被引量:49
10
作者 严光生 薛群威 +3 位作者 肖克炎 陈建平 缪谨励 余海龙 《地质通报》 CAS CSCD 北大核心 2015年第7期1273-1279,共7页
地质调查大数据包含地质调查工作中产生的多来源、多模态地质数据,以及公共服务与支撑管理产生的数据。一些与数据和计算有关的地质问题,限于当时的信息技术条件,没有得到很好的解决,解决这类地质问题及信息数据共享问题是地质调查大数... 地质调查大数据包含地质调查工作中产生的多来源、多模态地质数据,以及公共服务与支撑管理产生的数据。一些与数据和计算有关的地质问题,限于当时的信息技术条件,没有得到很好的解决,解决这类地质问题及信息数据共享问题是地质调查大数据处理技术的基本目标。在地质调查大数据处理技术中,应当积极开展多类型地质数据采集器、新型非易失性存储技术、分布式计算、内存计算技术产品开发与应用,然后集中开展、深度分析与挖掘、可视分析技术产品开发与应用,最终形成地质调查大数据处理技术体系与产品线,以产品应用推动资源共享,提升地质调查信息化服务品质。 展开更多
关键词 地质调查 大数据 地质数据采集器 分布式计算 内存计算 深度挖掘
下载PDF
GPU通用计算及其在计算智能领域的应用 被引量:15
11
作者 丁科 谭营 《智能系统学报》 CSCD 北大核心 2015年第1期1-11,共11页
在日趋复杂的图形处理任务的推动下,GPU已经演化成为具有众多计算核心、计算能力强大的通用计算设备,并被越来越多地应用于图形处理之外的计算领域。GPU具有高并行、低能耗和低成本的特点,在数据并行度高的计算任务中,相比与传统的CPU... 在日趋复杂的图形处理任务的推动下,GPU已经演化成为具有众多计算核心、计算能力强大的通用计算设备,并被越来越多地应用于图形处理之外的计算领域。GPU具有高并行、低能耗和低成本的特点,在数据并行度高的计算任务中,相比与传统的CPU平台有着显著的优势。随着GPU体系结构的不断演进以及开发平台的逐步完善,GPU已经进入到高性能计算的主流行列。GPU通用计算的普及,使个人和小型机构能有机会获得以往昂贵的大型、超级计算机才能提供的计算能力,并一定程度上改变了科学计算领域的格局和编程开发模式。GPU提供的强大计算能力极大地推动了计算智能的发展,并且已经在深度学习和群体智能优化方法等子领域获得了巨大的成功,更是在图像、语音等领域取得了突破性的进展。随着人工智能技术和方法的不断进步,GPU将在更多的领域获得更加广泛的应用。 展开更多
关键词 计算智能 群体智能 演化算法 机器学习 深度学习 图形处理器 GPU通用计算 异构计算 高性能计算
下载PDF
常减压蒸馏装置减压深拔效益初探 被引量:4
12
作者 李利辉 姜斌 严錞 《石油化工设计》 CAS 2011年第4期26-28,36,共3页
青岛炼油化工有限公司10 Mt/a常减压蒸馏装置的减压渣油作为焦化装置的原料,为原油实沸点(TBP)切割温度大于565℃的馏分,要达到这个要求,必须采用减压深拔技术。该装置已于2008年4月12日一次投产成功,装置至今一直生产平稳,操作正常,各... 青岛炼油化工有限公司10 Mt/a常减压蒸馏装置的减压渣油作为焦化装置的原料,为原油实沸点(TBP)切割温度大于565℃的馏分,要达到这个要求,必须采用减压深拔技术。该装置已于2008年4月12日一次投产成功,装置至今一直生产平稳,操作正常,各项指标达到或超过了设计值。根据青岛炼油化工有限公司常减压蒸馏装置、延迟焦化装置的生产数据,对这两个装置在常减压蒸馏实现减压深拔后的产品收率、产品质量、装置能耗等进行了分析、对比。说明设置焦化装置的炼油厂,减压深拔能较大地提高全厂的经济效益。 展开更多
关键词 常减压装置 焦化装置 减压深拔 收率 能耗
下载PDF
基于残差模块的红螯螯虾虾卵计数方法的研究
13
作者 杨国伟 周超 +3 位作者 胡起立 孙丽慧 张俊杰 郭建林 《渔业现代化》 CSCD 2022年第4期60-69,共10页
红螯螯虾人工繁育中需要对离体虾卵进行准确计数。由于虾卵个体小、密度大、人工计数效率低且可能损伤虾卵,提出了一种基于残差模块的计算机视觉虾卵计数模型。该计数网络模型在前端编码器网络中集成残差模块,对虾卵位置信息进行特征提... 红螯螯虾人工繁育中需要对离体虾卵进行准确计数。由于虾卵个体小、密度大、人工计数效率低且可能损伤虾卵,提出了一种基于残差模块的计算机视觉虾卵计数模型。该计数网络模型在前端编码器网络中集成残差模块,对虾卵位置信息进行特征提取和下采样,在后端解码器网络中使用转置卷积,使模型可以自动学习上采样参数。与VGG-16、CSRNet等模型相比,基于残差模块的虾卵计数模型精度达98.88%,具有最低的平均绝对误差、均方误差以及最好的预测密度图质量,可有效解决密集虾卵计数的困难,为红螯螯虾虾卵计数提供了新方法。利用该模型的计算机视觉虾卵自动计数装置,结构简单、计数精准,可以应用于真实场景。 展开更多
关键词 红螯螯虾 虾卵计数 残差模块 密度图 深度学习 计算机视觉
下载PDF
基于混合平台的深空通信遥测接收机架构设计
14
作者 侯毅 刘荣科 +1 位作者 葛帅 赵岭 《飞行器测控学报》 2012年第S1期13-16,共4页
针对目前深空通信遥测信号接收机硬件实现存在的重配置及扩展灵活性较差的问题,提出了一种符合CCSDS(空间数据系统咨询委员会)标准基于混合平台的接收机架构设计。本设计充分利用了GPU(图形处理器)平台片上存储资源的低访问延迟特性、... 针对目前深空通信遥测信号接收机硬件实现存在的重配置及扩展灵活性较差的问题,提出了一种符合CCSDS(空间数据系统咨询委员会)标准基于混合平台的接收机架构设计。本设计充分利用了GPU(图形处理器)平台片上存储资源的低访问延迟特性、流多处理器的高速并行处理特性以及CUDA(统一计算架构)软件开发的配置灵活性,对接收过程中的帧同步和信道译码进行了高速实现。同时采用FPGA(现场可编程门阵列)对接收数据进行解调处理,通过CPU(中央处理器)对接收机内部数据流传输进行控制,实现了可重配置的混合平台接收机架构。实验结果表明本接收机架构在采用CCSDS标准的LDPC(低密度奇偶校验)编码时能够灵活切换多种码长码率模式,译码后数据吞吐率能够达到10 Mbit/s以上。 展开更多
关键词 深空通信 遥测接收机 混合平台 GPU(图形处理器
下载PDF
基于高性能计算平台的TensorFlow应用探索与实践 被引量:18
15
作者 王一超 韦建文 《实验室研究与探索》 CAS 北大核心 2017年第12期125-128,共4页
近年来,伴随着深度学习方法在人工智能领域中的广泛应用,在校级高性能计算平台上也产生了越来越多人工智能领域应用的计算需求。上海交通大学的超级计算机π充分利用GPU加速卡的硬件资源,率先在校级高性能计算平台上部署了多款主流深度... 近年来,伴随着深度学习方法在人工智能领域中的广泛应用,在校级高性能计算平台上也产生了越来越多人工智能领域应用的计算需求。上海交通大学的超级计算机π充分利用GPU加速卡的硬件资源,率先在校级高性能计算平台上部署了多款主流深度学习软件框架,如TensorFlow等,向校内用户提供面向深度学习应用的计算服务。将阐述在传统高性能计算平台上部署深度学习软件框架的探索与实践,并通过对图像识别领域Inception模型的训练实验,验证目前校级高性能计算平台对深度学习应用的支持效果。实验结果显示,交大π超算的模型训练性能与目前最新NVIDIA Minsky GPU工作站上的性能相当,可以充分支撑校内深度学习相关应用。 展开更多
关键词 高性能计算 深度学习 TensorFlow 图形处理器
下载PDF
面向深度学习的SoC架构设计与仿真
16
作者 崔浩然 李涵 +4 位作者 冯煜晶 吴萌 王超 陶冠良 张志敏 《计算机工程与科学》 CSCD 北大核心 2019年第1期14-23,共10页
互联网时代信息量的爆炸式增长、深度学习的普及使传统通用计算无法适应大规模、高并发的计算需求。异构计算能够为深度学习释放更强的计算能力,达到更高的性能要求,并可应用于更广阔的计算场景。针对深度学习算法,设计仿真了一款完整... 互联网时代信息量的爆炸式增长、深度学习的普及使传统通用计算无法适应大规模、高并发的计算需求。异构计算能够为深度学习释放更强的计算能力,达到更高的性能要求,并可应用于更广阔的计算场景。针对深度学习算法,设计仿真了一款完整的异构计算SoC架构。首先,通过对常用深度学习算法,如GoogleNet、LSTM、SSD,进行计算特征分析,将其归纳为有限个共性算子类,并用图表及结构框图的形式进行展示,同时生成最小算子级别伪指令流。其次,根据提取的算法特征,进行面向深度学习的硬件加速AI IP核设计,构建异构计算SoC架构。最后,通过仿真建模平台进行实验验证,SoC系统的性能功耗比大于1.5TOPS/W,可通过GoogleNet算法对10路1 080p 30fps视频逐帧处理,且每帧端到端的处理时间不超过30ms。 展开更多
关键词 异构计算 深度学习 加速部件 仿真建模
下载PDF
基于“嵩山”超级计算机系统的大规模管网仿真 被引量:1
17
作者 杨周凡 韩林 +3 位作者 李冰洋 谢景明 韩璞 刘勇杰 《计算机工程》 CAS CSCD 北大核心 2022年第9期155-161,共7页
供水管网仿真广泛应用于城市供水输配调度,是城市供水管网监测与维护的重要技术手段。由于在面向城市级的大规模管网中产生了海量的计算数据,因此在一般计算平台上无法满足管网仿真计算的算力需求。为提升城市级供水管网仿真的计算效率... 供水管网仿真广泛应用于城市供水输配调度,是城市供水管网监测与维护的重要技术手段。由于在面向城市级的大规模管网中产生了海量的计算数据,因此在一般计算平台上无法满足管网仿真计算的算力需求。为提升城市级供水管网仿真的计算效率,提出一种有效的并行化方案。基于“嵩山”超级计算机系统采用中央处理器+数据缓存单元(CPU+DCU)架构,利用其在密集数据计算方面的优势,对“嵩山”超级计算机进行供水管网仿真。参照可移植性异构计算接口(HIP)异构编程模型,在“嵩山”超级计算机上实现供水管网仿真的异构计算,并结合管道数据分割方案,使用消息传递接口开启多进程以实现DCU加速数据通信传递。通过重定义数据类型解决计算过程中结构体传输问题,实现单节点内多DCU的大规模密集计算。在不同计算平台和多种计算策略仿真上的对比结果表明,与传统x86平台相比,该优化方案在小规模数据与大规模数据上的加速比分别达到5.269、10.760,与采用计算统一设备架构异构编程模型的传统GPU异构平台相比,计算性能有明显提高。 展开更多
关键词 中央处理器+数据缓存单元架构 数据缓存单元加速器 仿真计算 可移植性异构计算接口 消息传递接口
下载PDF
基于TPU和FPGA的深度学习边缘计算平台的设计与实现 被引量:3
18
作者 栾奕 刘昌华 《计算机工程与科学》 CSCD 北大核心 2021年第6期976-983,共8页
针对深度神经网络为了追求准确度对计算资源造成的巨大消耗,与边缘计算平台所处的受限环境之间的矛盾,探究利用FPGA逻辑资源搭建神经网络张量处理器(TPU),通过配合ARM CPU实现全新的边缘计算架构,不仅实现对深度神经网络模型的加速计算... 针对深度神经网络为了追求准确度对计算资源造成的巨大消耗,与边缘计算平台所处的受限环境之间的矛盾,探究利用FPGA逻辑资源搭建神经网络张量处理器(TPU),通过配合ARM CPU实现全新的边缘计算架构,不仅实现对深度神经网络模型的加速计算以及准确度的提升,还对功耗进行明显优化。该架构下,压缩后的MobileNet-V1网络准确度可达78.1%,而功耗仅为3.4 W,与其他不同计算架构的深度学习边缘计算平台的对比结果表明,该系统在不降低准确度的条件下,对于小规模深度神经网络的加速计算有着明显优势。 展开更多
关键词 FPGA TPU 深度学习 边缘计算
下载PDF
改进EEMD-GRU混合模型在径流预报中的应用 被引量:3
19
作者 刘扬 王立虎 +1 位作者 杨礼波 刘雪梅 《智能系统学报》 CSCD 北大核心 2022年第3期480-487,共8页
为解决径流预测模型存在的预测精确度低、稳定性差、延时高等问题,结合门控制循环单元神经网络(gated recurrent unit,GRU),集合经验模态分解(ensemble empirical mode decomposition,EEMD)的各自优点,提出一种基于改进EEMD方法的深度... 为解决径流预测模型存在的预测精确度低、稳定性差、延时高等问题,结合门控制循环单元神经网络(gated recurrent unit,GRU),集合经验模态分解(ensemble empirical mode decomposition,EEMD)的各自优点,提出一种基于改进EEMD方法的深度学习模型(EEMD-GRU)。该模型首先以智能算法对径流信号进行边界拓延,以解决EEMD边界效应。然后利用改进EEMD方法将径流信号分解为若干稳态分量,将各分量作为GRU模型的输入并对其进行预测。实验结果表明,与结合了经验模态分解的支持向量回归模型相比,并行EEMDGRU径流预测模型的预测精准度、可信度和效率分别提高82.50%、144.67%和95.49%。基于EEMD-GRU的最优运算结果表明,该方法可进一步减少区域防洪的经济损失,提高灾害监管的工作效率。 展开更多
关键词 径流预报 集合经验模态分解 深度学习 门控制循环单元神经网络 并行计算 混合模型 时序预测 工程应用
下载PDF
面向深度神经网络的安全计算协议设计方法 被引量:3
20
作者 毕仁万 陈前昕 +1 位作者 熊金波 刘西蒙 《网络与信息安全学报》 2020年第4期130-139,共10页
针对深度神经网络模型计算过程中存在的信息泄露问题,结合加性秘密共享方案,在两台非共谋的边缘服务器间设计安全高效的交互计算协议。考虑到非线性函数不能直接拆分,首先提出一组基本转换协议,实现加性副本和乘性副本的安全转换,经过... 针对深度神经网络模型计算过程中存在的信息泄露问题,结合加性秘密共享方案,在两台非共谋的边缘服务器间设计安全高效的交互计算协议。考虑到非线性函数不能直接拆分,首先提出一组基本转换协议,实现加性副本和乘性副本的安全转换,经过少量调用,可以安全计算幂函数、比较、指数、对数、除法等底层函数。由于数据传递和计算特点,协议可以扩展至数组计算。理论分析证明了协议的正确性、高效性和安全性,实验结果表明,协议具有较小的误差,其计算和通信开销均优于现有设计方案。 展开更多
关键词 深度神经网络 加性秘密共享 安全计算协议 加法−乘法转换 数组单元
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部