期刊文献+
共找到76篇文章
< 1 2 4 >
每页显示 20 50 100
深度神经网络模型任务切分及并行优化方法
1
作者 巨涛 刘帅 +1 位作者 王志强 李林娟 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第9期2739-2752,共14页
为解决传统手工切分神经网络模型计算任务并行化方法面临的并行化难度大、训练耗时长、设备利用率低等问题,提出了一种基于深度神经网络(DNN)模型特性感知的任务切分及并行优化方法。结合硬件计算环境,对模型计算特性进行动态分析,获取... 为解决传统手工切分神经网络模型计算任务并行化方法面临的并行化难度大、训练耗时长、设备利用率低等问题,提出了一种基于深度神经网络(DNN)模型特性感知的任务切分及并行优化方法。结合硬件计算环境,对模型计算特性进行动态分析,获取模型内部相关性和各类参数属性,构建原始计算任务有向无环图(DAG);利用增强反链,构建DAG节点间可分区聚类的拓扑关系,将原始DAG转换为易于切分的反链DAG;通过拓扑排序生成反链DAG状态序列,并使用动态规划将状态序列切分为不同执行阶段,分析最佳分割点进行模型切分,实现模型分区与各GPU间动态匹配;对批量进行微处理,通过引入流水线并行实现多迭代密集训练,提高GPU利用率,减少训练耗时。实验结果表明:与已有模型切分方法相比,在CIFAR-10数据集上,所提模型切分及并行优化方法可实现各GPU间训练任务负载均衡,在保证模型训练精度的同时,4 GPU加速比达到3.4,8 GPU加速比为3.76。 展开更多
关键词 深度神经网络模型并行 模型切分 流水线并行 反链 并行优化
下载PDF
深度神经网络动态分层梯度稀疏化及梯度合并优化方法
2
作者 巨涛 康贺廷 +1 位作者 刘帅 火久元 《西安交通大学学报》 EI CAS CSCD 北大核心 2024年第9期105-116,共12页
针对数据并行方法加速大规模深度神经网络时易出现的通信开销大、训练耗时长、资源利用率不高的问题,提出了一种深度神经网络动态分层梯度稀疏化及梯度合并优化方法。首先,将梯度稀疏化压缩与流水线并行技术相结合,提出动态分层梯度稀... 针对数据并行方法加速大规模深度神经网络时易出现的通信开销大、训练耗时长、资源利用率不高的问题,提出了一种深度神经网络动态分层梯度稀疏化及梯度合并优化方法。首先,将梯度稀疏化压缩与流水线并行技术相结合,提出动态分层梯度稀疏优化方法,为每层神经网络匹配一个合适的阈值,通过在后续迭代时动态调整该阈值,实现对每层网络传输梯度的自适应压缩。然后,提出了层梯度合并方法,利用动态规划算法对层梯度合并时的通信开销、稀疏化及层梯度计算时间进行权衡优化,求解出最佳的层梯度合并组合,并将多层小尺度梯度张量合并为一层通信,以降低分层梯度决策时引入的过高通信延迟开销。最后,将求解出的最佳层梯度合并组合应用于具体的训练迭代过程。实验结果表明:与已有方法相比,所提方法可在保证模型训练精度的同时大大降低通信开销,提升模型的训练速度;与未压缩方法相比,训练速度最大可提升1.99倍。 展开更多
关键词 深度神经网络 分布式训练 同步数据并行 梯度压缩 层梯度合并
下载PDF
冷连轧轧制力深度神经网络模型泛化能力并行优化 被引量:1
3
作者 吴爽 闫奕 +1 位作者 李爽 李峰 《机械设计与制造》 北大核心 2023年第8期171-174,共4页
为了更好调控冷连轧板厚参数,设计了一种冷连轧轧制力深度神经网络模型,增强了冷连轧模型的控制效果。选择2030冷连轧结构进行研究,对多输入多输出(MIMO)深度神经网络(DNN)进行预处理,针对多线程CPU与GPU实施了优化,对比了神经网络模型... 为了更好调控冷连轧板厚参数,设计了一种冷连轧轧制力深度神经网络模型,增强了冷连轧模型的控制效果。选择2030冷连轧结构进行研究,对多输入多输出(MIMO)深度神经网络(DNN)进行预处理,针对多线程CPU与GPU实施了优化,对比了神经网络模型和冷连轧系统Siemens模型误差。研究结果表明:L-M算法表现出了更优的收敛稳定性、测试和验证性能、梯度下降趋势,并且收敛速度也更快。以随机方式选择200个数据并测定泛化性能测试得到,L-M算法获得了比SCG算法更大的相关系数。都是随着隐含层数的增加,获得了性能更优的神经网络模型,并且都会增加训练时间。从各项模型指标分析,L-M算法都比SCG算法的性能更优。构建神经网络轧制力模型总共包含二个隐含层、节点数介于17~30、通过L-M算法进行训练。采用神经网络轧制力模型得到的结果与实测值之间的误差比Siemens机理模型和测试值的误差更低。 展开更多
关键词 深度神经网络模型 L-M算法 SCG算法 并行优化 轧制力模型
下载PDF
基于并行深度卷积神经网络的舰船通信异常数据检测研究 被引量:1
4
作者 邓雪阳 邓达平 苏万靖 《舰船科学技术》 北大核心 2023年第15期119-122,共4页
为了提高通信异常数据检测效果,设计基于并行深度卷积神经网络算法的大规模舰船通信异常数据检测方法。采集大规模舰船通信数据,采用小波变换对数据实施降噪处理,将降噪后数据输入并行深度卷积神经网络中,经过模型训练提取特征,利用Soft... 为了提高通信异常数据检测效果,设计基于并行深度卷积神经网络算法的大规模舰船通信异常数据检测方法。采集大规模舰船通信数据,采用小波变换对数据实施降噪处理,将降噪后数据输入并行深度卷积神经网络中,经过模型训练提取特征,利用Softmax分类函数得出舰船通信异常数据特征,输出舰船通信异常数据检测结果。实验结果表明:该方法可有效实现大规模舰船通信异常数据检测,其加速比最高,并行效果最优;具有较强的大规模舰船通信数据集检测能力,提高大规模舰船通信异常数据检测效果。 展开更多
关键词 并行深度 卷积神经网络 大规模舰船 通信异常数据 检测方法 数据预处理
下载PDF
异构环境感知的分布式神经网络训练模型
5
作者 咸琳涛 刘晓兰 +1 位作者 王淦 刘建明 《计算机工程与设计》 北大核心 2024年第9期2821-2827,共7页
针对分布式神经网络训练在异构环境中训练速度慢、资源利用率低的问题,提出一种异构环境感知的分布式神经网络训练模型(H-PS)。根据计算节点当前状态动态调度训练任务,使计算节点能够在相同时间完成训练任务,提高资源利用率。提出通信... 针对分布式神经网络训练在异构环境中训练速度慢、资源利用率低的问题,提出一种异构环境感知的分布式神经网络训练模型(H-PS)。根据计算节点当前状态动态调度训练任务,使计算节点能够在相同时间完成训练任务,提高资源利用率。提出通信与计算并行策略,参数服务器与计算节点传输模型参数期间,计算节点持续模型计算,进一步提高资源利用率。使用灵活的量化策略,压缩神经网络模型参数,减少参数服务器与计算节点的通信开销。使用新兴的容器集群进行实验,结果表明,与现有方法相比,H-PS训练时间缩短1.4~3.5倍。 展开更多
关键词 分布式机器学习 异构环境 任务动态规划 通信与计算并行 参数动态量化 深度神经网络 容器集群
下载PDF
基于并行深度卷积神经网络的图像美感分类
6
作者 张光武 胡悦 秦吉 《中文科技期刊数据库(全文版)工程技术》 2023年第5期19-22,共4页
在当前计算机信息技术的发展背景下,社交网络发展速度逐渐加快,人们对于图像美感的自动评价也更加关注。但图像美感评级系统在实际运行的过程中存在一定的复杂性与主观性,难以使用传统手动方式对图像美感进行合理分类,难以实现图像美感... 在当前计算机信息技术的发展背景下,社交网络发展速度逐渐加快,人们对于图像美感的自动评价也更加关注。但图像美感评级系统在实际运行的过程中存在一定的复杂性与主观性,难以使用传统手动方式对图像美感进行合理分类,难以实现图像美感准确量化。为此,本文通过对并行深度卷积神经网络的结构以及实现进行分析,从而合理做好图像美感分类工作,提高图像美感分类准确率。 展开更多
关键词 并行深度卷积神经网络 图像美感 分类步骤
下载PDF
基于并行卷积神经网络和特征融合的小样本轴承故障诊断方法
7
作者 王俊年 王源 童鹏程 《机电工程》 CAS 北大核心 2023年第3期317-325,369,共10页
在风力发电机轴承故障诊断过程中,基于深度学习的故障诊断方法受限于有限的标注样本,存在模型收敛困难和识别准确率较低等问题,为此,提出了一种基于并行卷积神经网络(P-CNN)和特征融合的小样本风机轴承故障诊断方法。首先,采用集合经验... 在风力发电机轴承故障诊断过程中,基于深度学习的故障诊断方法受限于有限的标注样本,存在模型收敛困难和识别准确率较低等问题,为此,提出了一种基于并行卷积神经网络(P-CNN)和特征融合的小样本风机轴承故障诊断方法。首先,采用集合经验模态分解(EEMD)方法,将轴承的原始振动信号分解为若干个本征模态函数(IMF)分量以及残余分量;然后,分别对其进行了短时傅里叶变换(STFT),将其转换为时频特征图,同时构建了多个相同的卷积神经网络分支,以此作为特征提取器;最后,在融合层中,将提取到的时频域特征进行了通道特征融合,作为最终分类器的输入数据,对风机轴承进行了故障识别;并采用美国凯斯西储大学不同大小的轴承数据集,对该方法的适用性和有效性进行了验证。研究结果表明:在仅含有160个样本时,基于并行卷积神经网络(P-CNN)和特征融合的诊断方法的平均准确率高达94.5%;与支持向量机(SVM)、故障网络(FaultNet)、第一层宽卷积核深度卷积神经网络(WDCNN)相比,该诊断方法具有更高的准确率和更强的鲁棒性。 展开更多
关键词 深度学习 集合经验模态分解 短时傅里叶变换 并行卷积神经网络 特征提取 本征模态函数 故障诊断准确率和鲁棒性
下载PDF
基于更快区域卷积神经网络的多视角船舶识别 被引量:3
8
作者 程静 王荣杰 +2 位作者 曾光淼 林安辉 王亦春 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2023年第10期1832-1840,共9页
针对在复杂海洋环境下采集船舶多视角图像难度大、不同视角下船舶外观差异显著的问题,本文以自制的不同类型的多艘船舶的多视角图像为数据集训练更快区域卷积神经网络模型,利用平均F1分数、平均精度和平均误检率作为评价指标评估更快区... 针对在复杂海洋环境下采集船舶多视角图像难度大、不同视角下船舶外观差异显著的问题,本文以自制的不同类型的多艘船舶的多视角图像为数据集训练更快区域卷积神经网络模型,利用平均F1分数、平均精度和平均误检率作为评价指标评估更快区域卷积神经网络模型对不同视角船舶的识别性能,并通过识别不同船舶的F1分数和误检率分析更快区域卷积神经网络对不同质量、背景图像的识别能力。实验结果表明,更快区域卷积神经网络识别多角度船舶的平均F1分数为0.6969,平均精度为92.88%,平均误检率为8.34%,即更快区域卷积神经网络对多视角船舶有较高的识别能力,但对于有雾或昏暗环境下的低像素图像识别能力明显下降。 展开更多
关键词 多视角 船舶识别 视觉图像 更快区域卷积神经网络 目标检测 特征提取 深度学习 低分辨率图像
下载PDF
深度神经网络并行化研究综述 被引量:56
9
作者 朱虎明 李佩 +2 位作者 焦李成 杨淑媛 侯彪 《计算机学报》 EI CSCD 北大核心 2018年第8期1861-1881,共21页
神经网络是人工智能领域的核心研究内容之一.在七十年的发展历史中,神经网络经历了从浅层神经网络到深度神经网络的重要变革.深度神经网络通过增加模型深度来提高其特征提取和数据拟合的能力,在自然语言处理、自动驾驶、图像分析等问题... 神经网络是人工智能领域的核心研究内容之一.在七十年的发展历史中,神经网络经历了从浅层神经网络到深度神经网络的重要变革.深度神经网络通过增加模型深度来提高其特征提取和数据拟合的能力,在自然语言处理、自动驾驶、图像分析等问题上相较浅层模型具有显著优势.随着训练数据规模的增加和模型的日趋复杂,深度神经网络的训练成本越来越高,并行化成为增强其应用时效性的重要技术手段.近年来计算平台的硬件架构更新迭代,计算能力飞速提高,特别是多核众核以及分布式异构计算平台发展迅速,为深度神经网络的并行化提供了硬件基础;另一方面,日趋丰富的并行编程框架也为计算设备和深度神经网络的并行化架起了桥梁.该文首先介绍了深度神经网络发展背景和常用的计算模型,然后对多核处理器、众核处理器和异构计算设备分别从功耗、计算能力、并行算法的开发难度等角度进行对比分析,对并行编程框架分别从支持的编程语言和硬件设备、编程难度等角度进行阐述.然后以AlexNet为例分析了深度神经网络模型并行和数据并行两种方法的实施过程.接下来,从支持硬件、并行接口、并行模式等角度比较了常用的深度神经网络开源软件,并且通过实验比较和分析了卷积神经网络在多核CPU和GPU上的并行性能.最后,对并行深度神经网络的未来发展趋势和面临的挑战进行展望. 展开更多
关键词 深度神经网络 并行计算 异构计算 模型并行 数据并行
下载PDF
基于并行深度卷积神经网络的图像美感分类 被引量:53
10
作者 王伟凝 王励 +3 位作者 赵明权 蔡成加 师婷婷 徐向民 《自动化学报》 EI CSCD 北大核心 2016年第6期904-914,共11页
随着计算机和社交网络的飞速发展,图像美感的自动评价产生了越来越大的需求并受到了广泛关注.由于图像美感评价的主观性和复杂性,传统的手工特征和局部特征方法难以全面表征图像的美感特点,并准确量化或建模.本文提出一种并行深度卷积... 随着计算机和社交网络的飞速发展,图像美感的自动评价产生了越来越大的需求并受到了广泛关注.由于图像美感评价的主观性和复杂性,传统的手工特征和局部特征方法难以全面表征图像的美感特点,并准确量化或建模.本文提出一种并行深度卷积神经网络的图像美感分类方法,从同一图像的不同角度出发,利用深度学习网络自动完成特征学习,得到更为全面的图像美感特征描述;然后利用支持向量机训练特征并建立分类器,实现图像美感分类.通过在两个主流的图像美感数据库上的实验显示,本文方法与目前已有的其他算法对比,获得了更好的分类准确率. 展开更多
关键词 图像美感评估 深度卷积神经网络 并行卷积神经网络 特征提取
下载PDF
基于Im2col的并行深度卷积神经网络优化算法 被引量:9
11
作者 胡健 龚克 +2 位作者 毛伊敏 陈志刚 陈亮 《计算机应用研究》 CSCD 北大核心 2022年第10期2950-2956,2961,共8页
针对大数据环境下并行深度卷积神经网络(DCNN)算法中存在数据冗余特征多、卷积层运算速度慢、损失函数收敛性差等问题,提出了一种基于Im2col方法的并行深度卷积神经网络优化算法IA-PDCNNOA。首先,提出基于Marr-Hildreth算子的并行特征... 针对大数据环境下并行深度卷积神经网络(DCNN)算法中存在数据冗余特征多、卷积层运算速度慢、损失函数收敛性差等问题,提出了一种基于Im2col方法的并行深度卷积神经网络优化算法IA-PDCNNOA。首先,提出基于Marr-Hildreth算子的并行特征提取策略MHO-PFES,提取数据中的目标特征作为卷积神经网络的输入,有效避免了数据冗余特征多的问题;其次,设计基于Im2col方法的并行模型训练策略IM-PMTS,通过设计马氏距离中心值去除冗余卷积核,并结合MapReduce和Im2col方法并行训练模型,提高了卷积层运算速度;最后提出改进的小批量梯度下降策略IM-BGDS,排除异常节点的训练数据对批梯度的影响,解决了损失函数收敛性差的问题。实验结果表明,IA-PDCNNOA算法在大数据环境下进行深度卷积神经网络计算具有较好的性能表现,适用于大规模数据集的并行化深度卷积神经网络模型训练。 展开更多
关键词 大数据 深度卷积神经网络算法 并行计算 特征提取 图像分类
下载PDF
深度卷积神经网络的多GPU并行框架
12
作者 杨宁 《计算机与现代化》 2016年第11期95-98,共4页
近年来,深度卷积神经网络在图像识别和语音识别等领域被广泛运用,取得了很好的效果。深度卷积神经网络是层数较多的卷积神经网络,有数千万参数需要学习,计算开销大,导致训练非常耗时。针对这种情况,本文提出深度卷积神经网络的多GPU并... 近年来,深度卷积神经网络在图像识别和语音识别等领域被广泛运用,取得了很好的效果。深度卷积神经网络是层数较多的卷积神经网络,有数千万参数需要学习,计算开销大,导致训练非常耗时。针对这种情况,本文提出深度卷积神经网络的多GPU并行框架,设计并实现模型并行引擎,依托多GPU的强大协同并行计算能力,结合深度卷积神经网络在训练中的并行特点,实现快速高效的深度卷积神经网络训练。 展开更多
关键词 深度卷积神经网络 GPU 并行框架 图像识别 大数据
下载PDF
基于深度递归级联卷积神经网络的并行磁共振成像方法 被引量:6
13
作者 程慧涛 王珊珊 +5 位作者 柯子文 贾森 程静 丘志浪 郑海荣 梁栋 《波谱学杂志》 CAS 北大核心 2019年第4期437-445,共9页
快速磁共振成像是磁共振研究领域重要的课题之一.随着大数据和深度学习的兴起,神经网络成为快速磁共振技术的重要方法.然而网络性能表现和网络参数量之间较难取得平衡,且对于多通道数据重建的并行成像问题,相关研究较少.本文构建了一种... 快速磁共振成像是磁共振研究领域重要的课题之一.随着大数据和深度学习的兴起,神经网络成为快速磁共振技术的重要方法.然而网络性能表现和网络参数量之间较难取得平衡,且对于多通道数据重建的并行成像问题,相关研究较少.本文构建了一种深度递归级联卷积神经网络结构,用于处理并行成像问题.这种网络结构在减少网络参数量的同时,能够尽可能地提高网络的表达能力,提高网络重建的精确度.实验结果表明,相较于传统并行成像方法,通过训练好的神经网络对欠采样磁共振数据进行重建,可以得到更准确的重建结果,且重建时间大大缩短. 展开更多
关键词 快速磁共振成像 并行成像 深度学习 卷积神经网络 先验信息
下载PDF
多视角声图中水下小目标分类的深度神经网络方法研究 被引量:4
14
作者 朱可卿 田杰 黄海宁 《仪器仪表学报》 EI CAS CSCD 北大核心 2020年第1期206-214,共9页
针对基于多视角声图的水下小目标分类问题,提出了一种深度神经网络多视分类方法。首先,提取声图的阴影区域,计算阴影部分的主轴斜率并匹配出与其相对应的仿真数据集。采用由这些对应仿真数据集训练的卷积神经网络分别对不同视角的待分... 针对基于多视角声图的水下小目标分类问题,提出了一种深度神经网络多视分类方法。首先,提取声图的阴影区域,计算阴影部分的主轴斜率并匹配出与其相对应的仿真数据集。采用由这些对应仿真数据集训练的卷积神经网络分别对不同视角的待分类声图提取深度神经网络特征。将不同视角输出的特征向量组合起来,作为目标的特征向量,利用各个视角匹配的组合所对应的支持向量机对目标的特征向量进行预测。将分类器用于对湖、海试采集的多视角声图分类,平均正确率为93.33%,相比采用卷积神经网络、支持向量机的单视角分类方法,分别有不同程度的提升。 展开更多
关键词 高分辨率声纳成像 多视角声图 深度神经网络 水下小目标分类
下载PDF
一种基于差分进化改进的深度神经网络并行化方法 被引量:5
15
作者 朱光宇 谢在鹏 朱跃龙 《小型微型计算机系统》 CSCD 北大核心 2020年第11期2249-2255,共7页
深度神经网络在多个领域应用广泛,但随着数据量的增长以及模型复杂度的提高,造成的影响是训练效率和模型精度的下降,对于深度神经网络的并行化研究可以有效解决这一问题.在现有分布式环境下进行数据并行化训练是神经网络并行化的一种有... 深度神经网络在多个领域应用广泛,但随着数据量的增长以及模型复杂度的提高,造成的影响是训练效率和模型精度的下降,对于深度神经网络的并行化研究可以有效解决这一问题.在现有分布式环境下进行数据并行化训练是神经网络并行化的一种有效方案,但其存在全局模型精度不佳、节点计算能力不平衡的问题.针对以上问题,本文提出了一种基于差分进化改进的深度神经网络并行化方法DE-DNN.DE-DNN利用差分进化方法对并行训练过程中获取全局模型的关键步骤进行改进和优化;同时提出一种基于批处理的自适应数据分配算法BSDA,减少并行训练过程中由于计算节点能力不平衡而造成的节点额外等待时间.实验基于NiN深度网络模型对本文提出的方法进行了实现并在CIFAR-10和CIFAR-100数据集上进行测试.实验结果表明,DE-DNN可以有效提高并行训练过程中全局模型的分类准确率,加快收敛速度;BSDA数据分配算法能够合理根据各节点的计算能力分配适量数据,减少训练过程中因节点等待产生的额外时间开销. 展开更多
关键词 深度神经网络 并行 差分进化 自适应
下载PDF
深度神经网络轧制力建模及其并行优化研究 被引量:2
16
作者 刘翰培 汪宇轩 +1 位作者 王亚琴 罗小川 《控制工程》 CSCD 北大核心 2022年第8期1379-1386,共8页
冷连轧过程控制的轧制力模型是整个轧制过程计算机控制的基础。为提高5机架2030冷连轧系统轧制力模型的精度和适用性,提出了多输入多输出深度神经网络轧制力模型的数据预处理、建模和并行优化方法。对含有不同隐含层数和节点数的神经网... 冷连轧过程控制的轧制力模型是整个轧制过程计算机控制的基础。为提高5机架2030冷连轧系统轧制力模型的精度和适用性,提出了多输入多输出深度神经网络轧制力模型的数据预处理、建模和并行优化方法。对含有不同隐含层数和节点数的神经网络,采用不同训练算法(SCG算法和L-M算法)与不同优化方法(多线程CPU、单GPU和多线程CPU+GPU),研究了神经网络结构、训练算法和优化方法对神经网络轧制力模型的性能、训练时长、线性相关系数的影响。研究结果表明:含有2个隐含层、采用L-M算法和多线程CPU优化方法可获得综合性能最优的神经网络轧制力模型;神经网络轧制力模型的计算误差远小于在线使用的Siemens轧制力模型的计算误差。 展开更多
关键词 深度神经网络轧制力模型 L-M算法 SCG算法 并行优化 轧制力模型
下载PDF
切比雪夫逼近的深度神经网络并行加速 被引量:1
17
作者 李方舒 钱慧 陈晓旭 《小型微型计算机系统》 CSCD 北大核心 2020年第10期2206-2211,共6页
深度神经网络(Deep Neural Network,DNN)中数据量巨大,且卷积层计算复杂度高,使得其难以在资源有限的嵌入式GPU上进行部署,因此需要对其进行并行加速设计.本文提出采用切比雪夫多项式对卷积核进行逼近,并将该优化方案应用在面向图像重构... 深度神经网络(Deep Neural Network,DNN)中数据量巨大,且卷积层计算复杂度高,使得其难以在资源有限的嵌入式GPU上进行部署,因此需要对其进行并行加速设计.本文提出采用切比雪夫多项式对卷积核进行逼近,并将该优化方案应用在面向图像重构的DNN中以实现卷积操作的并行化处理,降低计算复杂度.然后为优化后的网络卷积层进行基于GPU的并行加速设计,最后将网络整体移植到NVIDIA AGX Xavier嵌入式开发板上来实现图像的重构推理过程.实验结果表明,并行加速后的网络重构推理的速度是原始网络的2.2倍. 展开更多
关键词 深度神经网络 图像重构 并行计算 嵌入式GPU 切比雪夫逼近
下载PDF
基于多GPU的深度神经网络训练算法 被引量:8
18
作者 顾乃杰 赵增 +1 位作者 吕亚飞 张致江 《小型微型计算机系统》 CSCD 北大核心 2015年第5期1042-1046,共5页
深度学习由于出色的识别效果在模式识别及机器学习领域受到越来越多的关注.作为深度神经网络算法的重要组成部分,误差反向传播算法的执行效率已经成为制约深度学习领域发展的瓶颈.提出一种基于Tesla K10 GPU的误差反向传播算法,该算法... 深度学习由于出色的识别效果在模式识别及机器学习领域受到越来越多的关注.作为深度神经网络算法的重要组成部分,误差反向传播算法的执行效率已经成为制约深度学习领域发展的瓶颈.提出一种基于Tesla K10 GPU的误差反向传播算法,该算法具有负载均衡,可扩展性高的特点.本算法充分利用PCI-E3.0传输特性,并结合peer-to-peer以及异步传输的特性以降低计算任务在划分和合并过程中带来的额外开销.除此之外,文章通过对算法流程的重构,实现算法数据相关性的解耦合,从而使得有更多的计算任务可用来掩盖传输过程.实验证明,该算法拥有双卡超过1.87的并行加速比,且算法执行过程中不会引入计算误差,可有效保证训练过程中的收敛效率,拥有理想的并行加速效果. 展开更多
关键词 深度学习 神经网络 GPGPU 并行算法
下载PDF
基于深度神经网络与MPI并行计算的人脸识别算法研究 被引量:2
19
作者 柏涛涛 《西安文理学院学报(自然科学版)》 2020年第2期62-67,共6页
针对实际环境中干扰因素多和计算量大,导致人脸识别准确度下降和系统算力不足的问题,提出了一种基于深度神经网络与MPI并行计算的人脸识别算法.首先,分析深度神经网络模型,设计关键训练步骤,同时收集各类人脸图像,建立训练样本库.然后,... 针对实际环境中干扰因素多和计算量大,导致人脸识别准确度下降和系统算力不足的问题,提出了一种基于深度神经网络与MPI并行计算的人脸识别算法.首先,分析深度神经网络模型,设计关键训练步骤,同时收集各类人脸图像,建立训练样本库.然后,结合深度神经网络模型,对样本库数据进行训练,生成识别框架,并借助TensorFlow开源模型与Python来实现算法,进而达到识别人脸的目的.最后,基于MPI并行计算技术,搭建高性能并行计算平台,对所提算法进行分段优化与集成,实现识别系统的高速计算效率.实验测试结果显示:与已有的相关识别技术相比,所提算法具有更高的人脸识别准确度与抗干扰能力,从而可为高端智能监控系统提供技术基础. 展开更多
关键词 深度神经网络 MPI TensorFlow 人脸识别 高性能并行计算
下载PDF
多尺度并行融合的轻量级卷积神经网络设计 被引量:3
20
作者 范瑞 蒋品群 +3 位作者 曾上游 夏海英 廖志贤 李鹏 《广西师范大学学报(自然科学版)》 CAS 北大核心 2019年第3期50-59,共10页
针对传统深度卷积神经网络分类精度不佳,参数量巨大,难以在内存受限的设备上进行部署的问题,本文提出了一种多尺度并行融合的轻量级卷积神经网络架构PL-Net。首先,将上层输出特征图分别送入两种不同尺度的深度可分离卷积层;然后对并行... 针对传统深度卷积神经网络分类精度不佳,参数量巨大,难以在内存受限的设备上进行部署的问题,本文提出了一种多尺度并行融合的轻量级卷积神经网络架构PL-Net。首先,将上层输出特征图分别送入两种不同尺度的深度可分离卷积层;然后对并行输出特征信息进行交叉融合,并加入残差学习,设计了一种并行轻量型模块PL-Module;同时,为了更好地提取特征信息,利用尺度降维卷积模块SR-Module来替换传统池化层;最后将上述两个模块相互堆叠构建轻量级网络。在CIFAR10、Caltech256和101_food数据集上进行训练与测试,结果表明:与同等规模的传统CNN、MobileNet-V2网络及SqueezeNet网络相比,PL-Net在减少网络参数的同时,提升了网络的分类精度,适合在内存受限的设备上进行部署。 展开更多
关键词 卷积神经网络 深度可分离卷积 残差学习 并行卷积
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部