期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
一种高性能可重构深度卷积神经网络加速器 被引量:6
1
作者 乔瑞秀 陈刚 +1 位作者 龚国良 鲁华祥 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2019年第3期130-139,共10页
由于深度卷积神经网络的卷积层通道规模及卷积核尺寸多样,现有加速器面对这些多样性很难实现高效计算。为此,基于生物脑神经元机制提出了一种深度卷积神经网络加速器。该加速器拥有类脑神经元电路的多种分簇方式及链路组织方式,可以应... 由于深度卷积神经网络的卷积层通道规模及卷积核尺寸多样,现有加速器面对这些多样性很难实现高效计算。为此,基于生物脑神经元机制提出了一种深度卷积神经网络加速器。该加速器拥有类脑神经元电路的多种分簇方式及链路组织方式,可以应对不同通道规模。设计了3种卷积计算映射,可以应对不同卷积核大小;实现了局部存储区数据的高效复用,可大量减少数据搬移,提高了计算性能。分别以目标分类和目标检测网络进行测试,该加速器的计算性能分别达498.6×10^9次/秒和571.3×10^9次/秒;能效分别为582.0×10^9次/(秒·瓦)和651.7×10^9次/(秒·瓦)。 展开更多
关键词 深度神经网络 加速器 可重构结构 高性能 超大规模集成电路
下载PDF
一种面向卷积神经网络加速器的高性能乘累加器 被引量:3
2
作者 孔鑫 陈刚 +2 位作者 龚国良 鲁华祥 毛文宇 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2020年第4期55-63,93,共10页
针对现有卷积神经网络加速器中的乘累加器普遍存在的面积大、功耗高、速度慢的问题,设计了一种基于传输门结构的全定制高性能乘累加器。提出了一种适用于乘累加器的新型累加数据压缩结构,减少了硬件开销;提出了一种新的并行加法器架构,... 针对现有卷积神经网络加速器中的乘累加器普遍存在的面积大、功耗高、速度慢的问题,设计了一种基于传输门结构的全定制高性能乘累加器。提出了一种适用于乘累加器的新型累加数据压缩结构,减少了硬件开销;提出了一种新的并行加法器架构,在与Brent Kung加法器相同硬件开销的情况下,降低了门延迟级数,提高了计算速度;利用传输门的优点对乘累加器各单元电路进行优化设计。基于笔者方法设计的16乘8定点数高性能乘累加器在SMIC 130nm tt工艺角下关键路径延迟为1.173ns,版图面积为9049.41μm2,800MHz下平均功耗为4.153mW。对比传统的乘累加器,速度约提高了37.42%,面积约减小了47.87%,在同等条件下功耗约降低了56.77%。 展开更多
关键词 乘累加器 传输门 累加压缩 卷积神经网络 高性能
下载PDF
PG-RNN:一种基于递归神经网络的密码猜测模型 被引量:4
3
作者 滕南君 鲁华祥 +2 位作者 金敏 叶俊彬 李志远 《智能系统学报》 CSCD 北大核心 2018年第6期889-896,共8页
用户名—密码(口令)是目前最流行的用户身份认证方式,鉴于获取真实的大规模密码明文非常困难,利用密码猜测技术来生成大规模密码集,可以评估密码猜测算法效率、检测现有用户密码保护机制的缺陷等,是研究密码安全性的主要方法。本文提出... 用户名—密码(口令)是目前最流行的用户身份认证方式,鉴于获取真实的大规模密码明文非常困难,利用密码猜测技术来生成大规模密码集,可以评估密码猜测算法效率、检测现有用户密码保护机制的缺陷等,是研究密码安全性的主要方法。本文提出了一种基于递归神经网络的密码猜测概率模型(password guessing RNN, PG-RNN),区别于传统的基于人为设计规则的密码生成方法,递归神经网络能够自动地学习到密码集本身的分布特征和字符规律。因此,在泄露的真实用户密码集上训练后的递归神经网络,能够生成非常接近训练集真实数据的密码,避免了人为设定规则来破译密码的局限性。实验结果表明,PG-RNN生成的密码在结构字符类型、密码长度分布上比Markov模型更好地接近原始训练数据的分布特征,同时在真实密码匹配度上,本文提出的PG-RNN模型比目前较好的基于生成对抗网络的PassGAN模型提高了1.2%。 展开更多
关键词 密码生成 深度学习 递归神经网络 MARKOV 密码猜测
下载PDF
一种高效的稀疏卷积神经网络加速器的设计与实现 被引量:2
4
作者 余成宇 李志远 +1 位作者 毛文宇 鲁华祥 《智能系统学报》 CSCD 北大核心 2020年第2期323-333,共11页
针对卷积神经网络计算硬件化实现困难的问题,之前大部分卷积神经网络加速器的设计都集中于解决计算性能和带宽瓶颈,忽视了卷积神经网络稀疏性对加速器设计的重要意义,近来少量的能够利用稀疏性的卷积神经网络加速器设计也往往难以同时... 针对卷积神经网络计算硬件化实现困难的问题,之前大部分卷积神经网络加速器的设计都集中于解决计算性能和带宽瓶颈,忽视了卷积神经网络稀疏性对加速器设计的重要意义,近来少量的能够利用稀疏性的卷积神经网络加速器设计也往往难以同时兼顾计算灵活度、并行效率和资源开销。本文首先比较了不同并行展开方式对利用稀疏性的影响,分析了利用稀疏性的不同方法,然后提出了一种能够利用激活稀疏性加速卷积神经网络计算的同时,相比于同领域其他设计,并行效率更高、额外资源开销更小的并行展开方法,最后完成了这种卷积神经网络加速器的设计并在FPGA上实现。研究结果表明:运行VGG-16网络,在ImageNet数据集下,该并行展开方法实现的稀疏卷积神经网络加速器和使用相同器件的稠密网络设计相比,卷积性能提升了108.8%,整体性能提升了164.6%,具有明显的性能优势。 展开更多
关键词 卷积神经网络 稀疏性 嵌入式FPGA ReLU 硬件加速 并行计算 深度学习
下载PDF
一种高效的Softmax函数计算方法及硬件电路
5
作者 刘海莹 乔瑞秀 +2 位作者 陈刚 鲁华祥 申荣铉 《微电子学与计算机》 2024年第2期91-100,共10页
针对现有Softmax函数硬件实现中存在的面积消耗大、速度慢、计算效率低等问题,设计一种高效的Softmax函数计算方法及硬件电路。提出一种稀疏化最大值计算方式,仅选择有效的输入值进行计算和存储,并采用动态移位更新最大值的方式将最大... 针对现有Softmax函数硬件实现中存在的面积消耗大、速度慢、计算效率低等问题,设计一种高效的Softmax函数计算方法及硬件电路。提出一种稀疏化最大值计算方式,仅选择有效的输入值进行计算和存储,并采用动态移位更新最大值的方式将最大值求取隐藏在流水线中,提高计算效率;优化分段线性拟合算法,避免乘法器的使用,减少了硬件资源开销。基于现场可编程门阵列(Field-Programmable Gate Array,FPGA)的语音识别实验的结果表明,本方法减少了60%的指数存储需求,同时减少了50%的Softmax计算时间。在45 nm互补金属氧化物半导体(Complementary Metal Oxide Semiconductor,CMOS)工艺下的逻辑综合实验表明,所实现的Softmax函数相较之前的工作,电路综合性能提升14%,面积减小51%。 展开更多
关键词 Softmax函数 分段线性拟合 稀疏计算方式 深度神经网络
下载PDF
基于局部区域动态覆盖的3D点云分类方法 被引量:1
6
作者 王昌硕 王含 +2 位作者 宁欣 田生伟 李卫军 《软件学报》 EI CSCD 北大核心 2023年第4期1962-1976,共15页
局部几何形状的描述能力,对不规则的点云形状表示是十分重要的.然而,现有的网络仍然很难有效地捕捉准确的局部形状信息.在点云中模拟深度可分离卷积计算方式,提出一种新型的动态覆盖卷积(dynamic cover convolution, DC-Conv),以聚合局... 局部几何形状的描述能力,对不规则的点云形状表示是十分重要的.然而,现有的网络仍然很难有效地捕捉准确的局部形状信息.在点云中模拟深度可分离卷积计算方式,提出一种新型的动态覆盖卷积(dynamic cover convolution, DC-Conv),以聚合局部特征. DC-Conv的核心是空间覆盖算子(space cover operator, SCOP),该算子通过在局部区域中构建各向异性的空间几何体覆盖局部特征空间,以加强局部特征的紧凑性.DC-Conv通过在局部邻域中动态组合多个SCOP,实现局部形状的捕捉.其中,SCOP的注意力系数通过数据驱动的方式由点位置自适应地学习得到.在3D点云形状识别基准数据集ModelNet40, ModelNet10和ScanObjectNN上的实验结果表明,该方法能有效提高3D点云形状识别的性能和对稀疏点云的鲁棒性.最后,也提供了充分的消融实验验证该方法的有效性.开源代码发布在https://github.com/changshuowang/DC-CNN. 展开更多
关键词 点云分类 动态覆盖卷积 空间覆盖算子 局部邻域 注意力系数
下载PDF
基于深度确定性策略梯度的粒子群算法 被引量:5
7
作者 鲁华祥 尹世远 +2 位作者 龚国良 刘毅 陈刚 《电子科技大学学报》 EI CAS CSCD 北大核心 2021年第2期199-206,共8页
在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分... 在传统的粒子群优化算法(PSO)中,所有粒子都遵循最初设定的一些参数进行自我探索,这种方案容易导致过早成熟,且易被困于局部最优点。针对以上问题,该文提出了一种基于深度确定性策略梯度的粒子群优化算法(DDPGPSO),通过构造神经网络分别实现了动作函数和动作价值函数,且利用神经网络可以动态地生成算法运行所需要的参数,降低了人工配置算法的难度。实验表明DDPGPSO相比9种同类算法在收敛速度和寻优精度上均有较大的提升。 展开更多
关键词 自适应惯性权值 收敛因子 深度确定性策略梯度算法 强化学习 群体智能 粒子群优化算法
下载PDF
基于注意力机制的显著性目标检测方法 被引量:5
8
作者 王凯诚 鲁华祥 +1 位作者 龚国良 陈刚 《智能系统学报》 CSCD 北大核心 2020年第5期956-963,共8页
针对目前主流的基于全卷积神经网络的显著性目标检测方法,受限于卷积层感受野大小,低层特征缺少全局性的信息,而高层特征由于多次池化操作分辨率较低,无法准确地预测目标边缘等细节的问题,本文提出了基于注意力的显著性目标检测方法。在... 针对目前主流的基于全卷积神经网络的显著性目标检测方法,受限于卷积层感受野大小,低层特征缺少全局性的信息,而高层特征由于多次池化操作分辨率较低,无法准确地预测目标边缘等细节的问题,本文提出了基于注意力的显著性目标检测方法。在ResNet-50网络中加入注意力精炼模块,利用训练样本的显著真值图对空间注意力进行有监督的学习,使得不同像素位置的相关性更准确。通过深度融合多尺度的特征,用低层特征优化高层特征,精修网络的预测结果使其更加准确。在DUT-OMRON和ECSSD数据集上的测试结果显示,本文方法能显著提升检测效果,F-measure和平均绝对误差都优于其他同类方法。 展开更多
关键词 显著性目标检测 深度学习 全卷积神经网络 视觉注意力 多尺度特征 图像处理 人工智能 计算机视觉
下载PDF
融合简化稀疏A~*算法与模拟退火算法的无人机航迹规划 被引量:9
9
作者 杨玉 金敏 鲁华祥 《计算机系统应用》 2019年第4期25-31,共7页
针对无人机航迹规划问题,提出了一种融合简化稀疏A~*算法与模拟退火算法(Fusion of Simplified Sparse A~*Algorithm and Simulated Annealing algorithm,简称FSSA-SA)的航迹规划方法.首先,在对威胁环境进行建模之后,将模拟退火思想与... 针对无人机航迹规划问题,提出了一种融合简化稀疏A~*算法与模拟退火算法(Fusion of Simplified Sparse A~*Algorithm and Simulated Annealing algorithm,简称FSSA-SA)的航迹规划方法.首先,在对威胁环境进行建模之后,将模拟退火思想与具体航迹规划问题求解相结合,给出了模拟退火算法求解航迹规划问题的具体设计与实现方法.其次,利用简化的稀疏A~*算法在规划起止点之间进行一次往返搜索,并将所得结果中较优的一条航迹作为模拟退火算法的初始解,实现了两种算法的融合.然后,当退火进行至低温区时,通过对位置存在冗余的航迹节点的剔除,进一步改善了算法的求解质量.最后为了验证算法的优越性,将本文算法与稀疏A~*算法、模拟退火算法进行了仿真对比试验.试验结果表明,本文提出的FSSA-SA算法相比于上述两种算法,具有较少的规划耗时;相比于稀疏A~*算法,在所得航迹的综合代价相差不大的情况下,内存占用量少了两个量级;相比与模拟退火算法,在相同的退火条件下,其规划所得航迹的综合代价平均减少了35%左右. 展开更多
关键词 无人机 航迹规划 融合 稀疏A~*算法 模拟退火算法
下载PDF
基于DCORDIC算法的Tanh函数硬件设计与实现 被引量:2
10
作者 吴绮 金楚丰 +2 位作者 陈刚 鲁华祥 陈旭 《微电子学与计算机》 北大核心 2020年第12期22-26,32,共6页
双曲正切函数(Tanh)在神经网络中经常被用作激活函数,而其非线性的特点导致难以用硬件电路直接计算实现.为了快速有效的实现Tanh函数,提出采用DCORDIC(Differential Coordinate Rotation Digital Computer)算法在不同模式下实现双曲正... 双曲正切函数(Tanh)在神经网络中经常被用作激活函数,而其非线性的特点导致难以用硬件电路直接计算实现.为了快速有效的实现Tanh函数,提出采用DCORDIC(Differential Coordinate Rotation Digital Computer)算法在不同模式下实现双曲正弦、双曲余弦函数和除法运算,并在设计中增加选择模块扩大输入数据的范围,最终设计实现的Tanh计算核具有超长流水线,当迭代次数为13时,计算误差在2-8以内.与现有的硬件实现方式相比,本文的实现方式具有更小的误差、更高的运算速度和更大的吞吐率. 展开更多
关键词 双曲正切函数 DCORDIC算法 流水线 吞吐率
下载PDF
基于二阶近似和误差补偿的Tanh函数硬件实现 被引量:1
11
作者 张博文 陈刚 +1 位作者 陈旭 鲁华祥 《微电子学》 CAS 北大核心 2021年第6期905-909,共5页
为改善目前激活函数Tanh硬件化时资源消耗大,精度低的问题,提出了一种二阶近似和误差补偿相结合的Tanh函数近似算法。该方法首先对传统二阶近似函数的系数进行log;变换,以便于硬件实现。然后根据近似函数的误差曲线,划分补偿区间,以提... 为改善目前激活函数Tanh硬件化时资源消耗大,精度低的问题,提出了一种二阶近似和误差补偿相结合的Tanh函数近似算法。该方法首先对传统二阶近似函数的系数进行log;变换,以便于硬件实现。然后根据近似函数的误差曲线,划分补偿区间,以提高函数精度。在此基础上设计了可硬件实现Tanh函数的电路结构,在ModelSim平台下进行功能仿真,并在SMIC 0.18μm工艺下进行逻辑综合。实验结果表明,所实现电路的最大绝对误差为0.007 8,是8 bit输出位宽所能表示的最高精度。 展开更多
关键词 Tanh函数 二阶近似 硬件实现 人工神经网络
下载PDF
一种面向室内环境变动的人员目标无源定位算法 被引量:1
12
作者 刘嘉伟 毛文宇 鲁华祥 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2021年第8期39-48,124,共11页
现有的基于接收信号强度(RSS)的人员目标无源室内定位算法在定位环境变动的情况下难以兼顾人工工作量、时间消耗和定位准确率。针对这个问题,本文提出了基于迁移聚类和坐标融合的变分自编码器(FusVAE)的室内环境变动下人员目标无源定位... 现有的基于接收信号强度(RSS)的人员目标无源室内定位算法在定位环境变动的情况下难以兼顾人工工作量、时间消耗和定位准确率。针对这个问题,本文提出了基于迁移聚类和坐标融合的变分自编码器(FusVAE)的室内环境变动下人员目标无源定位算法。在环境变动后,采集少量无标签RSS样本,然后使用本文提出的基于度量学习的半监督模糊C均值聚类(SFCMML)对其进行精确聚类和标签标注,对原有的定位模型进行重训练,只需很小的人工和时间代价就可以使原定位模型在新环境下也具有较高的定位准确率。同时,针对变动后环境下采集RSS样本较少的问题,本文提出了基于坐标融合的变分自编码器(FusVAE),对新环境下的RSS样本进行数据增强,丰富了RSS样本的数量和质量,提高了定位模型的泛化能力。实验结果表明,在环境变动的情况下,本文提出的算法的平均定位准确率可达88.6%,和同领域同类型算法相比,具有较高的定位精度和较好的环境变动适应性,更适用于变动环境下的人员目标无源室内定位问题。 展开更多
关键词 无源室内定位 RSS 机器学习 迁移学习 变分自编码器
下载PDF
基于GA-IPF的PCMA信号盲分离算法
13
作者 张珊珊 陈刚 +1 位作者 鲁华祥 邓琪 《计算机系统应用》 2019年第9期196-202,共7页
针对非合作接收PCMA信号盲分离问题,提出一种遗传改进粒子滤波算法(Improved Particle Filtering based on Genetic Algorithm,GA-IPF).该算法以粒子滤波的算法框架为基础,建立多个状态空间分布以逼近真实后验概率密度;同时引入遗传算... 针对非合作接收PCMA信号盲分离问题,提出一种遗传改进粒子滤波算法(Improved Particle Filtering based on Genetic Algorithm,GA-IPF).该算法以粒子滤波的算法框架为基础,建立多个状态空间分布以逼近真实后验概率密度;同时引入遗传算法替代重采样产生新粒子,增加粒子多样性,避免了重采样过程中的粒子耗尽问题.仿真实验表明,该算法载噪比为9 dB时,分离准确率达到95%,与QRD-M Gibbs等算法相比,信号捕获能力提高4 dB,且算法复杂度降低近60%. 展开更多
关键词 PCMA 状态空间分布 粒子滤波 遗传算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部