期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
一种基于视觉注意力机制的深度循环Q网络模型 被引量:20
1
作者 刘全 翟建伟 +3 位作者 钟珊 章宗长 周倩 章鹏 《计算机学报》 EI CSCD 北大核心 2017年第6期1353-1366,共14页
由现代强化学习和深度学习相结合形成的深度强化学习方法是目前人工智能领域一个新的研究热点,已经在各种需要感知高维度原始输入数据和决策控制的任务中取得了实质性的突破.尤其是一种被称为深度Q网络的模型在处理诸如Atari 2600游戏... 由现代强化学习和深度学习相结合形成的深度强化学习方法是目前人工智能领域一个新的研究热点,已经在各种需要感知高维度原始输入数据和决策控制的任务中取得了实质性的突破.尤其是一种被称为深度Q网络的模型在处理诸如Atari 2600游戏这类趋于真实环境的复杂问题时表现出了和人类玩家相媲美的水平.然而,当存在有延迟的奖赏而导致需要长时间步规划才能优化策略的情形中,深度Q网络的表现就会急剧下降.这说明深度Q网络并不擅长解决战略性深度强化学习任务.针对此问题,文中使用带视觉注意力机制的循环神经网络改进了传统的深度Q网络模型,提出了一种较为完善的深度强化学习模型.新模型的关键思想有两点:一是使用双层门限循环单元构成的循环神经网络模块来记忆较长时间步内的历史信息.这使得Agent能够及时使用有延迟的反馈奖赏来正确地指导下一步的动作选择;二是通过视觉注意力机制自适应地将注意力集中于面积较小但更具价值的图像区域,从而使得Agent能够更加高效地学习近似最优策略.该文通过选取一些经典的Atari 2600战略性游戏作为实验对象来评估新模型的有效性.实验结果表明,与传统的深度强化学习模型相比,新模型在一些战略性任务上具有很好的性能表现和较高的稳定性. 展开更多
关键词 深度学习 强化学习 深度强化学习 深度Q学习 循环神经网络 视觉注意力机制 人工智能
下载PDF
基于视觉注意力机制的异步优势行动者-评论家算法 被引量:1
2
作者 李杰 凌兴宏 +1 位作者 伏玉琛 刘全 《计算机科学》 CSCD 北大核心 2019年第5期169-174,共6页
异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想。针对此问题,文中... 异步深度强化学习能够通过多线程技术极大地减少学习模型所需要的训练时间。然而作为异步深度强化学习的一种经典算法,异步优势行动者-评论家算法没有充分利用某些具有重要价值的区域信息,网络模型的学习效率不够理想。针对此问题,文中提出一种基于视觉注意力机制的异步优势行动者-评论家模型。该模型在传统异步优势行动者-评论家算法的基础上引入了视觉注意力机制,通过计算图像各区域点的视觉重要性值,利用回归、加权等操作得到注意力机制的上下文向量,从而使Agent将注意力集中于面积较小但更具丰富价值的图像区域,加快网络模型解码速度,更高效地学习近似最优策略。实验结果表明,与传统的异步优势行动者-评论家算法相比,该模型在基于视觉感知的决策任务上具有更好的性能表现。 展开更多
关键词 异步深度强化学习 视觉注意力机制 行动者-评论家 异步优势行动者-评论家
下载PDF
基于一种视觉注意力机制的图像描述方法 被引量:1
3
作者 薛炜 刘惠义 《信息技术》 2020年第1期63-66,共4页
为了提高由图像生成文字描述的准确率,文中提出了一种基于传统的编码解码框架,分别在编码端和解码端融入视觉注意力机制的方法,即在编码端加入空间注意力机制和图像通道级注意力机制相结合的方法。在解码端运用自适应视觉注意力机制的方... 为了提高由图像生成文字描述的准确率,文中提出了一种基于传统的编码解码框架,分别在编码端和解码端融入视觉注意力机制的方法,即在编码端加入空间注意力机制和图像通道级注意力机制相结合的方法。在解码端运用自适应视觉注意力机制的方法,即在传统的解码端上加入一个额外的“视觉哨兵”模块。文中提出的方法在生成文字描述的过程中自动决定是依赖图像特征还是依赖语义特征,并传递给相应的注意力机制。实验证明,相比较单一的视觉注意力机制,文中方法取得了较高的图像描述语句的正确率,具有更好的图像描述性能。 展开更多
关键词 图像描述 空间注意力机制 通道级注意力机制 视觉哨兵 视觉注意力机制
下载PDF
基于视觉注意力的图文跨模态情感分析 被引量:1
4
作者 王法玉 郝攀征 《计算机工程与设计》 北大核心 2024年第2期601-607,共7页
针对单模态情感分析无法完全捕获情感信息的问题,提出一种图像和文本跨模态情感分析模型(BERT-VistaNet),该模型没有直接使用视觉信息作为特征,而是利用视觉信息作为对齐方式,使用注意力机制指出文本中重要的句子,得到基于视觉注意力的... 针对单模态情感分析无法完全捕获情感信息的问题,提出一种图像和文本跨模态情感分析模型(BERT-VistaNet),该模型没有直接使用视觉信息作为特征,而是利用视觉信息作为对齐方式,使用注意力机制指出文本中重要的句子,得到基于视觉注意力的文档表示。对于视觉注意力无法完全覆盖的文本内容,使用BERT模型对文本进行情感分析,得到基于文本的文档表示,将特征进行融合应用于情感分类任务。在Yelp公开餐厅数据集上,该模型相比基线模型TFN-aVGG,准确率提高了43%,相比VistaNet模型准确率提高了1.4%。 展开更多
关键词 情感分析 视觉注意力机制 跨模态 深度学习 特征融合 预训练模型 双向门控单元
下载PDF
基于视觉自注意力机制的图像描述系统设计 被引量:1
5
作者 胡今朝 《信息与电脑》 2020年第17期77-79,共3页
现有基于深度学习的注意力机制的图像描述算法往往会过分关注输入图像中的主要对象,这会导致生成的描述产生细节缺失和单词重复的缺陷。笔者采用视觉自注意力机制来避免模型在不同时间将注意力重复集中在相同内容上。系统首先通过目标... 现有基于深度学习的注意力机制的图像描述算法往往会过分关注输入图像中的主要对象,这会导致生成的描述产生细节缺失和单词重复的缺陷。笔者采用视觉自注意力机制来避免模型在不同时间将注意力重复集中在相同内容上。系统首先通过目标检测算法Faster R-CNN获取实体的矩形边界,紧接着提取出各矩形区域及整张图片的特征向量,然后通过视觉自注意力机制处理特征向量得到图像的特征表示,最后将图像特征输入给由双层LSTM组成的语言模型,由语言模型输出图像的自然语言描述。本文选用图像描述领域最大的数据集Microsoft COCO验证设计系统的有效性,实验结果表明基于视觉自注意力机制的图像描述系统能够有效地抓住图像细节,生成通顺的描述语句。 展开更多
关键词 深度学习 注意力机制 图像描述 视觉注意力机制 目标检测 语言模型
下载PDF
结合引导解码和视觉注意力的图像语义描述模型 被引量:2
6
作者 马坤阳 林金朝 庞宇 《计算机应用研究》 CSCD 北大核心 2020年第11期3504-3506,3515,共4页
针对输入的图像视觉信息不能在每一步解码过程中动态调整,同时为了提高图像语义描述模型的精度和泛化能力,提出了一种结合引导解码和视觉注意力机制的双层长短时记忆(long short term memory,LSTM)网络的图像语义描述模型。将提取到的... 针对输入的图像视觉信息不能在每一步解码过程中动态调整,同时为了提高图像语义描述模型的精度和泛化能力,提出了一种结合引导解码和视觉注意力机制的双层长短时记忆(long short term memory,LSTM)网络的图像语义描述模型。将提取到的图像的视觉和目标特征通过一个引导网络建模后送入LSTM网络的每一时刻,实现端到端的训练过程;同时设计了基于图像通道特征的视觉注意力机制,提高了模型对图像细节部分的描述。利用MSCOCO和Flickr30k数据集对模型进行了训练和测试,结果显示模型性能在不同的评价指标上都得到了提升。 展开更多
关键词 图像描述 多示例学习 引导解码 视觉注意力机制
下载PDF
融合轻量化网络与注意力机制的果园环境下苹果检测方法 被引量:7
7
作者 胡广锐 周建国 +5 位作者 陈超 李传林 孙丽娟 陈雨 张硕 陈军 《农业工程学报》 EI CAS CSCD 北大核心 2022年第19期131-142,F0003,共13页
为提高复杂果园环境下苹果检测的综合性能,降低检测模型大小,通过对单阶段检测网络YOLOX-Tiny的拓扑结构进行了优化与改进,提出了一种适用于复杂果园环境下轻量化苹果检测模型(Lightweight Apple Detection YOLOX-Tiny Network,Lad-YXN... 为提高复杂果园环境下苹果检测的综合性能,降低检测模型大小,通过对单阶段检测网络YOLOX-Tiny的拓扑结构进行了优化与改进,提出了一种适用于复杂果园环境下轻量化苹果检测模型(Lightweight Apple Detection YOLOX-Tiny Network,Lad-YXNet)。该模型引入高效通道注意力(Efficient Channel Attention,ECA)和混洗注意力(Shuffle Attention,SA)两种轻量化视觉注意力模块,构建了混洗注意力与双卷积层(Shuffle Attention and Double Convolution Layer,SDCLayer)模块,提高了检测模型对背景与果实特征的提取能力,并通过测试确定Swish与带泄露修正线性单元(Leaky Rectified Linear Unit,Leaky-ReLU)作为主干与特征融合网络的激活函数。通过消融试验探究了Mosaic增强方法对模型训练的有效性,结果表明图像长宽随机扭曲对提高模型综合检测性能贡献较高,但图像随机色域变换由于改变训练集中苹果的颜色,使模型检测综合性能下降。为提高模型检测苹果的可解释性,采用特征可视化技术提取了Lad-YXNet模型的主干、特征融合网络和检测网络的主要特征图,探究了Lad-YXNet模型在复杂自然环境下检测苹果的过程。Lad-YXNet经过训练在测试集下的平均精度为94.88%,分别比SSD、YOLOV4-Tiny、YOLOV5-Lite和YOLOX-Tiny模型提高了3.10个百分点、2.02个百分点、2.00个百分点和0.51个百分点。Lad-YXNet检测一幅图像的时间为10.06 ms,模型大小为16.6 MB,分别比YOLOX-Tiny减少了20.03%与18.23%。该研究为苹果收获机器人在复杂果园环境下准确、快速地检测苹果提供了理论基础。 展开更多
关键词 图像处理 可视化 苹果检测 收获机器人 卷积网络 视觉注意力机制
下载PDF
基于视觉注意力和FCA的古建筑图像语义完备 被引量:1
8
作者 牛少刚 张素兰 张继福 《计算机技术与发展》 2022年第9期214-220,共7页
准确完备的古建筑图像语义不仅可提高古建筑图像检索效率,且能有效反映古建筑的历史文化信息。针对不同古建筑图像轮廓特征明显不同且建筑语义互相关联,为有效丰富古建筑图像语义,提出一种基于视觉注意力机制和形式概念分析(Formal Conc... 准确完备的古建筑图像语义不仅可提高古建筑图像检索效率,且能有效反映古建筑的历史文化信息。针对不同古建筑图像轮廓特征明显不同且建筑语义互相关联,为有效丰富古建筑图像语义,提出一种基于视觉注意力机制和形式概念分析(Formal Concept Analysis,FCA)的古建筑图像语义完备方法。首先使用注意力算子网络和VGG16网络模型生成待标注古建筑图像注意力图,并通过softmax分类器进行分类,获取图像初始标签集;其次构造基于待标注图像初始标签及其近邻标签的概念格;然后,利用概念格上下文分析语义的特点,通过概念节点之间的相似度度量,获取待标注图像潜在的语义标签。最后,在古建筑图像数据集上进行实验,结果验证了该方法能够有效地提高古建筑图像标注精度,丰富古建筑图像语义。 展开更多
关键词 古建筑图像 标签完备 卷积神经网络 视觉注意力机制 形式概念分析
下载PDF
基于仿生视觉骨干的级联蒸馏输电线路目标检测模型
9
作者 臧积业 曲朝阳 +3 位作者 董运昌 宋思琦 李鹏程 李泠聪 《高电压技术》 EI CAS CSCD 北大核心 2024年第8期3757-3768,共12页
针对输电线路无人机智能巡检中多个小目标缺陷检测精度低且复杂环境下缺乏鲁棒性等问题,提出基于仿生视觉骨干的级联蒸馏输电线路目标检测模型。首先,设计2个共用骨干网络的高效模块构建级联蒸馏结构:动态锚框蒸馏模块和动态锚框提纯模... 针对输电线路无人机智能巡检中多个小目标缺陷检测精度低且复杂环境下缺乏鲁棒性等问题,提出基于仿生视觉骨干的级联蒸馏输电线路目标检测模型。首先,设计2个共用骨干网络的高效模块构建级联蒸馏结构:动态锚框蒸馏模块和动态锚框提纯模块,前者负责粗略寻找可能存在目标的区域,后者负责细化该区域,从而提出一种新的渐进式目标检测方法,解决输电线路中受遮挡目标的漏检问题。其次,构建仿生特征提取骨干网络,通过模仿生物感受野充分聚合上下文信息,提升骨干网络对线路中尺度较小目标的特征提取能力。然后,设计周边视觉模块,利用人类独有的视觉机制控制局部信息的交互强度,克服输电线路中复杂多变的背景对模型的干扰。最后,构建生成了输电线路目标的数据集,并通过仿真实验验证了模型的泛化性和鲁棒性。 展开更多
关键词 电力巡检 周边视觉注意力机制 高阶空间交互 视觉变压器 级联蒸馏架构
下载PDF
基于视觉注意力和深度随机配置网络的高速公路团雾认知
10
作者 陈克琼 安加喜 +1 位作者 布天瑞 刘伟 《皖西学院学报》 2022年第5期75-81,共7页
团雾生成区域的气象环境较为复杂,对团雾的检测效率和精度有较大影响。针对这一问题,探索了一种基于视觉注意力和深度随机配置网络的高速公路团雾系统模型。首先,采用图像通道转换和高斯模糊滤波对输入图像预处理,构建归一化高质量的高... 团雾生成区域的气象环境较为复杂,对团雾的检测效率和精度有较大影响。针对这一问题,探索了一种基于视觉注意力和深度随机配置网络的高速公路团雾系统模型。首先,采用图像通道转换和高斯模糊滤波对输入图像预处理,构建归一化高质量的高速路面样本图像集合。其次,基于视觉注意力机制的构建团雾图像深度特征空间,以多层次差异化表征团雾气象特征信息。最后,基于深度随机网络构造团雾等级分类器,以获取快速高准确率分类模型。为验证方法的有效性,使用行车记录仪高速行驶图像样本构建训练及测试样本空间,并将此方法与其他模型方法进行对比实验。实验结果表明,此方法在模型认知精度和计算速度综合评价方面具有较大优势,能够有效适用于高速行驶过程的团雾气象预测预警。 展开更多
关键词 高速公路团雾认知 视觉注意力机制 卷积神经网络 深度随机配置网络
下载PDF
基于引导滤波的多分支注意力残差红外图像去噪网络 被引量:4
11
作者 张骏 朱标 +1 位作者 沈玉真 张鹏 《红外与激光工程》 EI CSCD 北大核心 2022年第11期151-161,共11页
目前红外图像广泛应用于各个领域,但受限于探测单元的非均匀性,使得红外图像具有低信噪比、视觉效果模糊的缺点,严重影响其在高端领域中的应用。常用的去噪算法无法兼顾降噪平滑和边缘细节的保持,针对这一问题,文中提出了一种基于引导... 目前红外图像广泛应用于各个领域,但受限于探测单元的非均匀性,使得红外图像具有低信噪比、视觉效果模糊的缺点,严重影响其在高端领域中的应用。常用的去噪算法无法兼顾降噪平滑和边缘细节的保持,针对这一问题,文中提出了一种基于引导滤波的多分支注意力残差去噪网络。根据引导滤波原理设计一种引导卷积模块,同时为了兼顾提取浅层和深层特征设计了多分支注意力残差模组。通过实验证明加入新模块后的网络不仅可以有效地实现红外图像降噪,而且能最大程度地保持图像中的边缘细节信息,提升视觉效果,同时在PSRN和SSIM指标上也有良好的表现。 展开更多
关键词 引导滤波器 视觉注意力机制 U-NET
下载PDF
优化视觉聚焦点的手背静脉识别方法 被引量:3
12
作者 王一丁 赵晨爽 《计算机测量与控制》 2019年第7期200-204,共5页
传统的手背静脉身份识别研究对旋转,平移,尺度变化敏感,极大地影响了识别率;因此该文在非限定采集者手背姿势的情况下,将人类视觉注意力机制与神经网络结合,针对旋转,平移,尺度变化等问题提出了优化视觉聚焦点的循环神经网络模型;该模... 传统的手背静脉身份识别研究对旋转,平移,尺度变化敏感,极大地影响了识别率;因此该文在非限定采集者手背姿势的情况下,将人类视觉注意力机制与神经网络结合,针对旋转,平移,尺度变化等问题提出了优化视觉聚焦点的循环神经网络模型;该模型自适应寻找手背静脉聚焦点,以聚焦点为中心,截取局部ROI区域,送入循环神经网络训练各局部区域的序列关联性;该文的优化方法如下:在选取聚焦点时,加入正态分布噪声;对聚集点的个数进行约束;截取多尺度局部ROI;训练时采用强化学习中的策略梯度下降法和最优化的无偏估计交叉熵损失函数;将该循环神经网络网络模型在多形态的手背静脉数据中进行实验验证,识别率达到99.3%,与传统的局部特征提取方法相比,极大的提高了手背静脉的识别率。 展开更多
关键词 机器学习 视觉注意力机制 循环神经网络 强化学习 视觉图像处理
下载PDF
基于BFDS改进的YOLOv8疲劳驾驶检测算法
13
作者 郑凯东 舒心 《信息技术与信息化》 2024年第2期213-216,共4页
近年来随着国内私家车保有量的逐年增多,我国的交通事故的发生率也是逐年升高,其中由于司机的疲劳驾驶导致的交通事故占比最多,针对司机在开车中的驾驶安全问题,提出了一种疲劳检测算法BFDSYOLO,融合了DCNv2与BiFPN,并引入了视觉通道注... 近年来随着国内私家车保有量的逐年增多,我国的交通事故的发生率也是逐年升高,其中由于司机的疲劳驾驶导致的交通事故占比最多,针对司机在开车中的驾驶安全问题,提出了一种疲劳检测算法BFDSYOLO,融合了DCNv2与BiFPN,并引入了视觉通道注意力机制,以提高疲劳检测的效率。引入了Yolov8n-DCNv2、YOLOv8n-BF等变种模型,通过详细实验比较它们的性能。提出的BFDS-YOLO模型对主干网络和颈部网络进行了改进,将DCNv2与BiFPN结合,并引入了视觉通道注意力机制。实验结果表明,BFDS-YOLO相较于其他模型在多个性能指标上均有显著提升,提出的算法在疲劳检测任务中具有广泛的应用前景。 展开更多
关键词 深度学习 疲劳检测 可变形卷积 视觉通道注意力机制 加权双向特征金字塔网络
下载PDF
使用密集弱注意力机制的图像显著性检测 被引量:5
14
作者 项圣凯 曹铁勇 +1 位作者 方正 洪施展 《中国图象图形学报》 CSCD 北大核心 2020年第1期136-147,共12页
目的基于全卷积网络(FCN)模型的显著性检测(SOD)的研究认为,更大的解码网络能实现比小网络更好的检测效果,导致解码阶段参数量庞大。视觉注意力机制一定程度上缓解了模型过大的问题。本文将注意力机制分为强、弱注意力两种:强注意力能... 目的基于全卷积网络(FCN)模型的显著性检测(SOD)的研究认为,更大的解码网络能实现比小网络更好的检测效果,导致解码阶段参数量庞大。视觉注意力机制一定程度上缓解了模型过大的问题。本文将注意力机制分为强、弱注意力两种:强注意力能为解码提供更强的先验,但风险很大;相反,弱注意力机制风险更小,但提供的先验较弱;基于此提出并验证了采用弱注意力的小型网络架构也能达到大网络的检测精度这一观点。方法本文设计了全局显著性预测和基于弱注意力机制的边缘优化两个阶段,其核心是提出的密集弱注意力模块。它弥补了弱注意力的缺点,仅需少量额外参数,就能提供不弱于强注意力的先验信息。结果相同的实验环境下,提出的模型在5个数据集上取得了总体上更好的检测效果。同时,提出的方法将参数量控制在69.5 MB,检测速度达到了实时32帧/s。实验结果表明,与使用强注意力的检测方法相比,提出的密集弱注意力模块使得检测模型的泛化能力更好。结论本文目标是使用弱注意力机制来提高检测效能,为此设计了兼顾效率和风险的弱注意力模块。弱注意力机制可以提高解码特征的效率,从而压缩模型大小和加快检测速度,并在现有测试集上体现出更好的泛化能力。 展开更多
关键词 显著性检测 视觉注意力机制 编码—解码 全卷积网络 实时检测
原文传递
基于改进的Transformer_decoder的增强图像描述
15
作者 林椹尠 屈嘉欣 罗亮 《计算机与现代化》 2023年第1期7-12,共6页
Transformer的解码器(Transformer_decoder)模型已被广泛应用于图像描述任务中,其中自注意力机制(Self Attention)通过捕获细粒度的特征来实现更深层次的图像理解。本文对Self Attention机制进行2方面改进,包括视觉增强注意力机制(Visio... Transformer的解码器(Transformer_decoder)模型已被广泛应用于图像描述任务中,其中自注意力机制(Self Attention)通过捕获细粒度的特征来实现更深层次的图像理解。本文对Self Attention机制进行2方面改进,包括视觉增强注意力机制(Vision-Boosted Attention,VBA)和相对位置注意力机制(Relative-Position Attention,RPA)。视觉增强注意力机制为Transformer_decoder添加VBA层,将视觉特征作为辅助信息引入Self Attention模型中,指导解码器模型生成与图像内容更匹配的描述语义。相对位置注意力机制在Self Attention的基础上,引入可训练的相对位置参数,为输入序列添加词与词之间的相对位置关系。基于COCO2014进行实验,结果表明VBA和RPA这2种注意力机制对图像描述任务都有一定改进,且2种注意力机制相结合的解码器模型有更好的语义表述效果。 展开更多
关键词 图像描述 Transformer模型 Self Attention机制 相对位置注意力机制 视觉增强注意力机制
下载PDF
一种基于模糊信息粒化的视频时空显著单元提取方法 被引量:3
16
作者 郎丛妍 须德 李兵 《电子学报》 EI CAS CSCD 北大核心 2007年第10期2023-2028,共6页
提出一种基于模糊信息粒化的视频时空显著单元提取方法,为视频分析及检索等高层应用提供一个有效的内容表示模式.本文首先提出了一种类相关的特征粒化方法,粒化后的模糊粒特征简化了分类关系且在一定程度上解决了感知主观性问题,因而通... 提出一种基于模糊信息粒化的视频时空显著单元提取方法,为视频分析及检索等高层应用提供一个有效的内容表示模式.本文首先提出了一种类相关的特征粒化方法,粒化后的模糊粒特征简化了分类关系且在一定程度上解决了感知主观性问题,因而通过简单的分类器可以有效地提取空域中具有高视觉感知显著度的区域(简称为显著区域);其次,通过对显著区域的时域一致性分析提取视频序列中时域连续的显著区域集合,定义为时空显著单元.提取的时空显著单元能作为一种较为通用的语义级内容表示模式.实验结果分别从时域和空域两个方面验证了本文方法的有效性. 展开更多
关键词 显著区域 模糊信息粒化 内容表示 视觉注意力机制
下载PDF
融合SKNet与YOLOv5深度学习的养殖鱼群检测 被引量:16
17
作者 赵梦 于红 +6 位作者 李海清 胥婧雯 程思奇 谷立帅 张鹏 韦思学 郑国伟 《大连海洋大学学报》 CAS CSCD 北大核心 2022年第2期312-319,共8页
为解决真实养殖环境下,水下成像模糊、失真等导致鱼群检测准确率低的问题,提出一种融合视觉注意力机制SKNet(selective kernel networks)与YOLOv5(you only look once)的养殖鱼群检测方法(SK-YOLOv5模型),该方法首先采用UNet(convolutio... 为解决真实养殖环境下,水下成像模糊、失真等导致鱼群检测准确率低的问题,提出一种融合视觉注意力机制SKNet(selective kernel networks)与YOLOv5(you only look once)的养殖鱼群检测方法(SK-YOLOv5模型),该方法首先采用UNet(convolutional networks for biomedical image segmentation)对图像进行预处理,得到清晰的鱼群图像,然后将SKNet融合到YOLOv5的Backbone端构成关注像素级信息的特征提取网络,加强对模糊鱼体的识别能力,并在水下模糊鱼群图像数据集上进行了消融试验和模型对比试验,以验证SK-YOLOv5的有效性。结果表明:在鱼群检测任务上,SK-YOLOv5的识别精确率和召回率分别达到了98.86%和96.64%,检测效果比YOLOv5分别提升了2.14%和2.29%,与目前检测准确率较高的水下目标检测模型XFishHmMp和FERNet相比,SK-YOLOv5取得了较好的检测效果,与XFishHmMp模型相比,识别精确率和召回率分别提升了5.39%和5.66%,与FERNet模型相比,识别精确率和召回率分别提升了3.59%和3.77%,实现了真实养殖环境下鱼群的准确检测。研究表明,融合SKNet与YOLOv5的养殖鱼群检测方法,有效地解决了水下模糊图像鱼群检测准确率低的问题,提升了养殖鱼群检测和识别的整体效果。 展开更多
关键词 鱼群检测 YOLOv5 UNet SKNet 视觉注意力机制 深度学习
下载PDF
融入混合注意力的可变形空洞卷积近岸SAR小舰船检测 被引量:6
18
作者 龚声蓉 徐少杰 +2 位作者 周立凡 朱杰 钟珊 《中国图象图形学报》 CSCD 北大核心 2022年第12期3663-3676,共14页
目的在近岸合成孔径雷达(synthetic aperture radar,SAR)图像舰船检测中,由于陆地建筑及岛屿等复杂背景的影响,小型舰船与周边相似建筑及岛屿容易混淆。现有方法通常使用固定大小的方形卷积核提取图像特征。但是小型舰船在图像中占比较... 目的在近岸合成孔径雷达(synthetic aperture radar,SAR)图像舰船检测中,由于陆地建筑及岛屿等复杂背景的影响,小型舰船与周边相似建筑及岛屿容易混淆。现有方法通常使用固定大小的方形卷积核提取图像特征。但是小型舰船在图像中占比较小,且呈长条形倾斜分布。固定大小的方形卷积核引入了过多背景信息,对分类造成干扰。为此,本文针对SAR图像舰船目标提出一种基于可变形空洞卷积的骨干网络。方法首先用可变形空洞卷积核代替传统卷积核,使提取特征位置更贴合目标形状,强化对舰船目标本身区域和边缘特征的提取能力,减少背景信息提取。然后提出3通道混合注意力机制来加强局部细节信息提取,突出小型舰船与暗礁、岛屿等的差异性,提高模型细分类效果。结果在SAR图像舰船数据集HRSID(high-resolution SAR images dataset)上的实验结果表明,本文方法应用在Cascade-RCNN(cascade region convolutional neural network)、YOLOv4(you only look once v4)和BorderDet(border detection)3种检测模型上,与原模型相比,对小型舰船的检测精度分别提高了3.5%、2.6%和2.9%,总体精度达到89.9%。在SSDD(SAR ship detection dataset)数据集上的总体精度达到95.9%,优于现有方法。结论本文通过改进骨干网络,使模型能够改变卷积核形状和大小,集中获取目标信息,抑制背景信息干扰,有效降低了SAR图像近岸复杂背景下小型舰船的误检漏检情况。 展开更多
关键词 舰船检测 合成孔径雷达(SAR)图像 可变形卷积 视觉注意力机制 空洞卷积
原文传递
基于多帧一致性修正的自监督孪生网络目标跟踪方法 被引量:3
19
作者 程旭 刘丽华 +2 位作者 王莹莹 余梓彤 赵国英 《计算机学报》 EI CAS CSCD 北大核心 2022年第12期2544-2560,共17页
深度学习技术促使目标跟踪领域得到了飞速发展,但有限的标注数据限制了深度模型的高效训练.因此,自监督学习应用于目标跟踪领域来解决模型训练需要大量标注数据的问题.然而,现有基于自监督学习的跟踪器大多提取目标浅层信息,缺乏对目标... 深度学习技术促使目标跟踪领域得到了飞速发展,但有限的标注数据限制了深度模型的高效训练.因此,自监督学习应用于目标跟踪领域来解决模型训练需要大量标注数据的问题.然而,现有基于自监督学习的跟踪器大多提取目标浅层信息,缺乏对目标关键特征的高效表达,且忽视了因目标遮挡等挑战导致的反向验证难度大的问题,致使跟踪精度下降.为解决上述问题,本文提出一种基于多帧一致性修正的自监督孪生网络跟踪方法,由前向多帧反序验证策略、混序修正模块和视觉特征增强模块三部分共同构成.首先,前向多帧反序验证策略从多条路径中自适应选择最优目标轨迹来构造循环一致性损失优化函数,面对目标遮挡、背景干扰、形变等挑战时能够合理规划路径.其次,针对多条路径对同一帧目标预测位置的不一致问题,提出混序修正模块来修正跟踪偏移,增强了前向跟踪时特征提取网络的鲁棒性.此外,视觉特征增强模块通过自适应加权融合目标的全局上下文信息与局部语义特征信息,增强了模型对目标自身特征的表达能力.最后,本文方法在OTB2013、OTB2015、TColor-128和VOT-2018四个公开数据集上进行了验证.实验结果表明:在光照、形变、背景干扰等复杂场景下,相比于现有21种主流跟踪算法,本文方法在四个数据集上的精确度平均提高了4.6%,比基于自/无监督学习的跟踪器平均提高了5.8%的精确度. 展开更多
关键词 视频监控 目标跟踪 自监督学习 循环一致性损失 视觉注意力机制
下载PDF
红外图像强固定模式显著性噪声抑制
20
作者 孙晓亮 朱遵尚 +1 位作者 尚洋 张小虎 《国防科技大学学报》 EI CAS CSCD 北大核心 2014年第3期41-45,共5页
针对红外成像设备对天远距离观测中得到的小目标、强固定模式噪声这一类典型数据,提出基于显著性的红外图像强固定模式噪声抑制算法。对此类图像数据进行特性分析,指出图像中目标区域相对于背景固定模式噪声区域是显著的,利用显著性检... 针对红外成像设备对天远距离观测中得到的小目标、强固定模式噪声这一类典型数据,提出基于显著性的红外图像强固定模式噪声抑制算法。对此类图像数据进行特性分析,指出图像中目标区域相对于背景固定模式噪声区域是显著的,利用显著性检测算法分离出图像中目标区域及背景,对不同区域分别采取不同处理,仅基于单幅图像信息实现强固定模式噪声的有效抑制。通过大量小目标、强固定模式噪声红外图像对算法性能进行测试。结果表明,本算法能够准确提取出图像中目标区域,实现图像中强固定模式噪声的有效抑制。 展开更多
关键词 图像增强 噪声抑制 红外焦平面阵列 固定模式噪声 视觉注意力机制
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部