期刊文献+
共找到278篇文章
< 1 2 14 >
每页显示 20 50 100
A Cover-Independent Deep Image Hiding Method Based on Domain Attention Mechanism
1
作者 Nannan Wu Xianyi Chen +1 位作者 James Msughter Adeke Junjie Zhao 《Computers, Materials & Continua》 SCIE EI 2024年第3期3001-3019,共19页
Recently,deep image-hiding techniques have attracted considerable attention in covert communication and high-capacity information hiding.However,these approaches have some limitations.For example,a cover image lacks s... Recently,deep image-hiding techniques have attracted considerable attention in covert communication and high-capacity information hiding.However,these approaches have some limitations.For example,a cover image lacks self-adaptability,information leakage,or weak concealment.To address these issues,this study proposes a universal and adaptable image-hiding method.First,a domain attention mechanism is designed by combining the Atrous convolution,which makes better use of the relationship between the secret image domain and the cover image domain.Second,to improve perceived human similarity,perceptual loss is incorporated into the training process.The experimental results are promising,with the proposed method achieving an average pixel discrepancy(APD)of 1.83 and a peak signal-to-noise ratio(PSNR)value of 40.72 dB between the cover and stego images,indicative of its high-quality output.Furthermore,the structural similarity index measure(SSIM)reaches 0.985 while the learned perceptual image patch similarity(LPIPS)remarkably registers at 0.0001.Moreover,self-testing and cross-experiments demonstrate the model’s adaptability and generalization in unknown hidden spaces,making it suitable for diverse computer vision tasks. 展开更多
关键词 Deep image hiding attention mechanism privacy protection data security visual quality
下载PDF
Human Visual Attention Mechanism-Inspired Point-and-Line Stereo Visual Odometry for Environments with Uneven Distributed Features 被引量:1
2
作者 Chang Wang Jianhua Zhang +2 位作者 Yan Zhao Youjie Zhou Jincheng Jiang 《Chinese Journal of Mechanical Engineering》 SCIE EI CAS CSCD 2023年第3期191-204,共14页
Visual odometry is critical in visual simultaneous localization and mapping for robot navigation.However,the pose estimation performance of most current visual odometry algorithms degrades in scenes with unevenly dist... Visual odometry is critical in visual simultaneous localization and mapping for robot navigation.However,the pose estimation performance of most current visual odometry algorithms degrades in scenes with unevenly distributed features because dense features occupy excessive weight.Herein,a new human visual attention mechanism for point-and-line stereo visual odometry,which is called point-line-weight-mechanism visual odometry(PLWM-VO),is proposed to describe scene features in a global and balanced manner.A weight-adaptive model based on region partition and region growth is generated for the human visual attention mechanism,where sufficient attention is assigned to position-distinctive objects(sparse features in the environment).Furthermore,the sum of absolute differences algorithm is used to improve the accuracy of initialization for line features.Compared with the state-of-the-art method(ORB-VO),PLWM-VO show a 36.79%reduction in the absolute trajectory error on the Kitti and Euroc datasets.Although the time consumption of PLWM-VO is higher than that of ORB-VO,online test results indicate that PLWM-VO satisfies the real-time demand.The proposed algorithm not only significantly promotes the environmental adaptability of visual odometry,but also quantitatively demonstrates the superiority of the human visual attention mechanism. 展开更多
关键词 visual odometry Human visual attention mechanism Environmental adaptability Uneven distributed features
下载PDF
Improved Blending Attention Mechanism in Visual Question Answering
3
作者 Siyu Lu Yueming Ding +4 位作者 Zhengtong Yin Mingzhe Liu Xuan Liu Wenfeng Zheng Lirong Yin 《Computer Systems Science & Engineering》 SCIE EI 2023年第10期1149-1161,共13页
Visual question answering(VQA)has attracted more and more attention in computer vision and natural language processing.Scholars are committed to studying how to better integrate image features and text features to ach... Visual question answering(VQA)has attracted more and more attention in computer vision and natural language processing.Scholars are committed to studying how to better integrate image features and text features to achieve better results in VQA tasks.Analysis of all features may cause information redundancy and heavy computational burden.Attention mechanism is a wise way to solve this problem.However,using single attention mechanism may cause incomplete concern of features.This paper improves the attention mechanism method and proposes a hybrid attention mechanism that combines the spatial attention mechanism method and the channel attention mechanism method.In the case that the attention mechanism will cause the loss of the original features,a small portion of image features were added as compensation.For the attention mechanism of text features,a selfattention mechanism was introduced,and the internal structural features of sentences were strengthened to improve the overall model.The results show that attention mechanism and feature compensation add 6.1%accuracy to multimodal low-rank bilinear pooling network. 展开更多
关键词 visual question answering spatial attention mechanism channel attention mechanism image feature processing text feature extraction
下载PDF
Microstructure recognition of steels by machine learning based on visual attention mechanism
4
作者 Xing-yu Chen Lin Cheng +2 位作者 Cheng-yang Hu Yu-peng Zhang Kai-ming Wu 《Journal of Iron and Steel Research International》 SCIE EI CAS CSCD 2024年第4期909-923,共15页
U-Net has achieved good performance with the small-scale datasets through skip connections to merge the features of the low-level layers and high-level layers and has been widely utilized in biomedical image segmentat... U-Net has achieved good performance with the small-scale datasets through skip connections to merge the features of the low-level layers and high-level layers and has been widely utilized in biomedical image segmentation as well as recent microstructure image segregation of the materials.Three representative visual attention mechanism modules,named as squeeze-and-excitation networks,convolutional block attention module,and extended calibration algorithm,were intro-duced into the traditional U-Net architecture to further improve the prediction accuracy.It is found that compared with the original U-Net architecture,the evaluation index of the improved U-Net architecture has been significantly improved for the microstructure segmentation of the steels with the ferrite/martensite composite microstructure and pearlite/ferrite composite microstructure and the complex martensite/austenite island/bainite microstructure,which demonstrates the advantages of the utilization of the visual attention mechanism in the microstructure segregation.The reasons for the accuracy improvement were discussed based on the feature maps analysis. 展开更多
关键词 Microstructure recognition-Steel Machine learning visual attention mechanism visualIZATION
原文传递
结合VAM和模糊逻辑的NSCT图像融合方法
5
作者 郑义军 任仙怡 +2 位作者 刘秀坚 胡涛 张基宏 《计算机工程与应用》 CSCD 北大核心 2011年第12期173-176,共4页
提出一种基于非下采样Contourlet变换(NSCT)的图像融合方法。NSCT分解具有平移不变性,有利于更好地保持原始图像的边缘信息和轮廓结构。由于图像融合任务的不确定性及模糊逻辑在处理该类问题时的优越性,在高低频的融合策略中引入模糊逻... 提出一种基于非下采样Contourlet变换(NSCT)的图像融合方法。NSCT分解具有平移不变性,有利于更好地保持原始图像的边缘信息和轮廓结构。由于图像融合任务的不确定性及模糊逻辑在处理该类问题时的优越性,在高低频的融合策略中引入模糊逻辑进行基于隶属度的融合。同时考虑到人类视觉感兴趣区域的重要性,在低频系数的融合中引入视觉注意机制,利用原始图像本身的显著区域信息来指导融合过程,从而在融合过程中最大限度地保留源图像中的显著信息。实验结果表明,算法的融合图像具有良好的视觉效果及客观评指标。 展开更多
关键词 图像融合 视觉注意机制 非下采样轮廓波变换(NSCT) 模糊逻辑 隶属度函数 图像分割
下载PDF
A survey of deep learning-based visual question answering 被引量:1
6
作者 HUANG Tong-yuan YANG Yu-ling YANG Xue-jiao 《Journal of Central South University》 SCIE EI CAS CSCD 2021年第3期728-746,共19页
With the warming up and continuous development of machine learning,especially deep learning,the research on visual question answering field has made significant progress,with important theoretical research significanc... With the warming up and continuous development of machine learning,especially deep learning,the research on visual question answering field has made significant progress,with important theoretical research significance and practical application value.Therefore,it is necessary to summarize the current research and provide some reference for researchers in this field.This article conducted a detailed and in-depth analysis and summarized of relevant research and typical methods of visual question answering field.First,relevant background knowledge about VQA(Visual Question Answering)was introduced.Secondly,the issues and challenges of visual question answering were discussed,and at the same time,some promising discussion on the particular methodologies was given.Thirdly,the key sub-problems affecting visual question answering were summarized and analyzed.Then,the current commonly used data sets and evaluation indicators were summarized.Next,in view of the popular algorithms and models in VQA research,comparison of the algorithms and models was summarized and listed.Finally,the future development trend and conclusion of visual question answering were prospected. 展开更多
关键词 computer vision natural language processing visual question answering deep learning attention mechanism
下载PDF
基于Depth-wise卷积和视觉Transformer的图像分类模型 被引量:4
7
作者 张峰 黄仕鑫 +1 位作者 花强 董春茹 《计算机科学》 CSCD 北大核心 2024年第2期196-204,共9页
图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关... 图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关系进行建模,一些研究者将Transformer应用于图像分类任务,但为了满足Transformer的序列化和并行化要求,需要将图像分割成大小相等、互不重叠的图像块,破坏了相邻图像数据块之间的局部信息。此外,由于Transformer具有较少的先验知识,模型往往需要在大规模数据集上进行预训练,因此计算复杂度较高。为了同时建模图像相邻块之间的局部信息并充分利用图像的全局信息,提出了一种基于Depth-wise卷积的视觉Transformer(Efficient Pyramid Vision Transformer,EPVT)模型。EPVT模型可以实现以较低的计算成本提取相邻图像块之间的局部和全局信息。EPVT模型主要包含3个关键组件:局部感知模块(Local Perceptron Module,LPM)、空间信息融合模块(Spatial Information Fusion,SIF)和“+卷积前馈神经网络(Convolution Feed-forward Network,CFFN)。LPM模块用于捕获图像的局部相关性;SIF模块用于融合相邻图像块之间的局部信息,并利用不同图像块之间的远距离依赖关系,提升模型的特征表达能力,使模型学习到输出特征在不同维度下的语义信息;CFFN模块用于编码位置信息和重塑张量。在图像分类数据集ImageNet-1K上,所提模型优于现有的同等规模的视觉Transformer分类模型,取得了82.6%的分类准确度,证明了该模型在大规模数据集上具有竞争力。 展开更多
关键词 深度学习 图像分类 Depth-wise卷积 视觉Transformer 注意力机制
下载PDF
面向目标检测的视觉注意机制波段选择研究
8
作者 杨桄 金椿柏 +2 位作者 任春颖 刘文婧 陈强 《光谱学与光谱分析》 SCIE EI CAS CSCD 北大核心 2024年第1期266-274,共9页
近年来,波段选择在高光谱图像降维处理中得到了广泛地应用,然而常用的数据降维方法并没能将与人类视觉系统相关的信息进行有效利用,如果将人类与生俱来的视觉注意机制能力应用到高光谱图像中目标的视觉显著性特征的增强或识别,对于高光... 近年来,波段选择在高光谱图像降维处理中得到了广泛地应用,然而常用的数据降维方法并没能将与人类视觉系统相关的信息进行有效利用,如果将人类与生俱来的视觉注意机制能力应用到高光谱图像中目标的视觉显著性特征的增强或识别,对于高光谱图像的目标检测研究无疑会产生相当的促进作用。研究提出引入视觉注意机制理论应用于波段选择研究,构建面向目标检测应用的视觉注意机制波段选择模型。通过分析计算波段图幅的目标与背景的可识别程度,量化所在波段对地物目标与背景的判别能力,提出了基于目标视觉可识别度的波段选择方法;利用LC显著性算法进行空间域的视觉显著性目标分析,计算背景与目标的显著性差异绝对值,提出基于LC显著目标结构分布的波段选择方法。将这两种方法结合提出的改进子空间划分方法,建立面向目标检测的视觉注意机制波段选择模型,并经高光谱遥感AVIRIS San Diego公开数据集进行目标检测实验验证,结果表明所提出的基于视觉注意机制的波段选择模型对于目标检测应用具有较好的检测效果,实现了数据降维和高效的计算处理。 展开更多
关键词 波段选择 视觉注意机制 可识别度 显著性算法 目标检测
下载PDF
基于视觉注意机制分析的疏散照明设计方法研究
9
作者 郑策 张明宇 常瑜 《照明工程学报》 2024年第3期82-88,共7页
为改善城市夜间突发情况的人流疏散问题,本文将人的视觉注意机制融入到景观疏散照明设计过程中,基于人的视觉注意力分析,形成了景观疏散照明设计分析方法。在具体的设计流程中,导入TRIZ理论的“物质-场与标准解”问题分析与求解工具,将... 为改善城市夜间突发情况的人流疏散问题,本文将人的视觉注意机制融入到景观疏散照明设计过程中,基于人的视觉注意力分析,形成了景观疏散照明设计分析方法。在具体的设计流程中,导入TRIZ理论的“物质-场与标准解”问题分析与求解工具,将标准解转为可被景观疏散照明设计应用的设计依据,据此完成设计方案。将方案以VR虚拟仿真场景的方式应用于景观疏散照明设计仿真实验中,请专家用户利用VR设备进入场景对方案进行主观评价以此验证模型的可行性。可知具体的景观疏散照明设计与用户视觉注意机制能够形成匹配,关注用户的注意力可以提升人流疏散效率。 展开更多
关键词 照明设计 人流疏散 视觉注意机制 TRIZ物质-场 VR仿真
下载PDF
基于扩张卷积和Transformer的视听融合语音分离方法
10
作者 刘宏清 谢奇洲 +1 位作者 赵宇 周翊 《信号处理》 CSCD 北大核心 2024年第7期1208-1217,共10页
为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征... 为了提高语音分离的效果,除了利用混合的语音信号,还可以借助视觉信号作为辅助信息。这种融合了视觉与音频信号的多模态建模方式,已被证实可以有效地提高语音分离的性能,为语音分离任务提供了新的可能性。为了更好地捕捉视觉与音频特征中的长期依赖关系,并强化网络对输入上下文信息的理解,本文提出了一种基于一维扩张卷积与Transformer的时域视听融合语音分离模型。将基于频域的传统视听融合语音分离方法应用到时域中,避免了时频变换带来的信息损失和相位重构问题。所提网络架构包含四个模块:一个视觉特征提取网络,用于从视频帧中提取唇部嵌入特征;一个音频编码器,用于将混合语音转换为特征表示;一个多模态分离网络,主要由音频子网络、视频子网络,以及Transformer网络组成,用于利用视觉和音频特征进行语音分离;以及一个音频解码器,用于将分离后的特征还原为干净的语音。本文使用LRS2数据集生成的包含两个说话者混合语音的数据集。实验结果表明,所提出的网络在尺度不变信噪比改进(Scale-Invariant Signal-to-Noise Ratio Improvement,SISNRi)与信号失真比改进(Signal-to-Distortion Ratio Improvement,SDRi)这两种指标上分别达到14.0 dB与14.3 dB,较纯音频分离模型和普适的视听融合分离模型有明显的性能提升。 展开更多
关键词 语音分离 视听融合 多头自注意力机制 扩张卷积
下载PDF
结合对比学习的图像指导增强视觉问答模型
11
作者 杨有 姚露 《计算机工程与应用》 CSCD 北大核心 2024年第7期157-166,共10页
针对现有的注意力编解码视觉问答模型存在两个问题:单一形态图像特征包含视觉信息不完整,以及对问题指导过度依赖,提出结合对比学习的图像指导增强视觉问答模型。所提模型包含一种双特征视觉解码器,它基于Transformer语言编码器实现,将... 针对现有的注意力编解码视觉问答模型存在两个问题:单一形态图像特征包含视觉信息不完整,以及对问题指导过度依赖,提出结合对比学习的图像指导增强视觉问答模型。所提模型包含一种双特征视觉解码器,它基于Transformer语言编码器实现,将单一的图像特征扩展为区域和网格两种形态,根据不同形态特征的相对位置构建互补的空间关系,以解决第一问题。所提模型包含一种视觉引导的语言解码器,将视觉解码的两种图像特征与问题特征二次匹配,通过平行门控引导注意力,自适应地修正不同视觉信息对问题的引导比例,以解决第二问题。所提模型,在训练过程中,引入对比学习损失函数,通过对比模型推理时不同模态特征在隐空间内的相似度,获取更相近的互信息。所提模型,在VQA 2.0、COCO-QA和GQA数据集上分别取得73.82%、72.49%和57.44%的总体准确率,较MCAN模型分别提高2.92个百分点、4.41个百分点和0.8个百分点。大量消融实验和可视化分析证明了模型的有效性。实验结果表明,所提模型能够获取更相关的语言-视觉信息,并且对不同类型的问题样本具有更强的泛化能力。 展开更多
关键词 视觉问答 注意力机制 相对位置 门控机制 对比学习
下载PDF
基于轻量化NDFEDet-SOLOv2的遥感图像建筑物提取方法
12
作者 汪强 郭来功 程伟涛 《重庆工商大学学报(自然科学版)》 2024年第6期20-29,共10页
目的在地籍测绘和灾害管理等领域中,建筑物轮廓和位置的自动提取是至关重要的一环。为了解决高分辨率遥感图像建筑物因环境因素导致分割精度不准确等问题,提出了一种改进的轻量化SOLOv2实例分割模型——NDFEDet-SOLOv2。方法该模型选用... 目的在地籍测绘和灾害管理等领域中,建筑物轮廓和位置的自动提取是至关重要的一环。为了解决高分辨率遥感图像建筑物因环境因素导致分割精度不准确等问题,提出了一种改进的轻量化SOLOv2实例分割模型——NDFEDet-SOLOv2。方法该模型选用双向特征金字塔网络(BiFPN)特征融合方式的轻量级EfficientDet网络,其中将骨干网络部分的EfficientNet升级为EfficientNetv2,EfficientNetv2中的三层MBConv模块SE注意力更换为含有DropBlock正则化的轻量级标准化注意力机制(NAM),构成NAD-MBConv模块。BiFPN特征融合部分,向其尾端各特征层并入双水平路由注意视觉变压器(BiFormer),形成双向水平路由注意特征金字塔网络结构(Bi-FPN-Former),从而聚焦微小建筑物轮廓信息,以实现更高层次的特征融合。结果NDFEDet-SOLOv2模型相较于传统轻量级SOLOv2实例分割算法,平均精度mAP、mAP 50和mAP 75分别提高了3.9%、3.7%和2.5%,检测帧率(FPS)提高了2.7帧/s。结论轻量化NDFEDet-SOLOv2实例分割算模型消除了建筑物边角的图像畸变,在地理环境空间不均等复杂情况下也能准确提取出遥感图像建筑物的基本轮廓,从而为城市布局更新和建筑变化检测提供理论参考。 展开更多
关键词 高分辨率遥感图像 实例分割 EfficientDet 标准化注意力机制(NAM) 双水平路由注意视觉变压器(BiFormer)
下载PDF
基于计算机软件技术在大数据时代的应用研究
13
作者 贾豁然 《佳木斯大学学报(自然科学版)》 CAS 2024年第8期34-37,共4页
在当前大数据时代背景下,计算机软件技术的迅速发展已经引领人类进入了一个信息爆炸的新时代。在交通目标识别问题中,也广泛应用了计算机软件技术,然而低光照交通环境会显著降低图像的质量,进而影响识别的准确率。为了解决这一问题,研... 在当前大数据时代背景下,计算机软件技术的迅速发展已经引领人类进入了一个信息爆炸的新时代。在交通目标识别问题中,也广泛应用了计算机软件技术,然而低光照交通环境会显著降低图像的质量,进而影响识别的准确率。为了解决这一问题,研究提出Yolov4的改进算法CLAHE-GhostNet-CBAM-Yolov4(CGC-Yolov4)。研究在输入模块中对输入图像采用CLAHE图像增强算法,用GhostNet替代Yolov4主干网络,在瓶颈网络的末端添加了注意力机制。性能测试的结果表明在行人目标识别中,研究提出的模型F1得分在第12次迭代达到91%,最高可达98%。实验结果表明,相较于传统模型CGC-Yolov4不仅提高了识别效率,也保持了极佳的实时处理能力,证明了其在夜间交通目标识别应用中的实用性和有效性。 展开更多
关键词 智能交通系统 深度学习 注意力机制 YOLOv4 移动视觉识别
下载PDF
一种基于多模态特征提取的医学视觉问答方法 被引量:1
14
作者 吴松泽 刘利军 +3 位作者 黄青松 孔凡彦 刘骊 付晓东 《小型微型计算机系统》 CSCD 北大核心 2024年第3期676-683,共8页
随着深度学习在医疗领域的快速发展,医学视觉问答(Med-VQA)吸引了研究人员的广泛关注.现有的Med-VQA方法大都使用权重参数共享的同一特征提取网络对多模态医学影像进行特征提取,在一定程度上忽略了不同模态医学影像的差异性特征,导致对... 随着深度学习在医疗领域的快速发展,医学视觉问答(Med-VQA)吸引了研究人员的广泛关注.现有的Med-VQA方法大都使用权重参数共享的同一特征提取网络对多模态医学影像进行特征提取,在一定程度上忽略了不同模态医学影像的差异性特征,导致对特定模态特征提取时引入其它模态的噪声特征,使得模型难以关注到不同模态医学影像中的关键特征.针对上述问题,本文提出一种基于多模态特征提取的医学视觉问答方法.首先,对医学影像进行模态识别,根据模态标签指导输入参数不共享的特征提取网络以获得不同模态影像的差异性特征;然后,设计了一种面向Med-VQA的卷积降噪模块以降低医学影像不同模态特征的噪声信息;最后,采用空间与通道注意力模块进一步增强不同模态差异性特征的关注度.在Med-VQA公共数据集Slake上得到的实验结果表明,本文提出方法能有效提高Med-VQA的准确率. 展开更多
关键词 医学视觉问答 多模态特征提取 卷积神经网络 注意力机制
下载PDF
融合视觉信息的协同知识注意力网络推荐模型 被引量:1
15
作者 陶佳 黄贤英 高钰澜 《小型微型计算机系统》 CSCD 北大核心 2024年第2期327-334,共8页
推荐系统中将知识图谱作为辅助信息能有效缓解协同过滤算法中的稀疏性和冷启动问题.然而,现有的基于知识图谱的推荐模型往往忽略了视觉信息以及用户和物品历史交互序列中不同物品对当前任务的重要性.由此提出了一种融合视觉信息的协同... 推荐系统中将知识图谱作为辅助信息能有效缓解协同过滤算法中的稀疏性和冷启动问题.然而,现有的基于知识图谱的推荐模型往往忽略了视觉信息以及用户和物品历史交互序列中不同物品对当前任务的重要性.由此提出了一种融合视觉信息的协同知识注意力网络推荐模型(CKVI).该模型使用注意力机制动态地捕获用户和物品历史交互数据中蕴含的用户历史偏好信息.同时将知识图谱作为辅助信息,进一步丰富用户和物品的表示,增强模型的可解释性.其次考虑到与物品相关的图像,如电影海报中蕴涵着丰富的视觉信息,设计了一种图像聚合方法,聚合用户的历史行为图像,捕获用户的视觉偏好.最后将几种信息融合,用于推荐.为了验证模型有效性,在MovieLens和Book-crossing两个数据集上进行了实验,结果表明CKVI相比其他对比的模型推荐效果有较大提升. 展开更多
关键词 视觉信息 知识图谱 推荐系统 注意力机制 协同信息
下载PDF
基于仿斑马鱼和仿鹰眼视觉的复杂背景下目标识别 被引量:2
16
作者 徐韵哲 陈建 《集成技术》 2024年第2期39-51,共13页
针对反制无人机识别系统在公共场所内部复杂背景下的无人机识别问题,该文研究了一种基于仿斑马鱼模板匹配视觉识别和仿鹰眼视觉注意的目标识别方法,通过建立不同姿态的无人机模板数据库,采用仿鹰眼视觉搜索机制,结合尺度不变特征变换,... 针对反制无人机识别系统在公共场所内部复杂背景下的无人机识别问题,该文研究了一种基于仿斑马鱼模板匹配视觉识别和仿鹰眼视觉注意的目标识别方法,通过建立不同姿态的无人机模板数据库,采用仿鹰眼视觉搜索机制,结合尺度不变特征变换,将姿态模板图像与目标进行匹配,获得粗略的目标区域。然后计算模板姿态与目标姿态的Hausdorff距离,比较目标姿态相似性,获得最相似姿态。采用仿鹰眼视觉注意机制对遮挡图像进行处理,提高目标识别的显著性。实验结果表明,该方法能够在不同复杂背景下实现无人机的准确识别,与光谱残差的显著性目标识别方法相比,平均运行时间提高23.5%,与差异哈希算法相比,具有更高的结构相似性指数。 展开更多
关键词 无人机识别 斑马鱼视觉 鹰眼视觉 模板匹配 视觉注意机制
下载PDF
基于判别性特征增强的小样本细粒度图像识别 被引量:1
17
作者 齐妍 孙涵 《计算机技术与发展》 2024年第1期44-51,共8页
小样本细粒度图像识别是深度学习领域中一个热门的研究课题,其基本任务是在学习有限数量样本的情况下识别出某一大类下的子类别的图像。得益于卷积神经网络的快速发展,小样本细粒度图像识别在精度方面取得了显著的成果,但其性能仍受限... 小样本细粒度图像识别是深度学习领域中一个热门的研究课题,其基本任务是在学习有限数量样本的情况下识别出某一大类下的子类别的图像。得益于卷积神经网络的快速发展,小样本细粒度图像识别在精度方面取得了显著的成果,但其性能仍受限于同一子类图像间的高方差以及不同分类任务中判别性特征的差异性。针对上述问题,提出了一种基于判别性特征增强的小样本细粒度图像识别算法(DFENet)。DFENet设计了对称注意力模块来增强类内视觉一致性学习,从而减少背景的影响,提高同类样本之间共享的特征表示的权重。此外,DFENet引入通道维度的判别性特征增强模块,利用支持集样本中同类样本内和不同类样本之间的通道关系进一步挖掘适合于当前任务的判别性特征,以提高识别准确率。在三个经典的细粒度数据集CUB-200-2011,Stanford Dogs,Stanford Cars上进行了广泛的实验。实验结果表明,该方法均取得了有竞争性的结果。 展开更多
关键词 小样本细粒度图像识别 深度学习 特征增强 注意力机制 视觉一致性
下载PDF
融合密集卷积网络和注意力机制的拱桥损伤识别
18
作者 辛景舟 刘倩茹 +3 位作者 唐启智 李杰 张洪 周建庭 《振动与冲击》 EI CSCD 北大核心 2024年第14期18-28,36,共12页
针对传统深度学习方法缺乏对网络特征的差异化利用且损伤识别精度易受环境因素影响的问题,提出了一种融合密集卷积网络(DenseNet121)和混合注意力机制(convolutional block attention module,CBAM)的拱桥损伤识别方法。首先,获取拱桥加... 针对传统深度学习方法缺乏对网络特征的差异化利用且损伤识别精度易受环境因素影响的问题,提出了一种融合密集卷积网络(DenseNet121)和混合注意力机制(convolutional block attention module,CBAM)的拱桥损伤识别方法。首先,获取拱桥加速度响应数据,利用连续小波变换将其转换成时频图,形成拱桥损伤识别数据集;其次,将CBAM嵌入DenseNet121模型,加强断层特征的传播和特征的差异化利用,经训练得到拱桥损伤识别模型;然后,基于测试集评估损伤识别模型的性能,引入t分布随机邻域嵌入非线性降维技术对特征进行可视化分析;最后,通过数值案例验证了该方法的可行性和鲁棒性,并应用于劲性骨架拱肋的损伤识别。结果表明:所提方法可增强有用信息的权重,实现网络特征的差异化利用;与传统方法相比,该方法在单损伤和多损伤识别中准确率分别达到了91.67%和92.78%,准确率更高,且具有较强的鲁棒性和实用价值。 展开更多
关键词 桥梁健康监测 拱桥 损伤识别 DenseNet121 注意力机制 特征可视化
下载PDF
基于跨模态信息过滤的视觉问答网络
19
作者 何世阳 王朝晖 +1 位作者 龚声蓉 钟珊 《计算机科学》 CSCD 北大核心 2024年第5期85-91,共7页
视觉问答作为多模态任务,瓶颈在于需要解决不同模态间的融合问题,这不仅需要充分理解图像中的视觉和文本,还需具备对齐跨模态表示的能力。注意力机制的引入为多模态融合提供了有效的路径,然而先前的方法通常将提取的图像特征直接进行注... 视觉问答作为多模态任务,瓶颈在于需要解决不同模态间的融合问题,这不仅需要充分理解图像中的视觉和文本,还需具备对齐跨模态表示的能力。注意力机制的引入为多模态融合提供了有效的路径,然而先前的方法通常将提取的图像特征直接进行注意力计算,忽略了图像特征中含有噪声和不正确的信息这一问题,且多数方法局限于模态间的浅层交互,未曾考虑模态间的深层语义信息。为解决这一问题,提出了一个跨模态信息过滤网络,即首先以问题特征为监督信号,通过设计的信息过滤模块来过滤图像特征信息,使之更好地契合问题表征;随后将图像特征和问题特征送入跨模态交互层,在自注意力和引导注意力的作用下分别建模模态内和模态间的关系,以获取更细粒度的多模态特征。在VQA2.0数据集上进行了广泛的实验,实验结果表明,信息过滤模块的引入有效提升了模型准确率,在test-std上的整体精度达到了71.51%,相比大多数先进的方法具有良好的性能。 展开更多
关键词 视觉问答 深度学习 注意力机制 多模态融合 信息过滤
下载PDF
基于Transformer的视觉分割技术进展
20
作者 李文生 张菁 +2 位作者 卓力 吴鑫嘉 闫伊 《计算机学报》 EI CAS CSCD 北大核心 2024年第12期2760-2782,共23页
视觉分割是计算机视觉领域的核心任务,旨在将图像或视频帧中的像素分类以划分成不同区域.得益于视觉分割技术的快速发展,该技术在自动驾驶、航空遥感和视频场景理解等多种应用领域中发挥着关键作用.近年来,基于Transformer的视觉分割技... 视觉分割是计算机视觉领域的核心任务,旨在将图像或视频帧中的像素分类以划分成不同区域.得益于视觉分割技术的快速发展,该技术在自动驾驶、航空遥感和视频场景理解等多种应用领域中发挥着关键作用.近年来,基于Transformer的视觉分割技术因具备长程依赖建模能力而备受关注.随着Transformer的模型架构的持续优化与迭代,亟须更全面地理解和认识Transformer在视觉分割领域的已有进展和发展趋势,通过发现现有研究中的不足和挑战,以更深入地探索Transformer的核心理论.为此,本文从图像/视频两个视觉脉络出发,整理、回顾、分析和探讨了近年来基于Transformer的视觉分割相关技术进展,不仅归纳了Transformer的理论框架,还给出了一些应用实例和研究热点,从而做出总结和展望.具体来说,首先梳理了Transformer的背景,包括问题定义、数据集和评估指标、基本结构,其中,问题定义描述了视觉分割在图像/视频任务中的预期目标和结果;数据集和评估指标反映了模型的具体应用场景,以及性能的衡量标准;基本结构则描述了算法的核心模块、实现流程以及各个模块之间的关系.然后,着重阐述了Transformer在图像语义分割、图像实例分割,以及视频语义分割和视频实例分割四个方法体系,并探讨了当前的研究热点.对于图像语义分割任务,分析了Transformer的代表性结构,包括纯Trans⁃former和双分支结构,并以无人机影像非铺装道路分割和遥感图像语义分割为实际应用案例,探讨了Transformer的改进动机与应用效果,并展示了主观结果;图像实例分割总结了常见的非端对端Transformer和端对端Trans⁃former典型结构.视频语义分割主要分为面向精度的和面向效率的Transformer结构,视频实例分割则包括逐帧和逐片段Transformer分割,并以网络直播视频实例分割为应用实例,一方面讨论了可用的数据集、实验参数和评估指标,另一方面,对网络直播视频实例分割主流方法性能进行了评价和分析,展示了一些主观可视化结果.之后,鉴于视觉分割领域的SAM大模型、开放词汇分割、指代分割受到了广泛关注,本文将这些热点问题方法进行了追溯和评述,以期碰撞出视觉分割的新思路和新灵感.最后,尽管基于Transformer在视觉分割技术受到了广泛的关注,但存在的科学问题也逐渐凸显,限制了模型性能与效率的进一步提升,对此本文总结了利用Trans⁃former开展图像/视频语义/实例分割仍需关注的难点问题,并对未来可能的发展方向进行了展望,提供了一些启示供参考. 展开更多
关键词 视觉分割 TRANSFORMER 语义分割 实例分割 自注意力机制
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部