近年来,波段选择在高光谱图像降维处理中得到了广泛地应用,然而常用的数据降维方法并没能将与人类视觉系统相关的信息进行有效利用,如果将人类与生俱来的视觉注意机制能力应用到高光谱图像中目标的视觉显著性特征的增强或识别,对于高光...近年来,波段选择在高光谱图像降维处理中得到了广泛地应用,然而常用的数据降维方法并没能将与人类视觉系统相关的信息进行有效利用,如果将人类与生俱来的视觉注意机制能力应用到高光谱图像中目标的视觉显著性特征的增强或识别,对于高光谱图像的目标检测研究无疑会产生相当的促进作用。研究提出引入视觉注意机制理论应用于波段选择研究,构建面向目标检测应用的视觉注意机制波段选择模型。通过分析计算波段图幅的目标与背景的可识别程度,量化所在波段对地物目标与背景的判别能力,提出了基于目标视觉可识别度的波段选择方法;利用LC显著性算法进行空间域的视觉显著性目标分析,计算背景与目标的显著性差异绝对值,提出基于LC显著目标结构分布的波段选择方法。将这两种方法结合提出的改进子空间划分方法,建立面向目标检测的视觉注意机制波段选择模型,并经高光谱遥感AVIRIS San Diego公开数据集进行目标检测实验验证,结果表明所提出的基于视觉注意机制的波段选择模型对于目标检测应用具有较好的检测效果,实现了数据降维和高效的计算处理。展开更多
目前主流人体动作识别大部分都是基于卷积神经网络(Convolutional Neural Network,CNN)实现,而CNN容易忽略视频中的空间位置信息,从而降低了视频空间频域中动作识别能力。同时传统CNN不能快速定位到关键的特征位置,并且在训练过程中不...目前主流人体动作识别大部分都是基于卷积神经网络(Convolutional Neural Network,CNN)实现,而CNN容易忽略视频中的空间位置信息,从而降低了视频空间频域中动作识别能力。同时传统CNN不能快速定位到关键的特征位置,并且在训练过程中不能并行计算导致效率低。为了解决传统CNN在处理时间频域和多并行计算问题,提出了基于视觉Transformer(Vision Transformer,ViT)和3D卷积网络学习时空特征(Learning Spatiotemporal Features with 3D Convolutional Network,C3D)的人体动作识别算法。使用C3D提取视频的多维特征图、ViT的特征切片窗口对多维特征进行全局特征分割;使用Transformer的编码-解码模块对视频中人体动作进行预测。实验结果表明,所提的人体动作识别算法在UCF-101、HMDB51数据集上提高了动作识别的准确率。展开更多
文摘近年来,波段选择在高光谱图像降维处理中得到了广泛地应用,然而常用的数据降维方法并没能将与人类视觉系统相关的信息进行有效利用,如果将人类与生俱来的视觉注意机制能力应用到高光谱图像中目标的视觉显著性特征的增强或识别,对于高光谱图像的目标检测研究无疑会产生相当的促进作用。研究提出引入视觉注意机制理论应用于波段选择研究,构建面向目标检测应用的视觉注意机制波段选择模型。通过分析计算波段图幅的目标与背景的可识别程度,量化所在波段对地物目标与背景的判别能力,提出了基于目标视觉可识别度的波段选择方法;利用LC显著性算法进行空间域的视觉显著性目标分析,计算背景与目标的显著性差异绝对值,提出基于LC显著目标结构分布的波段选择方法。将这两种方法结合提出的改进子空间划分方法,建立面向目标检测的视觉注意机制波段选择模型,并经高光谱遥感AVIRIS San Diego公开数据集进行目标检测实验验证,结果表明所提出的基于视觉注意机制的波段选择模型对于目标检测应用具有较好的检测效果,实现了数据降维和高效的计算处理。
文摘车辆目标检测是自动驾驶的重要环节,现有的车辆目标检测算法在特征提取方面没有充分考虑卷积神经网络(convolutional neural network,CNN)和Transformer各自的优缺点,一定程度上限制了网络的整体性能。提出了一种由CNN和Transformer组成的双分支特征聚合网络。在编码阶段,基于CNN和Transformer各自的优势,构建了双分支主干网络来提取原始图像的特征信息;通过设计的多级别空间注意力模块和双支路特征聚合模块,使两个分支间的特征信息相互引导学习;通过构建的双分支注意力模块来进一步减少深层神经网络中特征信息的丢失。在实验部分通过消融实验和对比实验进一步验证了所提算法的有效性,其相比主流的目标检测算法,在mAP(mean average precision)指标上提升了约3.5%。
文摘目前主流人体动作识别大部分都是基于卷积神经网络(Convolutional Neural Network,CNN)实现,而CNN容易忽略视频中的空间位置信息,从而降低了视频空间频域中动作识别能力。同时传统CNN不能快速定位到关键的特征位置,并且在训练过程中不能并行计算导致效率低。为了解决传统CNN在处理时间频域和多并行计算问题,提出了基于视觉Transformer(Vision Transformer,ViT)和3D卷积网络学习时空特征(Learning Spatiotemporal Features with 3D Convolutional Network,C3D)的人体动作识别算法。使用C3D提取视频的多维特征图、ViT的特征切片窗口对多维特征进行全局特征分割;使用Transformer的编码-解码模块对视频中人体动作进行预测。实验结果表明,所提的人体动作识别算法在UCF-101、HMDB51数据集上提高了动作识别的准确率。