期刊文献+
共找到235,660篇文章
< 1 2 250 >
每页显示 20 50 100
ViTH:面向医学图像检索的视觉Transformer哈希改进算法
1
作者 刘传升 丁卫平 +2 位作者 程纯 黄嘉爽 王海鹏 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第5期11-26,共16页
对海量的医学图像进行有效检索会给医学诊断和治疗带来极其重要的意义.哈希方法是图像检索领域中的一种主流方法,但在医学图像领域的应用相对较少.针对此,提出一种面向医学图像检索的视觉Transformer哈希改进算法.首先使用视觉Transfor... 对海量的医学图像进行有效检索会给医学诊断和治疗带来极其重要的意义.哈希方法是图像检索领域中的一种主流方法,但在医学图像领域的应用相对较少.针对此,提出一种面向医学图像检索的视觉Transformer哈希改进算法.首先使用视觉Transformer模型作为基础的特征提取模块,其次在Transformer编码器的前、后端分别加入幂均值变换(Power-Mean Transformation,PMT),进一步增强模型的非线性性能,接着在Transformer编码器内部的多头注意力(Multi-Head Attention,MHA)层引入空间金字塔池化(Spatial Pyramid Pooling,SPP)形成多头空间金字塔池化注意力(Multi-Head Spatial Pyramid Pooling Attention,MHSPA)模块,该模块不仅可以提取全局的上下文特征,而且可以提取多尺度的局部上下文特征,并将不同尺度的特征进行融合.最后在输出幂均值变换层之后将提取到的特征分别通过两个多层感知机(Multi-Layer Perceptrons,MLPs),上分支的MLP用来预测图像的类别,下分支的MLP用来学习图像的哈希码.在损失函数部分,充分考虑了成对损失、量化损失、平衡损失以及分类损失来优化整个模型.在医学图像数据集ChestX-ray14和ISIC 2018上的实验结果表明,该研究所提出的算法相比于经典的哈希算法具有更好的检索效果. 展开更多
关键词 医学图像检索 视觉transformer 哈希 幂均值变换 空间金字塔池化
下载PDF
TransTM:A device-free method based on time-streaming multiscale transformer for human activity recognition
2
作者 Yi Liu Weiqing Huang +4 位作者 Shang Jiang Bobai Zhao Shuai Wang Siye Wang Yanfang Zhang 《Defence Technology(防务技术)》 SCIE EI CAS CSCD 2024年第2期619-628,共10页
RFID-based human activity recognition(HAR)attracts attention due to its convenience,noninvasiveness,and privacy protection.Existing RFID-based HAR methods use modeling,CNN,or LSTM to extract features effectively.Still... RFID-based human activity recognition(HAR)attracts attention due to its convenience,noninvasiveness,and privacy protection.Existing RFID-based HAR methods use modeling,CNN,or LSTM to extract features effectively.Still,they have shortcomings:1)requiring complex hand-crafted data cleaning processes and 2)only addressing single-person activity recognition based on specific RF signals.To solve these problems,this paper proposes a novel device-free method based on Time-streaming Multiscale Transformer called TransTM.This model leverages the Transformer's powerful data fitting capabilities to take raw RFID RSSI data as input without pre-processing.Concretely,we propose a multiscale convolutional hybrid Transformer to capture behavioral features that recognizes singlehuman activities and human-to-human interactions.Compared with existing CNN-and LSTM-based methods,the Transformer-based method has more data fitting power,generalization,and scalability.Furthermore,using RF signals,our method achieves an excellent classification effect on human behaviorbased classification tasks.Experimental results on the actual RFID datasets show that this model achieves a high average recognition accuracy(99.1%).The dataset we collected for detecting RFID-based indoor human activities will be published. 展开更多
关键词 Human activity recognition RFID transformer
下载PDF
基于RoBERTa和图增强Transformer的序列推荐方法 被引量:2
3
作者 王明虎 石智奎 +1 位作者 苏佳 张新生 《计算机工程》 CAS CSCD 北大核心 2024年第4期121-131,共11页
自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明... 自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明显劣势。为了更好地挖掘用户与商品之间的深层潜在特征,进一步提高推荐质量,提出一种基于Ro BERTa和图增强Transformer的序列推荐(RGT)模型。引入评论文本数据,首先利用预训练的Ro BERTa模型捕获评论文本中的字词语义特征,初步建模用户的个性化兴趣,然后根据用户与商品的历史交互信息,构建具有时序特性的商品关联图注意力机制网络模型,通过图增强Transformer的方法将图模型学习到的各个商品的特征表示以序列的形式输入Transformer编码层,最后将得到的输出向量与之前捕获的语义表征以及计算得到的商品关联图的全图表征输入全连接层,以捕获用户全局的兴趣偏好,实现用户对商品的预测评分。在3组真实亚马逊公开数据集上的实验结果表明,与Deep FM、Conv MF等经典文本推荐模型相比,RGT模型在均方根误差(RMSE)和平均绝对误差(MAE)2种指标上有显著提升,相较于最优对比模型最高分别提升4.7%和5.3%。 展开更多
关键词 推荐算法 评论文本 RoBERTa模型 图注意力机制 transformer机制
下载PDF
基于Depth-wise卷积和视觉Transformer的图像分类模型 被引量:2
4
作者 张峰 黄仕鑫 +1 位作者 花强 董春茹 《计算机科学》 CSCD 北大核心 2024年第2期196-204,共9页
图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关... 图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关系进行建模,一些研究者将Transformer应用于图像分类任务,但为了满足Transformer的序列化和并行化要求,需要将图像分割成大小相等、互不重叠的图像块,破坏了相邻图像数据块之间的局部信息。此外,由于Transformer具有较少的先验知识,模型往往需要在大规模数据集上进行预训练,因此计算复杂度较高。为了同时建模图像相邻块之间的局部信息并充分利用图像的全局信息,提出了一种基于Depth-wise卷积的视觉Transformer(Efficient Pyramid Vision Transformer,EPVT)模型。EPVT模型可以实现以较低的计算成本提取相邻图像块之间的局部和全局信息。EPVT模型主要包含3个关键组件:局部感知模块(Local Perceptron Module,LPM)、空间信息融合模块(Spatial Information Fusion,SIF)和“+卷积前馈神经网络(Convolution Feed-forward Network,CFFN)。LPM模块用于捕获图像的局部相关性;SIF模块用于融合相邻图像块之间的局部信息,并利用不同图像块之间的远距离依赖关系,提升模型的特征表达能力,使模型学习到输出特征在不同维度下的语义信息;CFFN模块用于编码位置信息和重塑张量。在图像分类数据集ImageNet-1K上,所提模型优于现有的同等规模的视觉Transformer分类模型,取得了82.6%的分类准确度,证明了该模型在大规模数据集上具有竞争力。 展开更多
关键词 深度学习 图像分类 Depth-wise卷积 视觉transformer 注意力机制
下载PDF
基于EMDPWVD时频图像和改进ViT网络的滚动轴承智能故障诊断
5
作者 樊红卫 马宁阁 +3 位作者 马嘉腾 陈步冉 曹现刚 张旭辉 《振动与冲击》 EI CSCD 北大核心 2024年第11期246-254,共9页
滚动轴承是机械设备的关键零部件之一,其故障诊断对设备安全稳定运行至关重要。针对滚动轴承振动信号的非平稳特点,提出经验模态分解联合伪魏格纳分布(empirical mode decomposition&pseudo-Wigner-Ville distribution, EMDPWVD)时... 滚动轴承是机械设备的关键零部件之一,其故障诊断对设备安全稳定运行至关重要。针对滚动轴承振动信号的非平稳特点,提出经验模态分解联合伪魏格纳分布(empirical mode decomposition&pseudo-Wigner-Ville distribution, EMDPWVD)时频图像联合改进Vision Transformer(ViT)网络模型的智能故障诊断新方法。首先针对实际信号研究短时傅里叶变换(short-time Fourier transform, STFT)、连续小波变换(continuous wavelet transform, CWT)和EMDPWVD三种时频分析方法,考虑STFT和CWT无法同时获得高的时间分辨率和频率分辨率,优选EMDPWVD作为智能故障诊断网络的时频图像构造方法。其次,以经典ViT作为故障诊断基础模型,将时频图像按照预定尺寸分块并线性映射为输入序列,通过自注意力机制整合图像全局信息,借助堆叠Transformer编码器完成网络传输,进而实现故障诊断。为进一步提高故障诊断准确率,将池化层作为ViT的预处理网络,获得改进的Pooling ViT(PiT)模型,实现时频图像的空间特征延展,提升模型对输入图像敏感度。结果表明,所提方法对滚动轴承不同故障类型均有高的诊断准确率,PiT较ViT的准确率提高4.40%,证明对ViT加入池化层能够实现滚动轴承故障诊断效果提升。 展开更多
关键词 滚动轴承 故障诊断 时频图像 Vision transformer(vit) 池化层
下载PDF
基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法 被引量:1
6
作者 田子建 吴佳奇 +4 位作者 张文琪 陈伟 周涛 杨伟 王帅 《煤炭科学技术》 EI CAS CSCD 北大核心 2024年第1期297-310,共14页
高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低... 高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法。基于生成对抗思想搭建生成对抗式主体模型框架,使用目标图像域而非单一参考图像驱动判别器监督生成器的训练,实现对低照度图像的充分增强;基于特征表示学习理论搭建特征编码器,将图像解耦为亮度分量和反射分量,避免图像增强过程中亮度与颜色特征相互影响从而导致颜色失真问题;设计CEM-Transformer Encoder通过捕获全局上下文关系和提取局部区域特征,能够充分提升整体图像亮度并消除局部区域照度不均;在反射分量增强过程中,使用结合CEM-Cross-Transformer Encoder的跳跃连接将低级特征与深层网络处特征进行自适应融合,能够有效避免细节特征丢失,并在编码网络中添加ECA-Net,提高浅层网络的特征提取效率。制作矿井低照度图像数据集为矿井低照度图像增强任务提供数据资源。试验显示,在矿井低照度图像数据集和公共数据集中,与5种先进的低照度图像增强算法相比,该算法增强图像的质量指标PSNR、SSIM、VIF平均提高了16.564%,10.998%,16.226%和14.438%,10.888%,14.948%,证明该算法能够有效提升整体图像亮度,消除照度不均,避免颜色失真和细节丢失,实现矿井低照度图像增强。 展开更多
关键词 图像增强 图像识别 生成对抗网络 特征解耦 transformer
下载PDF
CNN-Transformer特征融合多目标跟踪算法 被引量:1
7
作者 张英俊 白小辉 谢斌红 《计算机工程与应用》 CSCD 北大核心 2024年第2期180-190,共11页
在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特... 在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特征提取和融合的多目标跟踪算法CTMOT(CNN-transformer multi-object tracking)。使用基于CNN和Transformer双分支并行的主干网络分别提取图像的局部和全局特征。使用双向桥接模块(two-way braidge module,TBM)对两种特征进行充分融合。将融合后的特征输入两组并行的解码器进行处理。将解码器输出的检测框和跟踪框进行匹配,完成多目标跟踪任务。在多目标跟踪数据集MOT17、MOT20、KITTI以及UADETRAC上进行评估,CTMOT算法的MOTP和IDs指标在四个数据集上均达到了SOTA效果,MOTA指标分别达到了76.4%、66.3%、92.36%和88.57%,在MOT数据集上与SOTA方法效果相当,在KITTI数据集上达到SOTA效果。由于同时完成目标检测和关联,能够端到端进行目标跟踪,跟踪速度可达35 FPS,表明CTMOT算法在跟踪的实时性和准确性上达到了较好的平衡,具有较大潜力。 展开更多
关键词 多目标跟踪 transformer 特征融合
下载PDF
基于残差U-Net和自注意力Transformer编码器的磁场预测方法 被引量:1
8
作者 金亮 尹振豪 +2 位作者 刘璐 宋居恒 刘元凯 《电工技术学报》 EI CSCD 北大核心 2024年第10期2937-2952,共16页
利用有限元方法对几何结构复杂的电机和变压器进行磁场分析,存在仿真时间长且无法复用的问题。因此,该文提出一种基于残差U-Net和自注意力Transformer编码器的磁场预测方法。首先建立永磁同步电机(PMSM)和非晶合金变压器(AMT)有限元模型... 利用有限元方法对几何结构复杂的电机和变压器进行磁场分析,存在仿真时间长且无法复用的问题。因此,该文提出一种基于残差U-Net和自注意力Transformer编码器的磁场预测方法。首先建立永磁同步电机(PMSM)和非晶合金变压器(AMT)有限元模型,得到深度学习训练所需的数据集;然后将Transformer模块与U-Net模型结合,并引入短残差机制建立ResUnet-Transformer模型,通过预测图像的像素实现磁场预测;最后通过Targeted Dropout算法和动态学习率调整策略对模型进行优化,解决拟合问题并提高预测精度。计算实例证明,ResUnet-Transformer模型在PMSM和AMT数据集上测试集的平均绝对百分比误差(MAPE)均小于1%,且仅需500组样本。该文提出的磁场预测方法能减少实际工况和多工况下精细模拟和拓扑优化的时间和资源消耗,亦是虚拟传感器乃至数字孪生的关键实现方法之一。 展开更多
关键词 有限元方法 电磁场 深度学习 U-Net transformer
下载PDF
融合卷积注意力和Transformer架构的行人重识别方法 被引量:1
9
作者 王静 李沛橦 +2 位作者 赵容锋 张云 马振玲 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期466-476,共11页
行人重识别技术是智能安防系统中的重要方法之一,为构建一个适用各种复杂场景的行人重识别模型,基于现有的卷积神经网络和Transformer模型,提出一种融合卷积注意力和Transformer(FCAT)架构的方法,以增强Transformer对局部细节信息的关... 行人重识别技术是智能安防系统中的重要方法之一,为构建一个适用各种复杂场景的行人重识别模型,基于现有的卷积神经网络和Transformer模型,提出一种融合卷积注意力和Transformer(FCAT)架构的方法,以增强Transformer对局部细节信息的关注。所提方法主要将卷积空间注意力和通道注意力嵌入Transformer架构中,分别加强对图像中重要区域的关注和对重要通道特征的关注,以进一步提高Transformer架构对局部细节特征的提取能力。在3个公开行人重识别数据集上的对比消融实验证明,所提方法在非遮挡数据集上取得了与现有方法相当的结果,在遮挡数据集上的性能得到显著提升。所提方法更加轻量化,在不增加额外计算量和模型参数的情况下,推理速度得到了提升。 展开更多
关键词 行人重识别 深度学习 卷积神经网络 transformer 注意力机制
下载PDF
基于Transformer和动态3D卷积的多源遥感图像分类 被引量:1
10
作者 高峰 孟德森 +2 位作者 解正源 亓林 董军宇 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期606-614,共9页
多源遥感数据具有互补性和协同性,近年来,基于深度学习的方法已经在多源遥感图像分类中取得了一定进展,但当前方法仍面临关键难题,如多源遥感图像特征表达不一致,融合困难,基于静态推理范式的神经网络缺乏对不同类别地物的适应性。为解... 多源遥感数据具有互补性和协同性,近年来,基于深度学习的方法已经在多源遥感图像分类中取得了一定进展,但当前方法仍面临关键难题,如多源遥感图像特征表达不一致,融合困难,基于静态推理范式的神经网络缺乏对不同类别地物的适应性。为解决上述问题,提出了基于跨模态Transformer和多尺度动态3D卷积的多源遥感图像分类模型。为提高多源特征表达的一致性,设计了基于Transformer的融合模块,借助其强大的注意力建模能力挖掘高光谱和LiDAR数据特征之间的相互作用;为提高特征提取方法对不同地物类别的适应性,设计了多尺度动态3D卷积模块,将输入特征的多尺度信息融入卷积核的调制,提高卷积操作对不同地物的适应性。采用多源遥感数据集Houston和Trento对所提方法进行验证,实验结果表明:所提方法在Houston和Trento数据集上总体准确率分别达到94.60%和98.21%,相比MGA-MFN等主流方法,总体准确率分别至少提升0.97%和0.25%,验证了所提方法可有效提升多源遥感图像分类的准确率。 展开更多
关键词 高光谱图像 激光雷达 transformer 多源特征融合 动态卷积
下载PDF
考虑特征重组与改进Transformer的风电功率短期日前预测方法 被引量:3
11
作者 李练兵 高国强 +3 位作者 吴伟强 魏玉憧 卢盛欣 梁纪峰 《电网技术》 EI CSCD 北大核心 2024年第4期1466-1476,I0025,I0027-I0029,共15页
短期日前风电功率预测对电力系统调度计划制定有重要意义,该文为提高风电功率预测的准确性,提出了一种基于Transformer的预测模型Powerformer。模型通过因果注意力机制挖掘序列的时序依赖;通过去平稳化模块优化因果注意力以提高数据本... 短期日前风电功率预测对电力系统调度计划制定有重要意义,该文为提高风电功率预测的准确性,提出了一种基于Transformer的预测模型Powerformer。模型通过因果注意力机制挖掘序列的时序依赖;通过去平稳化模块优化因果注意力以提高数据本身的可预测性;通过设计趋势增强和周期增强模块提高模型的预测能力;通过改进解码器的多头注意力层,使模型提取周期特征和趋势特征。该文首先对风电数据进行预处理,采用完全自适应噪声集合经验模态分解(complete ensemble empirical mode decomposition with adaptive noise,CEEMDAN)将风电数据序列分解为不同频率的本征模态函数并计算其样本熵,使得风电功率序列重组为周期序列和趋势序列,然后将序列输入到Powerformer模型,实现对风电功率短期日前准确预测。结果表明,虽然训练时间长于已有预测模型,但Poweformer模型预测精度得到提升;同时,消融实验结果验证了模型各模块的必要性和有效性,具有一定的应用价值。 展开更多
关键词 风电功率预测 特征重组 transformer模型 注意力机制 周期趋势增强
下载PDF
融合CNN和ViT的声信号轴承故障诊断方法 被引量:3
12
作者 宁方立 王珂 郝明阳 《振动与冲击》 EI CSCD 北大核心 2024年第3期158-163,170,共7页
针对轴承故障诊断任务数据量少、故障信号非平稳等特点,提出一种短时傅里叶变换、卷积神经网络和视觉转换器相结合的轴承故障诊断方法。首先,利用短时傅里叶变换将原始声信号转换为包含时序信息和频率信息的时频图像。其次,将时频图像... 针对轴承故障诊断任务数据量少、故障信号非平稳等特点,提出一种短时傅里叶变换、卷积神经网络和视觉转换器相结合的轴承故障诊断方法。首先,利用短时傅里叶变换将原始声信号转换为包含时序信息和频率信息的时频图像。其次,将时频图像作为卷积神经网络的输入,用于隐式提取图像的深层特征,其输出作为视觉转换器的输入。视觉转换器用于提取信号的时间序列信息。并在输出层利用Softmax函数实现故障模式的识别。试验结果表明,该方法对于轴承故障诊断准确率较高。为了更好解释和优化提出的轴承故障诊断方法,利用t-分布领域嵌入算法对分类特征进行了可视化展示。 展开更多
关键词 短时傅里叶变换 卷积神经网络 视觉转换器 t-分布领域嵌入算法
下载PDF
基于遥感多参数和CNN-Transformer的冬小麦单产估测 被引量:2
13
作者 王鹏新 杜江莉 +3 位作者 张悦 刘峻明 李红梅 王春梅 《农业机械学报》 EI CAS CSCD 北大核心 2024年第3期173-182,共10页
为了提高冬小麦单产估测精度,改善估产模型存在的高产低估和低产高估等现象,以陕西省关中平原为研究区域,选取旬尺度条件植被温度指数(VTCI)、叶面积指数(LAI)和光合有效辐射吸收比率(FPAR)为遥感特征参数,结合卷积神经网络(CNN)局部特... 为了提高冬小麦单产估测精度,改善估产模型存在的高产低估和低产高估等现象,以陕西省关中平原为研究区域,选取旬尺度条件植被温度指数(VTCI)、叶面积指数(LAI)和光合有效辐射吸收比率(FPAR)为遥感特征参数,结合卷积神经网络(CNN)局部特征提取能力和基于自注意力机制的Transformer网络的全局信息提取能力,构建CNN-Transformer深度学习模型,用于估测关中平原冬小麦产量。与Transformer模型(R^(2)为0.64,RMSE为465.40 kg/hm^(2),MAPE为8.04%)相比,CNN-Transformer模型具有更高的冬小麦单产估测精度(R^(2)为0.70,RMSE为420.39 kg/hm^(2),MAPE为7.65%),能够从遥感多参数中提取更多与产量相关的信息,且对于Transformer模型存在的高产低估和低产高估现象均有所改善。基于5折交叉验证法和留一法进一步验证了CNN-Transformer模型的鲁棒性和泛化能力。此外,基于CNN-Transformer模型捕获冬小麦生长过程的累积效应,分析逐步累积旬尺度输入参数对产量估测的影响,评估模型对于冬小麦不同生长阶段的累积过程的表征能力。结果表明,模型能有效捕捉冬小麦生长的关键时期,3月下旬至5月上旬是冬小麦生长的关键时期。 展开更多
关键词 冬小麦 作物估产 遥感多参数 卷积神经网络 transformer模型
下载PDF
基于Transformer的多尺度遥感语义分割网络 被引量:1
14
作者 邵凯 王明政 王光宇 《智能系统学报》 CSCD 北大核心 2024年第4期920-929,共10页
为了提升遥感图像语义分割效果,本文针对分割目标类间方差小、类内方差大的特点,从全局上下文信息和多尺度语义特征2个关键点提出一种基于Transformer的多尺度遥感语义分割网络(muliti-scale Transformer network,MSTNet)。其由编码器... 为了提升遥感图像语义分割效果,本文针对分割目标类间方差小、类内方差大的特点,从全局上下文信息和多尺度语义特征2个关键点提出一种基于Transformer的多尺度遥感语义分割网络(muliti-scale Transformer network,MSTNet)。其由编码器和解码器2个部分组成,编码器包含基于Transformer改进的视觉注意网络(visual attention network,VAN)主干和基于空洞空间金字塔池化(atrous spatial pyramid pooling, ASPP)结构改进的多尺度语义特征提取模块(multi-scale semantic feature extraction module, MSFEM)。解码器采用轻量级多层感知器(multi-layer perception,MLP)配合编码器设计,充分分析所提取的包含全局上下文信息和多尺度表示的语义特征。MSTNet在2个高分辨率遥感语义分割数据集ISPRS Potsdam和LoveDA上进行验证,平均交并比(mIoU)分别达到79.50%和54.12%,平均F1-score(m F1)分别达到87.46%和69.34%,实验结果验证了本文所提方法有效提升了遥感图像语义分割的效果。 展开更多
关键词 遥感图像 语义分割 卷积神经网络 transformer 全局上下文信息 多尺度感受野 编码器 解码器
下载PDF
引入轻量级Transformer的无人机视觉跟踪 被引量:1
15
作者 谌海云 王海川 +1 位作者 黄忠义 余鸿皓 《计算机工程与应用》 CSCD 北大核心 2024年第2期244-253,共10页
随着无人机在军事和民用领域的广泛运用,对于高精度、低功耗智能无人机跟踪系统的需求日益增加。针对目标跟踪算法在无人机跟踪场景下很难平衡跟踪精度和跟踪速度的问题,提出一种引入轻量级Transformer的孪生网络无人机目标跟踪算法Sia... 随着无人机在军事和民用领域的广泛运用,对于高精度、低功耗智能无人机跟踪系统的需求日益增加。针对目标跟踪算法在无人机跟踪场景下很难平衡跟踪精度和跟踪速度的问题,提出一种引入轻量级Transformer的孪生网络无人机目标跟踪算法SiamLT。使用Transformer对AlexNet网络进行改进,在增加最小计算量的情况下捕获全局特征信息。在目标模板与搜索区域匹配方面,联合Transformer和深度互相关运算提出一种二元相关模块,同时捕获目标模板与搜索区域之间的局部相关性和全局依赖关系。在分类回归网络中引入距离交并比,并采用多监督策略训练网络,以获取更准确的目标位置。在UAV123和UAV20L跟踪基准上的实验结果表明,SiamLT算法优于主流的目标跟踪算法,更有效地平衡了跟踪精度和跟踪速度。 展开更多
关键词 无人机 目标跟踪 transformer 孪生网络 多头注意力
下载PDF
基于ViT-改进YOLOv7的稻田杂草识别
16
作者 陈学深 吴昌鹏 +4 位作者 党佩娜 张恩造 陈彦学 汤存耀 齐龙 《农业工程学报》 EI CAS CSCD 北大核心 2024年第10期185-193,共9页
为解决光线遮蔽、藻萍干扰以及稻叶尖形状相似等复杂环境导致稻田杂草识别效果不理想问题,该研究提出一种基于组合深度学习的杂草识别方法。引入MSRCP(multi-scale retinex with color preservation)对图像进行增强,以提高图像亮度及对... 为解决光线遮蔽、藻萍干扰以及稻叶尖形状相似等复杂环境导致稻田杂草识别效果不理想问题,该研究提出一种基于组合深度学习的杂草识别方法。引入MSRCP(multi-scale retinex with color preservation)对图像进行增强,以提高图像亮度及对比度;加入ViT分类网络去除干扰背景,以提高模型在复杂环境下对小目标杂草的识别性能。在YOLOv7模型中主干特征提取网络替换为GhostNet网络,并引入CA注意力机制,以增强主干特征提取网络对杂草特征提取能力及简化模型参数计算量。消融试验表明:改进后的YOLOv7模型平均精度均值为88.2%,较原YOLOv7模型提高了3.3个百分点,参数量减少10.43 M,计算量减少66.54×109次/s。识别前先经过MSRCP图像增强后,与原模型相比,改进YOLOv7模型的平均精度均值提高了2.6个百分点,光线遮蔽、藻萍干扰以及稻叶尖形状相似的复杂环境下平均精度均值分别提高5.3、3.6、3.1个百分点,加入ViT分类网络后,较原模型平均精度均值整体提升了4.4个百分点,光线遮蔽、藻萍干扰一级稻叶尖形状相似的复杂环境下的平均精度均值较原模型整体提升了6.2、6.1、5.7个百分点。ViT-改进YOLOv7模型的平均精度均值为92.6%,相比于YOLOv5s、YOLOXs、MobilenetV3-YOLOv7、YOLOv8和改进YOLOv7分别提高了11.6、10.1、5.0、4.2、4.4个百分点。研究结果可为稻田复杂环境的杂草精准识别提供支撑。 展开更多
关键词 机器视觉 深度学习 YOLOv7 vit 稻田杂草 识别
下载PDF
融合Transformer和CNN的轻量级人脸识别算法 被引量:1
17
作者 李明 党青霞 《计算机工程与应用》 CSCD 北大核心 2024年第14期96-104,共9页
随着深度学习的发展,卷积神经网络通过堆叠卷积层逐步扩大感受野以融合局部特征的方式已经成为人脸识别(FR)的主流方法,但这种方法存在因忽略人脸全局语义信息和缺乏对人脸重点特征信息的关注造成识别准确率不高,以及大参数量层数的堆... 随着深度学习的发展,卷积神经网络通过堆叠卷积层逐步扩大感受野以融合局部特征的方式已经成为人脸识别(FR)的主流方法,但这种方法存在因忽略人脸全局语义信息和缺乏对人脸重点特征信息的关注造成识别准确率不高,以及大参数量层数的堆叠导致网络难以部署于资源受限设备的问题。因此提出一种融合Transformer和CNN的极其轻量级FR算法gcsamTfaceNet。使用深度可分离卷积构建主干网络以降低算法的参数量;引入通道-空间注意力机制,从通道和空间两个域最优化选择特征以提高对人脸重点区域的关注度;在此基础上,融合Transformer模块以捕获特征图的全局语义信息,克服卷积神经网络在长距离语义依赖性建模方面的局限性,提高算法的全局特征感知能力。参数量仅为6.5×10^(5)的gcsamTfaceNet在9个验证集(LFW、CA-LFW、CP-LFW、CFP-FP、CFP-FF、AgeDB-30、VGG2-FP、IJB-B以及IJB-C)上实验评估,分别取得99.67%、95.60%、89.32%、93.67%、99.65%、96.35%、93.36%、89.43%和91.38%的平均准确率,达到参数量和性能之间较好的权衡。 展开更多
关键词 轻量级人脸识别 卷积神经网络 transformer 注意力机制
下载PDF
基于ViT的轻量级恶意代码检测架构
18
作者 黄保华 杨婵娟 +1 位作者 熊宇 庞飔 《信息网络安全》 CSCD 北大核心 2024年第9期1409-1421,共13页
随着信息社会的快速发展,恶意代码变体日益增多,给现有的检测方法带来了挑战。为了提高恶意代码变体的检测准确率和效率,文章提出一种新的混合架构FasterMalViT。该架构通过融合部分卷积结构改进ViT,显著提升其在恶意代码检测领域的性... 随着信息社会的快速发展,恶意代码变体日益增多,给现有的检测方法带来了挑战。为了提高恶意代码变体的检测准确率和效率,文章提出一种新的混合架构FasterMalViT。该架构通过融合部分卷积结构改进ViT,显著提升其在恶意代码检测领域的性能。为了解决引入卷积操作导致参数量增加的问题,文章采用可分离自注意力机制替代传统的多头注意力,有效减少了参数量,降低了计算成本。针对恶意代码数据集中各类样本分布不均衡的问题,文章引入类别平衡焦点损失函数,引导模型在训练过程中更关注样本数量较少的类别,从而提高难分类别的性能。在Microsoft BIG、Malimg数据集和MalwareBazaar数据集上的实验结果表明,FasterMalViT具有较好的检测性能和泛化能力。 展开更多
关键词 恶意代码 vit 部分卷积 可分离自注意力
下载PDF
基于Swin Transformer的沥青路面病害分类检测研究 被引量:1
19
作者 郭晨 杨玉龙 +1 位作者 左琛 杨冰鑫 《计算机测量与控制》 2024年第2期114-121,共8页
针对传统卷积神经网络模型在沥青路面病害检测中识别长距离裂缝结构能力不足以及面临的精度局限问题,引入Swin Transformer模型进行沥青路面病害分类研究;首先对于路面检测车采集到的沥青路面扫描图像对比度低的问题,使用直方图均衡技... 针对传统卷积神经网络模型在沥青路面病害检测中识别长距离裂缝结构能力不足以及面临的精度局限问题,引入Swin Transformer模型进行沥青路面病害分类研究;首先对于路面检测车采集到的沥青路面扫描图像对比度低的问题,使用直方图均衡技术处理图像,增加图像可视化效果;其次,选取3种经典卷积神经网络模型作为对比模型,并在训练过程中采用更换损失函数,调整预训练模型等手段解决过拟合问题;并选用准确率、查全率、F1-score作为评价指标;在最终实验结果中Swin Transformer识别准确率达到了80.6%,F1-score达到了0.776,不仅在整体分类准确率上超越了传统CNN模型,并且对具有长距离特征结构的病害方面具有更高的识别准确率,同时具有良好的可靠性。 展开更多
关键词 Swin transformer 路面病害检测 卷积神经网络 图像分类 图像处理
下载PDF
基于Transformer改进的YOLOv5+DeepSORT的车辆跟踪算法
20
作者 何水龙 张靖佳 +1 位作者 张林俊 莫德赟 《汽车技术》 CSCD 北大核心 2024年第7期9-16,共8页
针对传统目标检测跟踪算法检测精度低、全局感知能力差、对遮挡和小目标物体的识别能力差等问题,提出了一种基于轻量化Transformer改进的YOLOv5和DeepSORT算法的车辆跟踪方法。首先,利用EfficientFormerV2模型改进YOLOv5算法模型,增强... 针对传统目标检测跟踪算法检测精度低、全局感知能力差、对遮挡和小目标物体的识别能力差等问题,提出了一种基于轻量化Transformer改进的YOLOv5和DeepSORT算法的车辆跟踪方法。首先,利用EfficientFormerV2模型改进YOLOv5算法模型,增强车辆的目标检测能力;然后,利用移位窗口(Swin)模型的优点改进DeepSORT多目标跟踪算法中的重识别(Re-Identification)模块,提高车辆的跟踪能力和精度;最后,通过数据集KITTI和VeRi开展对比试验和消融实验。结果表明,在复杂工况下,该方法的性能在车辆遮挡和小目标识别方面显著提高,平均准确度达到96.7%,目标跟踪准确度提高了9.547%,编号(ID)切换总次数减少了26.4%。 展开更多
关键词 YOLOv5 车辆检测 DeepSORT transformer
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部