期刊文献+
共找到39篇文章
< 1 2 >
每页显示 20 50 100
基于Vision Transformer-LSTM(ViTL)的多时序遥感影像农作物分类方法
1
作者 张青云 杨辉 +1 位作者 李兴伍 武永闯 《安徽农业大学学报》 CAS CSCD 2024年第5期888-898,共11页
针对当前遥感农作物分类研究中深度学习模型对光谱时间和空间信息特征采样不足,农作物提取仍然存在边界模糊、漏提、误提的问题,提出了一种名为视觉Transformer-长短期记忆递归神经网络(Vision Transformer-long short term memory,ViTL... 针对当前遥感农作物分类研究中深度学习模型对光谱时间和空间信息特征采样不足,农作物提取仍然存在边界模糊、漏提、误提的问题,提出了一种名为视觉Transformer-长短期记忆递归神经网络(Vision Transformer-long short term memory,ViTL)的深度学习模型,ViTL模型集成了双路Vision-Transformer特征提取、时空特征融合和长短期记忆递归神经网络(LSTM)时序分类等3个关键模块,双路Vision-Transformer特征提取模块用于捕获图像的时空特征相关性,一路提取空间分类特征,一路提取时间变化特征;时空特征融合模块用于将多时特征信息进行交叉融合;LSTM时序分类模块捕捉多时序的依赖关系并进行输出分类。综合利用基于多时序卫星影像的遥感技术理论和方法,对黑龙江省齐齐哈尔市讷河市作物信息进行提取,研究结果表明,ViTL模型表现出色,其总体准确率(Overall Accuracy,OA)、平均交并比(Mean Intersection over Union,MIoU)和F1分数分别达到0.8676、0.6987和0.8175,与其他广泛使用的深度学习方法相比,包括三维卷积神经网络(3-D CNN)、二维卷积神经网络(2-D CNN)和长短期记忆递归神经网络(LSTM),ViTL模型的F1分数提高了9%~12%,显示出显著的优越性。ViTL模型克服了面对多时序遥感影像的农作物分类任务中的时间和空间信息特征采样不足问题,为准确、高效地农作物分类提供了新思路。 展开更多
关键词 农作物分类 vision transformer(vit) LSTM 深度学习 遥感监测
下载PDF
基于Vision Transformer的阿尔茨海默病分类研究
2
作者 许曙博 郑英豪 +3 位作者 秦方博 周超 周劲 陈嘉燕 《微型电脑应用》 2024年第8期4-7,共4页
为了有效地提升对阿尔茨海默病(AD)的磁共振成像(MRI)图像分类准确率,提出一种LC(Layer-Cut)-ViT方法。该方法通过引入Vision Transformer(ViT)的自注意力机制对MRI图像进行层切分,使模型能更好地理解图像的全局信息,同时突出切片间的... 为了有效地提升对阿尔茨海默病(AD)的磁共振成像(MRI)图像分类准确率,提出一种LC(Layer-Cut)-ViT方法。该方法通过引入Vision Transformer(ViT)的自注意力机制对MRI图像进行层切分,使模型能更好地理解图像的全局信息,同时突出切片间的特征关系。此外,通过配准、颅骨分离算法提取MRI图像的脑部组织部分,进一步提升模型的性能。实验结果显示,所提方法对阿尔茨海默病的MRI图像具有较好的分类能力。 展开更多
关键词 阿尔茨海默病 MRI图像分类 vision transformer LC-vit
下载PDF
融合自监督学习和Vision Transformer的作物病害识别模型
3
作者 张广海 许佳炜 +3 位作者 夏慧娟 王杨 张辉 段蒙蒙 《绵阳师范学院学报》 2024年第11期93-101,共9页
针对基于深度卷积神经网络的作物病害识别模型存在抗干扰能力不足问题,提出一种融合自监督学习和Vision Transformer的HMLP_TR-ViT模型.首先在预训练阶段使用HMLP分块序列化结构来提高MAE模型的层级信息提取能力;然后在精调阶段引入序... 针对基于深度卷积神经网络的作物病害识别模型存在抗干扰能力不足问题,提出一种融合自监督学习和Vision Transformer的HMLP_TR-ViT模型.首先在预训练阶段使用HMLP分块序列化结构来提高MAE模型的层级信息提取能力;然后在精调阶段引入序列重组操作以消除自注意力计算过程中的无效背景序列块,旨在提高网络编码层的推理速度,使所提模型更加聚焦作物病害区域.在公开数据集Plant-Village和自建数据集PDVD-7上实验,使用HMLP结构后的识别率分别为99.90%和98.37%,序列重组后的识别率分别为99.92%和98.37%;对比DCNNs(ResNet、EfficientNet和ConvNeXt),HMLP_TR-ViT在两个数据集上病害识别性能均达到最优,分别为99.92%和98.46%. 展开更多
关键词 作物病害识别 自监督学习 序列重组 vision transformer 自注意力
下载PDF
融合CNN和ViT的声信号轴承故障诊断方法 被引量:5
4
作者 宁方立 王珂 郝明阳 《振动与冲击》 EI CSCD 北大核心 2024年第3期158-163,170,共7页
针对轴承故障诊断任务数据量少、故障信号非平稳等特点,提出一种短时傅里叶变换、卷积神经网络和视觉转换器相结合的轴承故障诊断方法。首先,利用短时傅里叶变换将原始声信号转换为包含时序信息和频率信息的时频图像。其次,将时频图像... 针对轴承故障诊断任务数据量少、故障信号非平稳等特点,提出一种短时傅里叶变换、卷积神经网络和视觉转换器相结合的轴承故障诊断方法。首先,利用短时傅里叶变换将原始声信号转换为包含时序信息和频率信息的时频图像。其次,将时频图像作为卷积神经网络的输入,用于隐式提取图像的深层特征,其输出作为视觉转换器的输入。视觉转换器用于提取信号的时间序列信息。并在输出层利用Softmax函数实现故障模式的识别。试验结果表明,该方法对于轴承故障诊断准确率较高。为了更好解释和优化提出的轴承故障诊断方法,利用t-分布领域嵌入算法对分类特征进行了可视化展示。 展开更多
关键词 短时傅里叶变换 卷积神经网络 视觉转换器 t-分布领域嵌入算法
下载PDF
基于EMDPWVD时频图像和改进ViT网络的滚动轴承智能故障诊断
5
作者 樊红卫 马宁阁 +3 位作者 马嘉腾 陈步冉 曹现刚 张旭辉 《振动与冲击》 EI CSCD 北大核心 2024年第11期246-254,共9页
滚动轴承是机械设备的关键零部件之一,其故障诊断对设备安全稳定运行至关重要。针对滚动轴承振动信号的非平稳特点,提出经验模态分解联合伪魏格纳分布(empirical mode decomposition&pseudo-Wigner-Ville distribution, EMDPWVD)时... 滚动轴承是机械设备的关键零部件之一,其故障诊断对设备安全稳定运行至关重要。针对滚动轴承振动信号的非平稳特点,提出经验模态分解联合伪魏格纳分布(empirical mode decomposition&pseudo-Wigner-Ville distribution, EMDPWVD)时频图像联合改进Vision Transformer(ViT)网络模型的智能故障诊断新方法。首先针对实际信号研究短时傅里叶变换(short-time Fourier transform, STFT)、连续小波变换(continuous wavelet transform, CWT)和EMDPWVD三种时频分析方法,考虑STFT和CWT无法同时获得高的时间分辨率和频率分辨率,优选EMDPWVD作为智能故障诊断网络的时频图像构造方法。其次,以经典ViT作为故障诊断基础模型,将时频图像按照预定尺寸分块并线性映射为输入序列,通过自注意力机制整合图像全局信息,借助堆叠Transformer编码器完成网络传输,进而实现故障诊断。为进一步提高故障诊断准确率,将池化层作为ViT的预处理网络,获得改进的Pooling ViT(PiT)模型,实现时频图像的空间特征延展,提升模型对输入图像敏感度。结果表明,所提方法对滚动轴承不同故障类型均有高的诊断准确率,PiT较ViT的准确率提高4.40%,证明对ViT加入池化层能够实现滚动轴承故障诊断效果提升。 展开更多
关键词 滚动轴承 故障诊断 时频图像 vision transformer(vit) 池化层
下载PDF
基于Vision Transformer的中文唇语识别 被引量:2
6
作者 薛峰 洪自坤 +2 位作者 李书杰 李雨 谢胤岑 《模式识别与人工智能》 EI CSCD 北大核心 2022年第12期1111-1121,共11页
唇语识别作为一种将唇读视频转换为文本的多模态任务,旨在理解说话者在无声情况下表达的意思.目前唇语识别主要利用卷积神经网络提取唇部视觉特征,捕获短距离像素关系,难以区分相似发音字符的唇形.为了捕获视频图像中唇部区域像素之间... 唇语识别作为一种将唇读视频转换为文本的多模态任务,旨在理解说话者在无声情况下表达的意思.目前唇语识别主要利用卷积神经网络提取唇部视觉特征,捕获短距离像素关系,难以区分相似发音字符的唇形.为了捕获视频图像中唇部区域像素之间的长距离关系,文中提出基于Vision Transformer(ViT)的端到端中文句子级唇语识别模型,融合ViT和门控循环单元(Gate Recurrent Unit,GRU),提高对嘴唇视频的视觉时空特征提取能力.具体地,首先使用ViT的自注意力模块提取嘴唇图像的全局空间特征,再通过GRU对帧序列时序建模,最后使用基于注意力机制的级联序列到序列模型实现对拼音和汉字语句的预测.在中文唇语识别数据集CMLR上的实验表明,文中模型的汉字错误率较低. 展开更多
关键词 唇语识别 vision transformer(vit) 深度神经网络 编解码器 注意力机制 特征提取
下载PDF
基于自监督视觉Transformer的图像美学质量评价方法
7
作者 黄荣 宋俊杰 +1 位作者 周树波 刘浩 《计算机应用》 CSCD 北大核心 2024年第4期1269-1276,共8页
现有的图像美学质量评价方法普遍使用卷积神经网络(CNN)提取图像特征,但受局部感受野机制的限制,CNN较难提取图像的全局特征,导致全局构图关系、全局色彩搭配等美学属性缺失。为解决该问题,提出基于自监督视觉Transformer(SSViT)模型的... 现有的图像美学质量评价方法普遍使用卷积神经网络(CNN)提取图像特征,但受局部感受野机制的限制,CNN较难提取图像的全局特征,导致全局构图关系、全局色彩搭配等美学属性缺失。为解决该问题,提出基于自监督视觉Transformer(SSViT)模型的图像美学质量评价方法。利用自注意力机制建立图像局部块之间的长距离依赖关系,自适应地学习图像不同局部块之间的相关性,提取图像的全局特征,从而刻画图像的美学属性;同时,设计图像降质分类、图像美学质量排序和图像语义重构这3项美学质量感知任务,利用无标注的图像数据对视觉Transformer(ViT)进行自监督预训练,增强全局特征的表达能力。在AVA(Aesthetic Visual Assessment)数据集上的实验结果显示,SSViT模型在美学质量分类准确率、皮尔森线性相关系数(PLCC)和斯皮尔曼等级相关系数(SRCC)指标上分别达到83.28%、0.7634和0.7462。以上实验结果表明,SSViT模型具有较高的图像美学质量评价准确性。 展开更多
关键词 图像美学质量评价 视觉transformer 自监督学习 全局特征 自注意力机制
下载PDF
基于双通道Transformer的地铁站台异物检测
8
作者 刘瑞康 刘伟铭 +2 位作者 段梦飞 谢玮 戴愿 《计算机工程》 CAS CSCD 北大核心 2024年第4期197-207,共11页
Transformer因其全局注意力优势在异物检测上取得了比卷积神经网络(CNN)更具竞争力的结果,但依然面临计算成本高、输入图像块尺寸固定、局部与全局信息交互匮乏等问题。提出一种基于双通道Transformer骨干网络、金字塔轻量化Transforme... Transformer因其全局注意力优势在异物检测上取得了比卷积神经网络(CNN)更具竞争力的结果,但依然面临计算成本高、输入图像块尺寸固定、局部与全局信息交互匮乏等问题。提出一种基于双通道Transformer骨干网络、金字塔轻量化Transformer块和通道交叉注意力机制的DualF ormer模型,用以检测地铁站台屏蔽门与列车门间隙中存在的异物。针对输入图像块尺寸固定的问题,提出双通道策略,通过设计2种不同的特征提取通道对不同尺度的输入图像块进行特征提取,增强网络对粗、细粒度特征的提取能力,提高对多尺度目标的识别精度;针对计算成本高的问题,构建金字塔轻量化Transformer块,将级联卷积引入到多头自注意力(MHSA)模块中,并利用卷积的维度压缩能力来降低模型的计算成本;针对局部与全局信息交互匮乏的问题,提出通道交叉注意力机制,利用提取到的粗细粒度特征在通道层面进行交互,优化局部与全局信息在网络中的权重。在标准化地铁异物检测数据集上的实验结果表明,DualFormer模型参数量为1.98×10^(7),实现了89.7%的精度和24帧/s的速度,优于对比的Transformer检测算法。 展开更多
关键词 视觉transformer 异物检测 双通道策略 金字塔轻量化transformer 注意力融合
下载PDF
基于自蒸馏视觉Transformer的无监督行人重识别
9
作者 贾洁茹 杨建超 +2 位作者 张硕蕊 闫涛 陈斌 《计算机应用》 CSCD 北大核心 2024年第9期2893-2902,共10页
针对视觉Transformer(ViT)缺乏归纳偏置,导致在相对小规模的行人重识别数据上难以学习有意义的视觉表征的问题,提出一种基于自蒸馏视觉Transformer的无监督行人重识别方法。首先,利用ViT的模块化架构,即每个中间块生成的特征维度相同的... 针对视觉Transformer(ViT)缺乏归纳偏置,导致在相对小规模的行人重识别数据上难以学习有意义的视觉表征的问题,提出一种基于自蒸馏视觉Transformer的无监督行人重识别方法。首先,利用ViT的模块化架构,即每个中间块生成的特征维度相同的特性,随机选择一个中间Transformer块并将它送入分类器以得到预测结果;其次,通过最小化随机选择的中间分类器输出与最终分类器输出分布之间的Kullback-Leibler散度,约束中间块的分类预测结果与最终分类器的结果保持一致,据此构建自蒸馏损失函数;最后,通过对聚类级对比损失、实例级对比损失和自蒸馏损失进行联合最小化,对模型进行优化。此外,通过从最终分类器向中间块提供软监督,有效地给ViT模型引入归纳偏置,进而有助于模型学习更鲁棒和通用的视觉表征。与基于TransReID的自监督学习(TransReID-SSL)相比,在Market-1501数据集上,所提方法的平均精度均值(mAP)和Rank-1分别提升1.2和0.8个百分点;在MSMT17数据集上,所提方法的mAP和Rank-1分别提升3.4和3.1个百分点。实验结果表明,所提方法能够有效提高无监督行人重识别的精度。 展开更多
关键词 行人重识别 无监督学习 视觉transformer 知识蒸馏 特征表示
下载PDF
基于改进ViT的熔池识别与焊接偏差在线检测方法
10
作者 蒋宇轩 林凯 +2 位作者 王瑶祺 张岳 洪宇翔 《现代制造工程》 CSCD 北大核心 2024年第10期130-137,共8页
焊接偏差的精确检测是实现焊接机器人焊缝轨迹自动跟踪及智能化焊接的前提。提出了一种基于改进视觉转换器(Vision Transformer,ViT)的熔池识别与焊接偏差在线检测方法。首先,采用轻量级ViT模型Segformer作为基线模型,在其掩码分割前嵌... 焊接偏差的精确检测是实现焊接机器人焊缝轨迹自动跟踪及智能化焊接的前提。提出了一种基于改进视觉转换器(Vision Transformer,ViT)的熔池识别与焊接偏差在线检测方法。首先,采用轻量级ViT模型Segformer作为基线模型,在其掩码分割前嵌入置换注意力(Shuffle Attention,SA)机制,以更好地捕获特征信息在空间和通道这2个维度中的依赖关系,从而提高模型的分割精度;其次,在多层感知机(Multilayer Perceptron,MLP)中加入上下文广播(Context Broadcasting,CB)模块,在保证模型低参数量的前提下提高泛化能力;最后,基于模型分割结果,提出一种焊接偏差计算方法来定量描述偏差检测精度。实验结果表明,相较于基线模型,所提出模型的平均交并比和平均像素准确率分别提高了2.67%和2.12%,且对于不同预设焊枪偏移情况均具有良好的泛化性,焊接偏差精度控制在±0.021 mm之内,为实现精密焊接焊缝跟踪提供基础。 展开更多
关键词 焊接偏差 焊缝跟踪 熔池识别 视觉转换器 注意力机制
下载PDF
基于级联视觉Transformer与多尺度特征融合的燃烧场温度层析成像 被引量:1
11
作者 司菁菁 王晓莉 +1 位作者 程银波 刘畅 《电子与信息学报》 EI CSCD 北大核心 2023年第10期3511-3519,共9页
可调谐二极管激光吸收光谱层析成像(TDLAT)是一种重要的光学非侵入式燃烧诊断技术,可实现燃烧场2维横截面气体温度和浓度等流场参数分布的重建。该文将视觉Transformer(ViT)与多尺度特征融合引入TDLAT领域,研究有限数量测量数据与整个... 可调谐二极管激光吸收光谱层析成像(TDLAT)是一种重要的光学非侵入式燃烧诊断技术,可实现燃烧场2维横截面气体温度和浓度等流场参数分布的重建。该文将视觉Transformer(ViT)与多尺度特征融合引入TDLAT领域,研究有限数量测量数据与整个测量空间温度分布的非线性映射,提出基于级联ViT与多尺度特征融合的燃烧场温度层析成像网络(HVTMFnet)。该网络提取并融合TDLAT测量数据的局部-全局相关特征,实现整个测量空间的层次化温度分布重建。仿真实验与实际TDLAT系统实验均表明,HVTMFnet重建图像的质量优于现有的基于卷积神经网络(CNN)和基于残差网络的温度层析成像方案。与基于CNN的温度层析成像方案相比,HVTMFnet的重建误差能够降低49.2%~72.1%。 展开更多
关键词 可调谐二极管激光吸收光谱 层析成像 温度重建 视觉transformer
下载PDF
基于ViT与语义引导的视频内容描述生成 被引量:1
12
作者 赵宏 陈志文 +1 位作者 郭岚 安冬 《计算机工程》 CAS CSCD 北大核心 2023年第5期247-254,共8页
现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(S... 现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(SDN)。在此基础上,通过ViT模型对静态和动态视觉特征进行全局编码,并与SDN提取的语义特征进行注意力融合,采用语义长短期记忆网络对融合特征进行解码,生成视频对应的描述文本。通过引入视频中的语义特征能够引导模型生成更符合人类习惯的描述,使生成的描述更具可读性。在MSR-VTT数据集上的测试结果表明,该模型的BLEU-4、METEOR、ROUGE-L和CIDEr指标分别为44.8、28.9、62.8和51.1,相比于当前主流的视频内容描述模型ADL和SBAT,提升的得分总和达到16.6和16.8。 展开更多
关键词 视频内容描述 视频理解 vit模型 语义引导 长短期记忆网络 注意力机制
下载PDF
融合一维Inception结构与ViT的恶意加密流量检测 被引量:7
13
作者 孙懿 高见 顾益军 《计算机工程》 CAS CSCD 北大核心 2023年第1期154-162,共9页
在互联网加密化背景下,传统恶意流量检测方法在加密流量上的特征区分度较差,为更好地从加密流量中检测出恶意流量,设计一个融合一维Inception-ViT的恶意加密流量检测模型。基于流量数据的时序性特点,通过一维Inception结构对GoogLeNet中... 在互联网加密化背景下,传统恶意流量检测方法在加密流量上的特征区分度较差,为更好地从加密流量中检测出恶意流量,设计一个融合一维Inception-ViT的恶意加密流量检测模型。基于流量数据的时序性特点,通过一维Inception结构对GoogLeNet中的Inception结构进行改进,使用适用于序列数据的一维卷积替换二维卷积,并添加池化操作去除一些冗余信息的干扰。同时,融合ViT模型,将经过一维Inception结构处理后的数据输入到ViT模型中,利用多头注意力突出重要特征,增强特征区分度以提升模型检测结果。为验证一维Inception-ViT模型各模块的有效性,与6种变体模型进行对比,实验结果表明,一维Inception-ViT模型性能最好,平均召回率和平均F1值指标分别达到了99.42%和99.39%。此外,与其他8种现有模型进行比较,一维Inception-ViT模型具有更好的检测效果,同时在恶意加密流量Neris和Virut细粒度分类上,与性能最好的基准模型相比,一维Inception-ViT模型能够有效减少样本检测混淆,可更准确地对恶意加密流量进行识别。 展开更多
关键词 加密流量 恶意加密流量检测 多分类 卷积神经网络 vision transformer模型
下载PDF
基于弱监督的改进Transformer在人群定位中的应用 被引量:2
14
作者 高辉 邓淼磊 +2 位作者 赵文君 陈法权 张德贤 《计算机工程与应用》 CSCD 北大核心 2023年第19期92-98,共7页
针对现有人群定位方法采用伪边界框或预先设计的定位图,需要复杂的预处理和后处理来获得头部位置的问题,提出一种基于弱监督的端到端人群定位网络LocalFormer。在特征提取阶段,将纯Transformer作为骨干网络,并对每个阶段的特征执行全局... 针对现有人群定位方法采用伪边界框或预先设计的定位图,需要复杂的预处理和后处理来获得头部位置的问题,提出一种基于弱监督的端到端人群定位网络LocalFormer。在特征提取阶段,将纯Transformer作为骨干网络,并对每个阶段的特征执行全局最大池化操作,提取更加丰富的人头细节信息。在编码器-解码器阶段,将聚合特征嵌入位置信息作为编码器的输入,且每个解码器层采用一组可训练嵌入作为查询,并将编码器最后一层的视觉特征作为键和值,解码后的特征用于预测置信度得分。通过二值化模块自适应优化阈值学习器,从而精确地二值化置信度图。在不同数据环境下对三个数据集进行实验,结果表明该方法实现了最佳定位性能。 展开更多
关键词 人群定位 弱监督 卷积神经网络 全局最大池化 视觉transformer
下载PDF
基于多级区域选择与跨层特征融合的野生菌分类
15
作者 李俊仪 李向阳 +3 位作者 龙朝勋 李海燕 李红松 余鹏飞 《计算机工程》 CAS CSCD 北大核心 2024年第9期179-188,共10页
近年来误食有毒野生菌导致的中毒事件频发,严重危害人们的身体健康,这使得准确鉴别野生菌变得尤为重要。然而,现有的野生菌分类算法在处理背景噪声大、类间差异小和类内差异大的图片时容易出现识别错误的问题。为了解决这一问题,提出一... 近年来误食有毒野生菌导致的中毒事件频发,严重危害人们的身体健康,这使得准确鉴别野生菌变得尤为重要。然而,现有的野生菌分类算法在处理背景噪声大、类间差异小和类内差异大的图片时容易出现识别错误的问题。为了解决这一问题,提出一种基于Vision Transformer(ViT)架构结合多级区域选择和跨层特征融合的野生菌分类算法。该算法旨在捕获具有强鉴别力的特征,以确保网络能够聚焦在主要信息上,并提高分类的准确性。首先采用ViT作为网络框架,以提取野生菌图像的特征和全局上下文信息。其次设计多头自注意力选择模块,用于提取具有鉴别力的token,并通过自适应分配算法为不同层级的编码层确定抽取token的数量。最后为进一步提升分类性能,引入跨层特征融合策略和标签平滑损失进行拟合训练,从而减少细节信息的丢失。为使网络对野生菌图像特征的学习更具针对性,自建野生菌数据集。实验结果表明,所提出的算法与基线算法相比,分类精度有了显著提高,准确率达到98.65%。 展开更多
关键词 图像分类 vision transformer架构 特征选择 自适应分配 特征融合 标签平滑
下载PDF
基于位置编码重叠切块嵌入和多尺度通道交互注意力的鱼类图像分类
16
作者 周雯 谌雨章 +1 位作者 温志远 王诗琦 《计算机应用》 CSCD 北大核心 2024年第10期3209-3216,共8页
水下鱼类图像分类是一项极具挑战性的任务。传统Vision Transformer(ViT)网络骨干的局限性较大,难以处理局部连续特征,在图像质量较低的鱼类分类中效果表现不佳。为解决此问题,提出一种基于位置编码的重叠切块嵌入(OPE)和多尺度通道交... 水下鱼类图像分类是一项极具挑战性的任务。传统Vision Transformer(ViT)网络骨干的局限性较大,难以处理局部连续特征,在图像质量较低的鱼类分类中效果表现不佳。为解决此问题,提出一种基于位置编码的重叠切块嵌入(OPE)和多尺度通道交互注意力(MCIA)的Transformer图像分类网络PIFormer(Positional overlapping and Interactive attention transFormer)。PIFormer采用多层级形式构建,每层以不同次数堆叠,利于提取不同深度的特征。首先,引入深度位置编码重叠切块嵌入(POPE)模块对特征图与边缘信息进行重叠切块,以保留鱼体的局部连续特征,并添加位置信息以排序,帮助PIFormer整合细节特征和构建全局映射;其次,提出MCIA模块并行处理局部与全局特征,并建立鱼体不同部位的长距离依赖关系;最后,由分组多层感知机(GMLP)分组处理高层次特征,以提升网络效率,并实现最终的鱼类分类。为验证PIFormer的有效性,提出自建东湖淡水鱼类数据集,并使用公共数据集Fish4Knowledge与NCFM(Nature Conservancy Fisheries Monitoring)以确保实验公平性。实验结果表明,所提网络在各数据集上的Top-1分类准确率分别达到了97.99%、99.71%和90.45%,与同级深度的ViT、Swin Transformer和PVT(Pyramid Vision Transformer)相比,参数量分别减少了72.62×10^(6)、14.34×10^(6)和11.30×10^(6),浮点运算量(FLOPs)分别节省了14.52×10^(9)、2.02×10^(9)和1.48×10^(9)。可见,PIFormer在较少的计算负荷下,具有较强的鱼类图像分类能力,取得了优越的性能。 展开更多
关键词 鱼类图像分类 位置编码 重叠切块嵌入 通道交互注意力 vision transformer
下载PDF
结合动态自适应调制和结构关系学习的细粒度图像分类
17
作者 王衍根 陈飞 陈权 《计算机系统应用》 2024年第8期166-175,共10页
由于细粒度图像类间差异小,类内差异大的特点,因此细粒度图像分类任务关键在于寻找类别间细微差异.最近,基于Vision Transformer的网络大多侧重挖掘图像最显著判别区域特征.这存在两个问题:首先,网络忽略从其他判别区域挖掘分类线索,容... 由于细粒度图像类间差异小,类内差异大的特点,因此细粒度图像分类任务关键在于寻找类别间细微差异.最近,基于Vision Transformer的网络大多侧重挖掘图像最显著判别区域特征.这存在两个问题:首先,网络忽略从其他判别区域挖掘分类线索,容易混淆相似类别;其次,忽略了图像的结构关系,导致提取的类别特征不准确.为解决上述问题,本文提出动态自适应调制和结构关系学习两个模块,通过动态自适应调制模块迫使网络寻找多个判别区域,再利用结构关系学习模块构建判别区域间结构关系;最后利用图卷积网络融合语义信息和结构信息得出预测分类结果.所提出的方法在CUB-200-2011数据集和NA-Birds数据集上测试准确率分别达到92.9%和93.0%,优于现有最先进网络. 展开更多
关键词 细粒度图像分类 vision transformer(vit) 动态自适应调制 结构关系学习 图卷积网络
下载PDF
基于改进 YOLOv5 的枸杞虫害检测
18
作者 杜丁健 高遵海 陈倬 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第10期1992-2000,共9页
为了检测复杂环境下枸杞的虫害情况,提出基于改进YOLOv5m的模型.以下一代视觉转换器(Next-ViT)作为骨干网络,提高模型的特征提取能力,使模型更加关注关键目标特征.在模型颈部增加自适应融合的上下文增强模块,增强模型对上下文信息的理... 为了检测复杂环境下枸杞的虫害情况,提出基于改进YOLOv5m的模型.以下一代视觉转换器(Next-ViT)作为骨干网络,提高模型的特征提取能力,使模型更加关注关键目标特征.在模型颈部增加自适应融合的上下文增强模块,增强模型对上下文信息的理解与处理能力,提高模型对小目标(蚜虫)的检测精度.将颈部网络中的C3模块替换为C3_Faster模块,减少模型占用量并进一步提高模型检测精度.实验结果表明,所提模型的准确率和召回率分别为97.0%、92.1%,平均精度均值为94.7%;相比于YOLOv5m,所提模型的平均精度均值提高了1.9个百分点,蚜虫的检测平均精度提高了9.4个百分点.对比不同模型的平均精度均值,所提模型比主流模型YOLOv7、YOLOX、DETR、EfficientDet-D1、Cascade R-CNN分别高1.6、1.6、2.8、3.5、1.0个百分点.所提模型在提高检测性能的同时,模型占用量也保持在合理范围内. 展开更多
关键词 枸杞虫害 深度学习 小目标检测 YOLOv5 下一代视觉转换器(Next-vit)
下载PDF
基于CHINESE-CLIP跨模态图像文本检索研究
19
作者 聂葳 叶成炜 +5 位作者 杨家慧 哈雯 段班祥 桂改花 苑占江 黄海锋 《电子制作》 2024年第22期61-66,共6页
本文聚焦于多模态图像语义关联问题,采用CHINESE-CLIP模型结合迁移学习技术,探索了基于文本的图像检索和基于图像的文本检索两种方法。研究采用了CHINESE-CLIP多模态预训练神经网络,通过融合文本和图像特征提取技术,实现了文本与图像在... 本文聚焦于多模态图像语义关联问题,采用CHINESE-CLIP模型结合迁移学习技术,探索了基于文本的图像检索和基于图像的文本检索两种方法。研究采用了CHINESE-CLIP多模态预训练神经网络,通过融合文本和图像特征提取技术,实现了文本与图像在统一空间内的高效匹配。在图像检索文本的任务中,对比了CN-CLIPViT-B/16和CN-CLIPViT-L/14两种模型的性能,结果表明CN-CLIPViT-L/14模型在语义关联上表现更为优异。在基于图像的文本检索方面,模型利用Vision Transformer(ViT)图像编码器和对比损失进行训练。ViT通过将图像分割成固定大小的图块,采用自注意力机制处理序列元素,并通过前馈网络进一步提取特征,最终实现图文互检的能力。最终,图文检索模型在图像检索文本的准确率:R1为76.56%,R5为94.17%,R10为97.48%;在文本检索图像的准确率:R1为70.73%,R5为94.80%,R10为97.25%。 展开更多
关键词 CHINESE-CLIP多模态预训练神经网络 CN-CLIPvit-L/14 vision transformer(vit)
下载PDF
基于紧凑型Vision transformer的细粒度视觉分类 被引量:1
20
作者 徐昊 郭黎 李润泽 《控制与决策》 EI CSCD 北大核心 2024年第3期893-900,共8页
Vision transformer(ViT)已广泛应用于细粒度视觉分类中,针对其中存在的大数据量需求和高计算复杂度的问题,提出一种紧凑型Vi T模型.首先,使用多层卷积块生成模型输入,保留更多底层信息和归纳偏置,减少对数据量的依赖;然后,使用序列池... Vision transformer(ViT)已广泛应用于细粒度视觉分类中,针对其中存在的大数据量需求和高计算复杂度的问题,提出一种紧凑型Vi T模型.首先,使用多层卷积块生成模型输入,保留更多底层信息和归纳偏置,减少对数据量的依赖;然后,使用序列池化技术取消分类令牌的使用,减少计算复杂度;最后,使用部位选择模块和混合损失函数,进一步提升模型在细粒度视觉分类中的表现.所提出算法在公共数据集CUB-200-2011、Butterfly200、Stanford Dogs、Stanford Cars和NABirds中均进行了实验验证,在只使用少量的数据和计算资源条件下,分别获得了88.9%、87.4%、89.0%、93.4%和88.0%的准确率,训练时间平均比常用的Vi T-B_16模型下降了73.8%,同时比TransFG模型下降了93.9%,并且训练过程中的参数量只有这两种模型的1/4左右.实验结果充分表明,所提出的模型较之其他主流的方法在数据量需求和计算复杂度方面具有明显的优越性,可广泛应用于工业过程控制、设备微小故障检测与诊断中. 展开更多
关键词 紧凑型 vision transformer 细粒度视觉分类 卷积块 归纳偏置 序列池化 混合损失
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部