期刊文献+
共找到373,563篇文章
< 1 2 250 >
每页显示 20 50 100
基于Depth-wise卷积和视觉Transformer的图像分类模型 被引量:2
1
作者 张峰 黄仕鑫 +1 位作者 花强 董春茹 《计算机科学》 CSCD 北大核心 2024年第2期196-204,共9页
图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关... 图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关系进行建模,一些研究者将Transformer应用于图像分类任务,但为了满足Transformer的序列化和并行化要求,需要将图像分割成大小相等、互不重叠的图像块,破坏了相邻图像数据块之间的局部信息。此外,由于Transformer具有较少的先验知识,模型往往需要在大规模数据集上进行预训练,因此计算复杂度较高。为了同时建模图像相邻块之间的局部信息并充分利用图像的全局信息,提出了一种基于Depth-wise卷积的视觉Transformer(Efficient Pyramid Vision Transformer,EPVT)模型。EPVT模型可以实现以较低的计算成本提取相邻图像块之间的局部和全局信息。EPVT模型主要包含3个关键组件:局部感知模块(Local Perceptron Module,LPM)、空间信息融合模块(Spatial Information Fusion,SIF)和“+卷积前馈神经网络(Convolution Feed-forward Network,CFFN)。LPM模块用于捕获图像的局部相关性;SIF模块用于融合相邻图像块之间的局部信息,并利用不同图像块之间的远距离依赖关系,提升模型的特征表达能力,使模型学习到输出特征在不同维度下的语义信息;CFFN模块用于编码位置信息和重塑张量。在图像分类数据集ImageNet-1K上,所提模型优于现有的同等规模的视觉Transformer分类模型,取得了82.6%的分类准确度,证明了该模型在大规模数据集上具有竞争力。 展开更多
关键词 深度学习 图像分类 Depth-wise卷积 视觉transformer 注意力机制
下载PDF
基于视觉Transformer和双解码器的红外小目标检测方法
2
作者 代少升 刘科生 +3 位作者 黄炼 贺自强 毛兴华 任汶皓 《红外技术》 CSCD 北大核心 2024年第9期1070-1080,共11页
当前基于卷积神经网络的红外小目标检测方法在编码器阶段受限于感受野,且解码器在多尺度特征融合中缺乏有效的特征交互。本文提出了一种基于编码器-解码器结构的新方法,针对现有红外小目标检测方法中的问题进行改进。该方法使用视觉Tran... 当前基于卷积神经网络的红外小目标检测方法在编码器阶段受限于感受野,且解码器在多尺度特征融合中缺乏有效的特征交互。本文提出了一种基于编码器-解码器结构的新方法,针对现有红外小目标检测方法中的问题进行改进。该方法使用视觉Transformer作为编码器,能够有效地提取红外小目标图像的多尺度特征。视觉Transformer是一种新兴的深度学习架构,其通过自注意力机制捕捉图像中像素之间的全局关系,以处理长程依赖性和上下文信息。此外,本文还设计了一个由交互式解码器和辅助解码器组成的双解码器模块,旨在提高解码器对红外小目标的重构能力。该双解码器模块能够充分利用不同特征之间的互补信息,促进深层特征和浅层特征之间的交互,并通过将两个解码器的结果进行叠加,以更好地重构红外小目标。在广泛使用的公共数据集上的实验结果表明,本文提出的方法在F1和mIoU两个评价指标上的性能优于其他对比方法。 展开更多
关键词 红外小目标检测 视觉transformer 多尺度特征融合 编解码结构
下载PDF
结合视觉Transformer和CNN的道路裂缝检测方法
3
作者 代少升 刘科生 余自安 《半导体光电》 CAS 北大核心 2024年第2期252-260,共9页
提出了一种结合视觉Transformer和CNN的道路裂缝检测方法。利用CNN来捕获局部的细节信息,同时利用视觉Transformer来捕获全局特征。通过设计的Fusion特征融合模块将两者提取的特征有机地结合在一起,从而解决了单独使用CNN或视觉Transfor... 提出了一种结合视觉Transformer和CNN的道路裂缝检测方法。利用CNN来捕获局部的细节信息,同时利用视觉Transformer来捕获全局特征。通过设计的Fusion特征融合模块将两者提取的特征有机地结合在一起,从而解决了单独使用CNN或视觉Transformer方法存在的局限。最终将结果传递至交互式解码器,生成道路裂缝的检测结果。实验结果表明,无论是在公开的数据集上还是在自建的数据集上,相较于单独使用CNN或视觉Transformer的方法,所提出的方法在道路裂缝检测任务中有更好的效果。 展开更多
关键词 道路裂缝检测 视觉transformer和CNN 动态加权交叉特征融合
下载PDF
基于改进双分支视觉Transformer的艺术绘画分类
4
作者 高海燕 丁惠君 《贵阳学院学报(自然科学版)》 2024年第3期98-103,共6页
随着艺术数字化的发展,迫切需要准确分析和整理艺术绘画藏品的智能系统,并基于艺术绘画的视觉元素发掘不同艺术属性之间关系。为此,提出基于改进视觉Transformer模型和特征优化算法提高艺术绘画分类的深度学习方法。首先,使用改进双分... 随着艺术数字化的发展,迫切需要准确分析和整理艺术绘画藏品的智能系统,并基于艺术绘画的视觉元素发掘不同艺术属性之间关系。为此,提出基于改进视觉Transformer模型和特征优化算法提高艺术绘画分类的深度学习方法。首先,使用改进双分支视觉Transformer(CrossViT)从艺术绘画图像中提取特征。通过双分支架构提取共享特征,获得多尺度特征表示。设计跨任务融合阶段,使用单独的分支处理特定任务的图元,并通过跨注意力模块交换信息。其后,结合混沌游戏优化(CGO)算法和坚果夹优化器(NO)确定特定最优特征子集。CEC2022基准测试8个函数的算法测试结果验证了所提改进CGO算法的有效性。此外,在SemArt数据集上对艺术绘画进行类型、流派和时期分类任务的实验结果表明,所提方法能够基于不同任务需求准确完成艺术绘画分类,性能优于其他先进方法。 展开更多
关键词 艺术绘画分类 深度学习 视觉transformer 混沌游戏优化 坚果夹优化器
下载PDF
卷积神经网络与视觉Transformer联合驱动的跨层多尺度融合网络高光谱图像分类方法 被引量:1
5
作者 赵凤 耿苗苗 +2 位作者 刘汉强 张俊杰 於俊 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第5期2237-2248,共12页
高光谱图像(HSI)分类是地球科学和遥感影像处理任务中最受关注的研究热点之一。近年来,卷积神经网络(CNN)和视觉Transformer相结合的方法,通过综合考虑局部-全局信息,在HSI分类任务中取得了成功。然而,HSI中地物具有丰富的纹理信息和复... 高光谱图像(HSI)分类是地球科学和遥感影像处理任务中最受关注的研究热点之一。近年来,卷积神经网络(CNN)和视觉Transformer相结合的方法,通过综合考虑局部-全局信息,在HSI分类任务中取得了成功。然而,HSI中地物具有丰富的纹理信息和复杂多样的结构,且不同地物之间存在尺度差异。现有的二者结合的方法通常对多尺度地物目标的纹理和结构信息的提取能力有限。为了克服上述局限性,该文提出CNN与视觉Transformer联合驱动的跨层多尺度融合网络HSI分类方法。首先,从结合CNN与视觉Transformer的角度出发,设计了跨层多尺度局部-全局特征提取模块分支,其主要由卷积嵌入的视觉Transformer和跨层特征融合模块构成。具体来说,卷积嵌入的视觉Transformer通过深度融合多尺度CNN与视觉Transformer实现了多尺度局部-全局特征信息的有效提取,从而增强网络对不同尺度地物的关注。进一步地,跨层特征融合模块深度聚合了不同层次的多尺度局部-全局特征信息,以综合考虑地物的浅层纹理信息和深层结构信息。其次,构建了分组多尺度卷积模块分支来挖掘HSI中密集光谱波段潜在的多尺度特征。最后,为了增强网络对HSI中局部波段细节和整体光谱信息的挖掘,设计了残差分组卷积模块对局部-全局光谱特征进行提取。Indian Pines, Houston 2013和Salinas Valley 3个HSI数据集上的实验结果证实了所提方法的有效性。 展开更多
关键词 高光谱图像分类 卷积神经网络 视觉transformer 多尺度特征 融合网络
下载PDF
面向图像分类的视觉Transformer研究进展 被引量:4
6
作者 彭斌 白静 +2 位作者 李文静 郑虎 马向宇 《计算机科学与探索》 CSCD 北大核心 2024年第2期320-344,共25页
Transformer是一种基于自注意力机制的深度学习模型,在计算机视觉中展现出巨大的潜力。而在图像分类任务中,关键的挑战是高效而准确地捕捉输入图片的局部和全局特征。传统方法使用卷积神经网络的底层提取其局部特征,并通过卷积层堆叠扩... Transformer是一种基于自注意力机制的深度学习模型,在计算机视觉中展现出巨大的潜力。而在图像分类任务中,关键的挑战是高效而准确地捕捉输入图片的局部和全局特征。传统方法使用卷积神经网络的底层提取其局部特征,并通过卷积层堆叠扩大感受野以获取图像的全局特征。但这种策略在相对短的距离内聚合信息,难以建立长期依赖关系。相比之下,Transformer的自注意力机制通过直接比较特征在所有空间位置上的相关性,捕捉了局部和全局的长距离依赖关系,具备更强的全局建模能力。因此,深入探讨Transformer在图像分类任务中的问题是非常有必要的。首先以Vision Transformer为例,详细介绍了Transformer的核心原理和架构。然后以图像分类任务为切入点,围绕与视觉Transformer研究中的性能提升、计算成本和训练优化相关的三个重要方面,总结了视觉Transformer研究中的关键问题和最新进展。此外,总结了Transformer在医学图像、遥感图像和农业图像等多个特定领域的应用情况。这些领域中的应用展示了Transformer的多功能性和通用性。最后,通过综合分析视觉Transformer在图像分类方面的研究进展,对视觉Transformer的未来发展方向进行了展望。 展开更多
关键词 深度学习 视觉transformer 网络架构 图像分类 自注意力机制
下载PDF
基于自监督视觉Transformer的图像美学质量评价方法
7
作者 黄荣 宋俊杰 +1 位作者 周树波 刘浩 《计算机应用》 CSCD 北大核心 2024年第4期1269-1276,共8页
现有的图像美学质量评价方法普遍使用卷积神经网络(CNN)提取图像特征,但受局部感受野机制的限制,CNN较难提取图像的全局特征,导致全局构图关系、全局色彩搭配等美学属性缺失。为解决该问题,提出基于自监督视觉Transformer(SSViT)模型的... 现有的图像美学质量评价方法普遍使用卷积神经网络(CNN)提取图像特征,但受局部感受野机制的限制,CNN较难提取图像的全局特征,导致全局构图关系、全局色彩搭配等美学属性缺失。为解决该问题,提出基于自监督视觉Transformer(SSViT)模型的图像美学质量评价方法。利用自注意力机制建立图像局部块之间的长距离依赖关系,自适应地学习图像不同局部块之间的相关性,提取图像的全局特征,从而刻画图像的美学属性;同时,设计图像降质分类、图像美学质量排序和图像语义重构这3项美学质量感知任务,利用无标注的图像数据对视觉Transformer(ViT)进行自监督预训练,增强全局特征的表达能力。在AVA(Aesthetic Visual Assessment)数据集上的实验结果显示,SSViT模型在美学质量分类准确率、皮尔森线性相关系数(PLCC)和斯皮尔曼等级相关系数(SRCC)指标上分别达到83.28%、0.7634和0.7462。以上实验结果表明,SSViT模型具有较高的图像美学质量评价准确性。 展开更多
关键词 图像美学质量评价 视觉transformer 自监督学习 全局特征 自注意力机制
下载PDF
集成卷积神经网络和视觉Transformer的隧道掌子面岩性判识研究
8
作者 向露露 童建军 +2 位作者 王明年 苗兴旺 叶沛 《隧道建设(中英文)》 CSCD 北大核心 2024年第5期1056-1067,I0078-I0089,共24页
为研究综合高效的隧道掌子面岩性智能分类方法,首先,通过收集高铁沿线施工隧道高清掌子面照片、地质素描图及工程地质说明,筛选并统计出灰岩、泥岩、砂岩、玄武岩4种岩性,在此基础上,采用图像增强扩充样本数量并构建岩性样本集;然后,基... 为研究综合高效的隧道掌子面岩性智能分类方法,首先,通过收集高铁沿线施工隧道高清掌子面照片、地质素描图及工程地质说明,筛选并统计出灰岩、泥岩、砂岩、玄武岩4种岩性,在此基础上,采用图像增强扩充样本数量并构建岩性样本集;然后,基于上述样本集分别构建ResNet50V2岩性分类迁移模型及VIT岩性分类模型,对比二者岩性分类效果,并采用Stacking方法集成2种模型的分类特点;最后,通过对比3种元学习器(逻辑回归、支持向量机、决策树)对2种模型的集成融合效果来选取最适用的元学习器。结果表明:采用逻辑回归集成ResNet50V2及VIT所构建的集成模型对岩性的分类效果最好,能充分融合掌子面岩性的全、局部特征来进行分类,模型准确率达到93.8%。 展开更多
关键词 隧道 掌子面岩性 卷积神经网络 视觉transformer 集成学习 Stacking方法
下载PDF
ViTH:面向医学图像检索的视觉Transformer哈希改进算法
9
作者 刘传升 丁卫平 +2 位作者 程纯 黄嘉爽 王海鹏 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第5期11-26,共16页
对海量的医学图像进行有效检索会给医学诊断和治疗带来极其重要的意义.哈希方法是图像检索领域中的一种主流方法,但在医学图像领域的应用相对较少.针对此,提出一种面向医学图像检索的视觉Transformer哈希改进算法.首先使用视觉Transfor... 对海量的医学图像进行有效检索会给医学诊断和治疗带来极其重要的意义.哈希方法是图像检索领域中的一种主流方法,但在医学图像领域的应用相对较少.针对此,提出一种面向医学图像检索的视觉Transformer哈希改进算法.首先使用视觉Transformer模型作为基础的特征提取模块,其次在Transformer编码器的前、后端分别加入幂均值变换(Power-Mean Transformation,PMT),进一步增强模型的非线性性能,接着在Transformer编码器内部的多头注意力(Multi-Head Attention,MHA)层引入空间金字塔池化(Spatial Pyramid Pooling,SPP)形成多头空间金字塔池化注意力(Multi-Head Spatial Pyramid Pooling Attention,MHSPA)模块,该模块不仅可以提取全局的上下文特征,而且可以提取多尺度的局部上下文特征,并将不同尺度的特征进行融合.最后在输出幂均值变换层之后将提取到的特征分别通过两个多层感知机(Multi-Layer Perceptrons,MLPs),上分支的MLP用来预测图像的类别,下分支的MLP用来学习图像的哈希码.在损失函数部分,充分考虑了成对损失、量化损失、平衡损失以及分类损失来优化整个模型.在医学图像数据集ChestX-ray14和ISIC 2018上的实验结果表明,该研究所提出的算法相比于经典的哈希算法具有更好的检索效果. 展开更多
关键词 医学图像检索 视觉transformer 哈希 幂均值变换 空间金字塔池化
下载PDF
基于改进双流视觉Transformer的行为识别模型
10
作者 雷永升 丁锰 +3 位作者 沈尧 李居昊 赵东越 陈福仕 《计算机科学》 CSCD 北大核心 2024年第7期229-235,共7页
针对现有行为识别方法中抗背景干扰能力差和准确率低等问题,提出了一种改进的双流视觉Transformer行为识别模型。该模型采用分段采样的方法来增加模型对长时序列数据的处理能力;在网络头部嵌入无参数的注意力模块,在降低动作背景干扰的... 针对现有行为识别方法中抗背景干扰能力差和准确率低等问题,提出了一种改进的双流视觉Transformer行为识别模型。该模型采用分段采样的方法来增加模型对长时序列数据的处理能力;在网络头部嵌入无参数的注意力模块,在降低动作背景干扰的同时,增强了模型的特征表示能力;在网络尾部嵌入时间注意力模块,通过融合时域高语义信息来充分提取时序特征。文中提出了一种新的联合损失函数,旨在增大类间差异并减少类内差异;采用决策融合层以充分利用光流与RGB流特征。针对上述改进模型,在基准数据集UCF101和HMDB51上进行消融及对比实验,消融实验结果验证了所提方法的有效性,对比实验结果表明,所提方法相比时间分段网络在两个数据集上的准确率分别提高了3.48%和7.76%,优于目前的主流算法,具有较好的识别效果。 展开更多
关键词 行为识别 视觉transformer SimAM无参注意力 时间注意力 联合损失
下载PDF
数字赋能:基于视觉Transformer的非遗苗绣纹样数字化提取
11
作者 代永琪 彭莉 谢乃鹏 《丝绸》 CAS CSCD 北大核心 2024年第7期14-24,共11页
苗绣通常是以线稿描绘的基础图样,搭配丰富色彩的丝线及不同的刺绣技法而形成,出现在一系列如服饰、头饰及配件等纺织品中,但是随着纺织品的损坏和丢失等原因,部分苗绣纹样便也随之流失。目前采用传统手工描绘纹样获取线稿的方式极其不... 苗绣通常是以线稿描绘的基础图样,搭配丰富色彩的丝线及不同的刺绣技法而形成,出现在一系列如服饰、头饰及配件等纺织品中,但是随着纺织品的损坏和丢失等原因,部分苗绣纹样便也随之流失。目前采用传统手工描绘纹样获取线稿的方式极其不便,因此文章针对苗绣纹样的数字化提取,提出了一种基于两阶段渐进采样视觉Transformer的边缘检测算法,分为全局和局部检测。在两个阶段都引入渐进式采样来定位重要区域,使提取的边缘集中于苗绣纹样主体部分,减少服饰背景等造成的干扰。通过使用多尺度通道注意力特征融合模块,将全局和局部检测的边缘进行加权融合,以获得更清晰的边缘。实验结果表明,该算法与其他算法相比,提取的苗绣纹样获得了更纤细的线条,且丢失的纹样形状线条较少,纹样整体效果与标签图最接近,效果最佳。 展开更多
关键词 纹样提取 苗绣刺绣 非物质文化遗产 视觉transformer 数字化 边缘检测
下载PDF
基于自蒸馏视觉Transformer的无监督行人重识别
12
作者 贾洁茹 杨建超 +2 位作者 张硕蕊 闫涛 陈斌 《计算机应用》 CSCD 北大核心 2024年第9期2893-2902,共10页
针对视觉Transformer(ViT)缺乏归纳偏置,导致在相对小规模的行人重识别数据上难以学习有意义的视觉表征的问题,提出一种基于自蒸馏视觉Transformer的无监督行人重识别方法。首先,利用ViT的模块化架构,即每个中间块生成的特征维度相同的... 针对视觉Transformer(ViT)缺乏归纳偏置,导致在相对小规模的行人重识别数据上难以学习有意义的视觉表征的问题,提出一种基于自蒸馏视觉Transformer的无监督行人重识别方法。首先,利用ViT的模块化架构,即每个中间块生成的特征维度相同的特性,随机选择一个中间Transformer块并将它送入分类器以得到预测结果;其次,通过最小化随机选择的中间分类器输出与最终分类器输出分布之间的Kullback-Leibler散度,约束中间块的分类预测结果与最终分类器的结果保持一致,据此构建自蒸馏损失函数;最后,通过对聚类级对比损失、实例级对比损失和自蒸馏损失进行联合最小化,对模型进行优化。此外,通过从最终分类器向中间块提供软监督,有效地给ViT模型引入归纳偏置,进而有助于模型学习更鲁棒和通用的视觉表征。与基于TransReID的自监督学习(TransReID-SSL)相比,在Market-1501数据集上,所提方法的平均精度均值(mAP)和Rank-1分别提升1.2和0.8个百分点;在MSMT17数据集上,所提方法的mAP和Rank-1分别提升3.4和3.1个百分点。实验结果表明,所提方法能够有效提高无监督行人重识别的精度。 展开更多
关键词 行人重识别 无监督学习 视觉transformer 知识蒸馏 特征表示
下载PDF
视觉Transformer在低级视觉领域的研究综述 被引量:1
13
作者 朱凯 李理 +2 位作者 张彤 江晟 别一鸣 《计算机工程与应用》 CSCD 北大核心 2024年第4期39-56,共18页
Transformer是一种革命性的神经网络模型架构,最初为自然语言处理而设计,但其由于卓越的性能,在计算机视觉领域获得了广泛的应用。虽然关于Transformer在自然语言处理领域的应用有大量的研究和文献,但针对低级视觉任务的综述相对匮乏。... Transformer是一种革命性的神经网络模型架构,最初为自然语言处理而设计,但其由于卓越的性能,在计算机视觉领域获得了广泛的应用。虽然关于Transformer在自然语言处理领域的应用有大量的研究和文献,但针对低级视觉任务的综述相对匮乏。简要介绍了Transformer的原理并分析归纳了几种变体。在低级视觉任务的应用方面,将重点放在图像恢复、图像增强和图像生成这三个关键领域。通过详细分析不同模型在这些任务中的表现,探讨了它们在常用数据集上的性能差异。对Transformer在低级视觉领域的发展趋势进行了总结和展望,提出了未来的研究方向,以进一步推动Transformer在低级视觉任务中的创新和发展。这一领域的迅猛发展将为计算机视觉和图像处理领域带来更多的突破,为实际应用提供更加强大和高效的解决方案。 展开更多
关键词 transformer 深度学习 注意力机制 计算机视觉 低级视觉任务
下载PDF
基于FPGA的卷积神经网络和视觉Transformer通用加速器
14
作者 李天阳 张帆 +2 位作者 王松 曹伟 陈立 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第6期2663-2672,共10页
针对计算机视觉领域中基于现场可编程逻辑门阵列(FPGA)的传统卷积神经网(CNN)络加速器不适配视觉Transformer网络的问题,该文提出一种面向卷积神经网络和Transformer的通用FPGA加速器。首先,根据卷积和注意力机制的计算特征,提出一种面... 针对计算机视觉领域中基于现场可编程逻辑门阵列(FPGA)的传统卷积神经网(CNN)络加速器不适配视觉Transformer网络的问题,该文提出一种面向卷积神经网络和Transformer的通用FPGA加速器。首先,根据卷积和注意力机制的计算特征,提出一种面向FPGA的通用计算映射方法;其次,提出一种非线性与归一化加速单元,为计算机视觉神经网络模型中的多种非线性和归一化操作提供加速支持;然后,在Xilinx XCVU37P FPGA上实现了加速器设计。实验结果表明,所提出的非线性与归一化加速单元在提高吞吐量的同时仅造成很小的精度损失,ResNet-50和ViT-B/16在所提FPGA加速器上的性能分别达到了589.94 GOPS和564.76 GOPS。与GPU实现相比,能效比分别提高了5.19倍和7.17倍;与其他基于FPGA的大规模加速器设计相比,能效比有明显提高,同时计算效率较对比FPGA加速器提高了8.02%~177.53%。 展开更多
关键词 计算机视觉 卷积神经网络 transformer FPGA 硬件加速器
下载PDF
基于时频图与视觉Transformer的滚动轴承智能故障诊断方法
15
作者 齐萌 王国强 +2 位作者 石念峰 李传锋 何一心 《轴承》 北大核心 2024年第10期115-123,共9页
基于循环神经网络的故障诊断方法在计算过程中难以保存间隔时间过长的信息且无法并行计算,在大型数据建模方面存在不足,为提高轴承故障诊断工作的效率及准确性,提出了一种基于短时傅里叶变换时频图与视觉Transformer(ViT)的轴承故障诊... 基于循环神经网络的故障诊断方法在计算过程中难以保存间隔时间过长的信息且无法并行计算,在大型数据建模方面存在不足,为提高轴承故障诊断工作的效率及准确性,提出了一种基于短时傅里叶变换时频图与视觉Transformer(ViT)的轴承故障诊断方法:通过短时傅里叶变换将原始振动信号转换为二维时频图像,再将时频图作为特征图输入ViT网络中进行训练,详细分析网络参数对故障诊断性能和计算复杂度的影响,构建最优模型结构,最终实现轴承的故障诊断。采用凯斯西储大学和江南大学轴承数据对模型进行验证,结果表明该模型可以有效结合短时傅里叶变换在处理时变信号方面的优势和ViT网络强大的图像分类能力,具有更高的诊断精度和更好的泛化性、通用性。 展开更多
关键词 滚动轴承 故障诊断 傅里叶变换 神经网络 深度学习
下载PDF
改进视觉Transformer的视频插帧方法
16
作者 石昌通 单鸿涛 +3 位作者 郑光远 张玉金 刘怀远 宗智浩 《计算机应用研究》 CSCD 北大核心 2024年第4期1252-1257,共6页
针对现有的视频插帧方法无法有效处理大运动和复杂运动场景的问题,提出了一种改进视觉Transformer的视频插帧方法。该方法融合了基于跨尺度窗口的注意力和可分离的时空局部注意力,增大了注意力的感受野并聚合了多尺度信息;对时空依赖和... 针对现有的视频插帧方法无法有效处理大运动和复杂运动场景的问题,提出了一种改进视觉Transformer的视频插帧方法。该方法融合了基于跨尺度窗口的注意力和可分离的时空局部注意力,增大了注意力的感受野并聚合了多尺度信息;对时空依赖和远程像素依赖关系进行联合建模,进而增强了模型对大运动场景的处理能力。实验结果表明,该方法在Vimeo90K测试集和DAVIS数据集上的PSNR指标分别达到了37.13 dB和28.28 dB,SSIM指标分别达到了0.978和0.891。同时,可视化结果表明,该方法针对存在大运动、复杂运动和遮挡场景的视频能产生清晰合理的插帧结果。 展开更多
关键词 视频插帧 transformer 基于跨尺度窗口的注意力 大运动 复杂运动
下载PDF
基于类别查询的视觉Transformer研究
17
作者 姜春雨 王伟 《吉林化工学院学报》 CAS 2024年第3期62-67,共6页
近年来,Transformer已逐渐成为计算机视觉领域的主流架构。其远程表达能力和高并行性赋予了它在性能上与卷积神经网络相媲美的能力。然而,在当前阶段,将注意力机制应用于计算机视觉仍存在两个主要问题:一是计算复杂度过高;二是需要大量... 近年来,Transformer已逐渐成为计算机视觉领域的主流架构。其远程表达能力和高并行性赋予了它在性能上与卷积神经网络相媲美的能力。然而,在当前阶段,将注意力机制应用于计算机视觉仍存在两个主要问题:一是计算复杂度过高;二是需要大量的训练数据。为解决这些问题,提出一种基于类别查询的视觉Transformer模型(OB_ViT)。创新之处主要体现在以下两个方面:一是引入可学习的类别查询;二是采用基于匈牙利算法的损失函数。具体而言,一种可学习的类别查询作为解码器的输入,通过此方法,可以对目标类别与全局图像上下文之间的关系进行推理。此外,通过采用匈牙利算法强制实现唯一预测,确保每个类别查询仅学习一种目标类别。在Cifar10和5分类Flower数据集上的图像分类实验表明,与ViT和Resnet50相比,OB_ViT模型在参数量减少的同时,学习准确率显著提高。例如,在Cifar10数据集上,参数量减少15%,准确率提升22%。 展开更多
关键词 transformer 图像分类 类别查询 机器学习
下载PDF
基于视觉Transformer的马铃薯薯形与大小自动分级
18
作者 樊宏鹏 于鹏飞 杨森 《食品与机械》 CSCD 北大核心 2024年第7期111-116,共6页
[目的]解决基于人工特征设计分级方法精度低、鲁棒性差的问题。[方法]提出了一种强泛化的Transformer薯形与大小自动分级方法。基于Transformer模型构建2个PotatoViT模型,并完成马铃薯薯形分级和大小分级任务;利用迁移策略和数据增广方... [目的]解决基于人工特征设计分级方法精度低、鲁棒性差的问题。[方法]提出了一种强泛化的Transformer薯形与大小自动分级方法。基于Transformer模型构建2个PotatoViT模型,并完成马铃薯薯形分级和大小分级任务;利用迁移策略和数据增广方法训练出鲁棒性分级模型;通过测试集定量分析,验证了研究所提方法在马铃薯分级中的有效性。[结果]PotatoViT模型对薯形分级的准确率和模型F 1得分分别为96.36%,94.75%,对大小分级的准确率和模型F 1得分分别为89.66%,85.16%,分级精度优于VGG16、ResNet50和MobileNetV3网络模型。[结论]研究所提方法对马铃薯薯形与大小的准确、实时检测是可行的。 展开更多
关键词 马铃薯 薯形 大小 分级 transformer
下载PDF
改进视觉Transformer的人脸识别方法 被引量:5
19
作者 季瑞瑞 谢宇辉 +1 位作者 骆丰凯 梅远 《计算机工程与应用》 CSCD 北大核心 2023年第8期117-126,共10页
目前大多数人脸识别方法依赖于卷积神经网络,通过级联的形式构建多层处理单元,利用卷积操作融合局部特征,忽略了人脸全局语义信息,缺乏对人脸重点区域的关注度。针对上述问题,提出一种基于改进视觉Transformer的人脸识别方法,引入Shuffl... 目前大多数人脸识别方法依赖于卷积神经网络,通过级联的形式构建多层处理单元,利用卷积操作融合局部特征,忽略了人脸全局语义信息,缺乏对人脸重点区域的关注度。针对上述问题,提出一种基于改进视觉Transformer的人脸识别方法,引入Shuffle Transformer作为特征提取骨干网络,通过自注意力机制以及Shuffle操作捕捉特征图全局信息,建立特征点之间的长距离依赖关系,提高模型的特征感知能力;同时,结合ArcFace损失函数和中心损失函数的特点,设计融合损失作为目标函数,利用类内约束扩大角度间隔,提高特征空间的辨别性。该方法在LFW、CALFW、CPLFW、AgeDB-30和CFP五个具有挑战性的基准测试人脸数据集上分别取得了99.83%、95.87%、90.05%、98.05%、97.23%的平均准确率,能够有效提升人脸特征提取能力,识别效果优于同等规模卷积神经网络。 展开更多
关键词 人脸识别 视觉transformer 自注意力机制 ArcFace损失函数
下载PDF
基于级联视觉Transformer与多尺度特征融合的燃烧场温度层析成像 被引量:1
20
作者 司菁菁 王晓莉 +1 位作者 程银波 刘畅 《电子与信息学报》 EI CSCD 北大核心 2023年第10期3511-3519,共9页
可调谐二极管激光吸收光谱层析成像(TDLAT)是一种重要的光学非侵入式燃烧诊断技术,可实现燃烧场2维横截面气体温度和浓度等流场参数分布的重建。该文将视觉Transformer(ViT)与多尺度特征融合引入TDLAT领域,研究有限数量测量数据与整个... 可调谐二极管激光吸收光谱层析成像(TDLAT)是一种重要的光学非侵入式燃烧诊断技术,可实现燃烧场2维横截面气体温度和浓度等流场参数分布的重建。该文将视觉Transformer(ViT)与多尺度特征融合引入TDLAT领域,研究有限数量测量数据与整个测量空间温度分布的非线性映射,提出基于级联ViT与多尺度特征融合的燃烧场温度层析成像网络(HVTMFnet)。该网络提取并融合TDLAT测量数据的局部-全局相关特征,实现整个测量空间的层次化温度分布重建。仿真实验与实际TDLAT系统实验均表明,HVTMFnet重建图像的质量优于现有的基于卷积神经网络(CNN)和基于残差网络的温度层析成像方案。与基于CNN的温度层析成像方案相比,HVTMFnet的重建误差能够降低49.2%~72.1%。 展开更多
关键词 可调谐二极管激光吸收光谱 层析成像 温度重建 视觉transformer
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部