期刊文献+
共找到910篇文章
< 1 2 46 >
每页显示 20 50 100
基于多尺度视觉Transformer的图像篡改定位 被引量:6
1
作者 陆璐 钟文煜 吴小坤 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第6期10-18,共9页
随着数字图像处理技术的不断发展,图像篡改不再局限于图像拼接等单一手段,而是通过图像编辑软件后处理隐藏恶意篡改痕迹,导致现有传统算法和基于深度学习的定位方法效果不佳。针对现有图像篡改算法定位精度不高的问题,文中提出了一种端... 随着数字图像处理技术的不断发展,图像篡改不再局限于图像拼接等单一手段,而是通过图像编辑软件后处理隐藏恶意篡改痕迹,导致现有传统算法和基于深度学习的定位方法效果不佳。针对现有图像篡改算法定位精度不高的问题,文中提出了一种端到端基于多尺度视觉Transformer的图像篡改定位网络,该网络通过融合Transformer和卷积编码器来提取篡改区域与非篡改区域的特征差异,而多尺度视觉Transformer对不同尺寸图像块序列的空间信息进行建模,使得网络能适应各种形状大小的篡改区域。实验结果表明:所提出的算法在CASIA和NIST2016测试集上的F_(1)分数分别为0.431和0.877,AUC值分别为0.728和0.971,相比当前的主流算法具有较为明显的性能提升;所提算法对JPEG压缩攻击具有较强的鲁棒性。 展开更多
关键词 深度学习 视觉transformer 图像篡改 纵横注意力
下载PDF
卷积神经网络与视觉Transformer联合驱动的跨层多尺度融合网络高光谱图像分类方法 被引量:2
2
作者 赵凤 耿苗苗 +2 位作者 刘汉强 张俊杰 於俊 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第5期2237-2248,共12页
高光谱图像(HSI)分类是地球科学和遥感影像处理任务中最受关注的研究热点之一。近年来,卷积神经网络(CNN)和视觉Transformer相结合的方法,通过综合考虑局部-全局信息,在HSI分类任务中取得了成功。然而,HSI中地物具有丰富的纹理信息和复... 高光谱图像(HSI)分类是地球科学和遥感影像处理任务中最受关注的研究热点之一。近年来,卷积神经网络(CNN)和视觉Transformer相结合的方法,通过综合考虑局部-全局信息,在HSI分类任务中取得了成功。然而,HSI中地物具有丰富的纹理信息和复杂多样的结构,且不同地物之间存在尺度差异。现有的二者结合的方法通常对多尺度地物目标的纹理和结构信息的提取能力有限。为了克服上述局限性,该文提出CNN与视觉Transformer联合驱动的跨层多尺度融合网络HSI分类方法。首先,从结合CNN与视觉Transformer的角度出发,设计了跨层多尺度局部-全局特征提取模块分支,其主要由卷积嵌入的视觉Transformer和跨层特征融合模块构成。具体来说,卷积嵌入的视觉Transformer通过深度融合多尺度CNN与视觉Transformer实现了多尺度局部-全局特征信息的有效提取,从而增强网络对不同尺度地物的关注。进一步地,跨层特征融合模块深度聚合了不同层次的多尺度局部-全局特征信息,以综合考虑地物的浅层纹理信息和深层结构信息。其次,构建了分组多尺度卷积模块分支来挖掘HSI中密集光谱波段潜在的多尺度特征。最后,为了增强网络对HSI中局部波段细节和整体光谱信息的挖掘,设计了残差分组卷积模块对局部-全局光谱特征进行提取。Indian Pines, Houston 2013和Salinas Valley 3个HSI数据集上的实验结果证实了所提方法的有效性。 展开更多
关键词 高光谱图像分类 卷积神经网络 视觉transformer 多尺度特征 融合网络
下载PDF
基于Depth-wise卷积和视觉Transformer的图像分类模型 被引量:4
3
作者 张峰 黄仕鑫 +1 位作者 花强 董春茹 《计算机科学》 CSCD 北大核心 2024年第2期196-204,共9页
图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关... 图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关系进行建模,一些研究者将Transformer应用于图像分类任务,但为了满足Transformer的序列化和并行化要求,需要将图像分割成大小相等、互不重叠的图像块,破坏了相邻图像数据块之间的局部信息。此外,由于Transformer具有较少的先验知识,模型往往需要在大规模数据集上进行预训练,因此计算复杂度较高。为了同时建模图像相邻块之间的局部信息并充分利用图像的全局信息,提出了一种基于Depth-wise卷积的视觉Transformer(Efficient Pyramid Vision Transformer,EPVT)模型。EPVT模型可以实现以较低的计算成本提取相邻图像块之间的局部和全局信息。EPVT模型主要包含3个关键组件:局部感知模块(Local Perceptron Module,LPM)、空间信息融合模块(Spatial Information Fusion,SIF)和“+卷积前馈神经网络(Convolution Feed-forward Network,CFFN)。LPM模块用于捕获图像的局部相关性;SIF模块用于融合相邻图像块之间的局部信息,并利用不同图像块之间的远距离依赖关系,提升模型的特征表达能力,使模型学习到输出特征在不同维度下的语义信息;CFFN模块用于编码位置信息和重塑张量。在图像分类数据集ImageNet-1K上,所提模型优于现有的同等规模的视觉Transformer分类模型,取得了82.6%的分类准确度,证明了该模型在大规模数据集上具有竞争力。 展开更多
关键词 深度学习 图像分类 Depth-wise卷积 视觉transformer 注意力机制
下载PDF
ConvFormer:基于Transformer的视觉主干网络 被引量:2
4
作者 胡杰 昌敏杰 +1 位作者 徐博远 徐文才 《电子学报》 EI CAS CSCD 北大核心 2024年第1期46-57,共12页
针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvFormer. ConvFormer通过所设计的多... 针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvFormer. ConvFormer通过所设计的多尺度混洗自注意力模块(Channel-Shuffle and Multi-Scale attention,CSMS)和动态相对位置编码模块(Dynamic Relative Position Coding,DRPC)来聚合多尺度像素块间的语义信息,并在前馈网络中引入深度卷积提高网络的局部建模能力.在公开数据集ImageNet-1K,COCO 2017和ADE20K上分别进行图像分类、目标检测和语义分割实验,ConvFormer-Tiny与不同视觉任务中同量级最优网络RetNetY-4G,Swin-Tiny和ResNet50对比,精度分别提高0.3%,1.4%和0.5%. 展开更多
关键词 机器视觉 自注意力 主干网络 transformer
下载PDF
基于Transformer的多尺度遥感语义分割网络 被引量:1
5
作者 邵凯 王明政 王光宇 《智能系统学报》 CSCD 北大核心 2024年第4期920-929,共10页
为了提升遥感图像语义分割效果,本文针对分割目标类间方差小、类内方差大的特点,从全局上下文信息和多尺度语义特征2个关键点提出一种基于Transformer的多尺度遥感语义分割网络(muliti-scale Transformer network,MSTNet)。其由编码器... 为了提升遥感图像语义分割效果,本文针对分割目标类间方差小、类内方差大的特点,从全局上下文信息和多尺度语义特征2个关键点提出一种基于Transformer的多尺度遥感语义分割网络(muliti-scale Transformer network,MSTNet)。其由编码器和解码器2个部分组成,编码器包含基于Transformer改进的视觉注意网络(visual attention network,VAN)主干和基于空洞空间金字塔池化(atrous spatial pyramid pooling, ASPP)结构改进的多尺度语义特征提取模块(multi-scale semantic feature extraction module, MSFEM)。解码器采用轻量级多层感知器(multi-layer perception,MLP)配合编码器设计,充分分析所提取的包含全局上下文信息和多尺度表示的语义特征。MSTNet在2个高分辨率遥感语义分割数据集ISPRS Potsdam和LoveDA上进行验证,平均交并比(mIoU)分别达到79.50%和54.12%,平均F1-score(m F1)分别达到87.46%和69.34%,实验结果验证了本文所提方法有效提升了遥感图像语义分割的效果。 展开更多
关键词 遥感图像 语义分割 卷积神经网络 transformer 全局上下文信息 多尺度感受野 编码器 解码器
下载PDF
基于Transformer视觉特征融合的图像描述方法
6
作者 白雪冰 车进 +1 位作者 吴金蔓 陈玉敏 《计算机工程》 CAS CSCD 北大核心 2024年第8期229-238,共10页
现有图像描述方法只利用区域型视觉特征生成描述语句,忽略了网格型视觉特征的重要性,并且均为两阶段方法,从而影响了图像描述的质量。针对该问题,提出一种基于Transformer视觉特征融合的端到端图像描述方法。首先,在特征提取阶段,利用... 现有图像描述方法只利用区域型视觉特征生成描述语句,忽略了网格型视觉特征的重要性,并且均为两阶段方法,从而影响了图像描述的质量。针对该问题,提出一种基于Transformer视觉特征融合的端到端图像描述方法。首先,在特征提取阶段,利用视觉特征提取器提取出区域型视觉特征和网格型视觉特征;其次,在特征融合阶段,通过视觉特征融合模块对区域型视觉特征和网格型视觉特征进行拼接;最后,将所有的视觉特征送入语言生成器中以生成图像描述。该方法各部分均基于Transformer模型实现,实现了一阶段方法。在MS-COCO数据集上的实验结果表明,所提方法能够充分利用区域型视觉特征与网格型视觉特征的优势,BLEU-1、BLEU-4、METEOR、ROUGE-L、CIDEr、SPICE指标分别达到83.1%、41.5%、30.2%、60.1%、140.3%、23.9%,优于目前主流的图像描述方法,能够生成更加准确和丰富的描述语句。 展开更多
关键词 图像描述 区域型视觉特征 网格型视觉特征 transformer模型 端到端训练
下载PDF
基于多层级视频Transformer的视觉自动定位方法
7
作者 邹琦萍 李博涛 +2 位作者 陈赛安 郭茜 张桃红 《工程科学与技术》 EI CAS CSCD 北大核心 2024年第6期34-43,共10页
工业自动化产线中,设备的异常检测直接决定加工质量,由机械臂和搭载于机械臂前端的工业相机构成的视觉系统可以有效监测此类异常。本文使用六轴机械臂搭载工业相机对工件表面进行成像,获取由模糊到清晰再到模糊的视频序列,以此选出最清... 工业自动化产线中,设备的异常检测直接决定加工质量,由机械臂和搭载于机械臂前端的工业相机构成的视觉系统可以有效监测此类异常。本文使用六轴机械臂搭载工业相机对工件表面进行成像,获取由模糊到清晰再到模糊的视频序列,以此选出最清晰的视频帧作为自动加工中有聚焦要求的距离指导,以进行聚焦异常修正,从而实现自动定位。提出一种基于多层级视频Transformer的视频分类模型多级视频Transformer(MLVT)用于高语义级别的视频表征学习,并用于选出视频序列中成像最清晰的帧。首先,提出一种具有多种感受野的token划分方法多级标记(MLT),能够将原始视频数据按2D图像补丁、3D图像补丁、帧和片段这4个层级划分成token序列,并在加入位置编码之后送入多级编码器(MLE)方法进行注意力的计算。为了缓解多层级的tokens带来的计算代价和收敛速度慢的问题,MLE引入一种逐层的可变形注意力机制逐层可变形注意力机制(LWLA),以一种可学习的方式代替全局注意力进行特征相似性的计算。最终,该方法3个版本的模型在本文的视频数据集上分别取得了87.2%、88.6%、88.9%的分类准确率,在与同参数量级的主流视频Transformer实验对比中均表现了最优的性能,有效地完成了从视频序列中选择出最清晰帧的任务,能够为下游视觉任务的性能提供强有力保障。 展开更多
关键词 视频transformer 视频分类 视觉自动定位 可变形注意力
下载PDF
基于视觉Transformer和双解码器的红外小目标检测方法
8
作者 代少升 刘科生 +3 位作者 黄炼 贺自强 毛兴华 任汶皓 《红外技术》 CSCD 北大核心 2024年第9期1070-1080,共11页
当前基于卷积神经网络的红外小目标检测方法在编码器阶段受限于感受野,且解码器在多尺度特征融合中缺乏有效的特征交互。本文提出了一种基于编码器-解码器结构的新方法,针对现有红外小目标检测方法中的问题进行改进。该方法使用视觉Tran... 当前基于卷积神经网络的红外小目标检测方法在编码器阶段受限于感受野,且解码器在多尺度特征融合中缺乏有效的特征交互。本文提出了一种基于编码器-解码器结构的新方法,针对现有红外小目标检测方法中的问题进行改进。该方法使用视觉Transformer作为编码器,能够有效地提取红外小目标图像的多尺度特征。视觉Transformer是一种新兴的深度学习架构,其通过自注意力机制捕捉图像中像素之间的全局关系,以处理长程依赖性和上下文信息。此外,本文还设计了一个由交互式解码器和辅助解码器组成的双解码器模块,旨在提高解码器对红外小目标的重构能力。该双解码器模块能够充分利用不同特征之间的互补信息,促进深层特征和浅层特征之间的交互,并通过将两个解码器的结果进行叠加,以更好地重构红外小目标。在广泛使用的公共数据集上的实验结果表明,本文提出的方法在F1和mIoU两个评价指标上的性能优于其他对比方法。 展开更多
关键词 红外小目标检测 视觉transformer 多尺度特征融合 编解码结构
下载PDF
基于边缘辅助和多尺度Transformer的无参考屏幕内容图像质量评估
9
作者 陈羽中 陈友昆 +1 位作者 林闽沪 牛玉贞 《电子学报》 EI CAS CSCD 北大核心 2024年第7期2242-2256,共15页
与从现实场景中拍摄的自然图像不同,屏幕内容图像是一种合成图像,通常由计算机生成的文本、图形和动画等各种多媒体形式组合而成.现有评估方法通常未能充分考虑图像边缘结构信息和全局上下文信息对屏幕内容图像质量感知的影响.为解决上... 与从现实场景中拍摄的自然图像不同,屏幕内容图像是一种合成图像,通常由计算机生成的文本、图形和动画等各种多媒体形式组合而成.现有评估方法通常未能充分考虑图像边缘结构信息和全局上下文信息对屏幕内容图像质量感知的影响.为解决上述问题,本文提出一种基于边缘辅助和多尺度Transformer的无参考屏幕内容图像质量评估模型.首先,使用高斯拉普拉斯算子构造由失真屏幕内容图像高频信息组成的边缘结构图,然后通过卷积神经网络(Convolutional Neural Network,CNN)对输入的失真屏幕内容图像和相应的边缘结构图进行多尺度的特征提取与融合,以图像的边缘结构信息为模型训练提供额外的信息增益.此外,本文进一步构建了基于Transformer的多尺度特征编码模块,从而在CNN获得的局部特征基础上更好地建模不同尺度图像和边缘特征的全局上下文信息.实验结果表明,本文提出的方法在指标上优于其他现有的无参考和全参考屏幕内容图像质量评估方法,能够取得更高的主客观视觉感知一致性. 展开更多
关键词 无参考屏幕内容图像质量评估 高斯拉普拉斯算子 卷积神经网络 transformer 多尺度特征
下载PDF
多尺度局部特征和Transformer全局学习融合的发动机剩余寿命预测
10
作者 陈俊英 席月芸 李朝阳 《自动化学报》 EI CAS CSCD 北大核心 2024年第9期1818-1830,共13页
飞机发动机剩余寿命(Remaining useful life,RUL)的准确预测对确保其安全性和可靠性至关重要.在基于多传感器检测数据预测时,需解决局部特征提取问题以全面捕捉设备在不同时间尺度下的退化趋势,并需解决时间序列中各元素之间长期依赖性... 飞机发动机剩余寿命(Remaining useful life,RUL)的准确预测对确保其安全性和可靠性至关重要.在基于多传感器检测数据预测时,需解决局部特征提取问题以全面捕捉设备在不同时间尺度下的退化趋势,并需解决时间序列中各元素之间长期依赖性的全局学习问题.因此,提出了结合多尺度局部特征增强单元(Multi-sacle local feature enhancement unit,MSLFU_BLOCK)和Transformer编码器的预测模型,称之为MS_Transformer.MSLFU_BLOCK利用堆叠的因果卷积逐层从时间序列数据中提取多尺度局部信息,同时避免了传统卷积计算中固有的未来数据泄漏问题.随后,Transformer编码器通过其自注意机制进一步捕获时间序列数据中的短期和长期依赖关系.通过将多尺度局部特征增强单元与Transformer编码器相结合,提出的MS_Transformer全面捕捉了时间序列数据中的局部和全局模式.在广泛使用的CMAPSS基准数据集上进行的消融和预测实验验证了模型的合理性和有效性.与13个先进预测模型的比较分析表明,MS_Transformer模型在操作条件更复杂的FD002和FD004数据集上的RMSE和Score指标优于其他模型,同时在四个数据集上的平均性能最优.该研究为发动机剩余寿命预测提供了更为可靠的解决方案. 展开更多
关键词 剩余寿命预测 航空发动机 transformer 多尺度特征 局部特征
下载PDF
时域孪生网络融合Transformer的长时无人机视觉跟踪
11
作者 谌海云 余鹏 王海川 《计算机工程》 CAS CSCD 北大核心 2024年第11期107-118,共12页
针对无人机(UAV)执行跟踪任务时经常出现尺寸变化、低分辨率、目标遮挡等场景导致跟踪目标框漂移的问题,提出一种时域孪生网络融合Transformer的长时无人机视觉跟踪算法TTTrack。首先,使用基于孪生网络的SiamFC++(AlexNet)算法作为基线... 针对无人机(UAV)执行跟踪任务时经常出现尺寸变化、低分辨率、目标遮挡等场景导致跟踪目标框漂移的问题,提出一种时域孪生网络融合Transformer的长时无人机视觉跟踪算法TTTrack。首先,使用基于孪生网络的SiamFC++(AlexNet)算法作为基线算法;其次,利用Transformer自适应地提取历史帧的时空信息并在线更新模板,从而将时空上下文信息储存为动态模板;随后,分别使用基准模板和动态模板与搜索特征图进行互相关运算,获得响应图后利用Transformer融合两个响应图,从而在连续帧之间建立时空上下文映射关系。实验结果表明,在LaSOT长序列跟踪基准上TTTrack的成功率和精确率分别为63.9%和66.6%,在UAV123跟踪基准上的成功率和精确率分别为61.4%和80.2%。与基线算法相比,该算法在完全遮挡场景下的成功率和精确率分别提升7.4和8.0个百分点。TTTrack在DTB70跟踪基准上精确率达到82.1%,并且跟踪速度为118 帧/s,满足实时性要求。测试结果验证了TTTrack具有良好的鲁棒性、实时性和抗干扰能力,能有效应对长时UAV跟踪任务。 展开更多
关键词 时域孪生网络 transformer模型 无人机 视觉跟踪 时空信息
下载PDF
多尺度融合卷积的轻量化Transformer无人机地物识别模型
12
作者 肖斌 罗浩 +2 位作者 张恒宾 刘宏伟 张兴鹏 《郑州大学学报(理学版)》 CAS 北大核心 2024年第1期32-39,共8页
Transformer模型性能优越,但其巨大的参数量不适合资源受限的无人机遥感任务。为此,提出一种用于无人机遥感图像的多尺度融合卷积的轻量化Transformer模型,通过设计三种优化策略来提高精度以及减少参数量。首先,设计了一种轻量级多尺度... Transformer模型性能优越,但其巨大的参数量不适合资源受限的无人机遥感任务。为此,提出一种用于无人机遥感图像的多尺度融合卷积的轻量化Transformer模型,通过设计三种优化策略来提高精度以及减少参数量。首先,设计了一种轻量级多尺度融合卷积方法,补充Transformer丢失的块内空间信息,从而有效提取多尺度上的粗、细粒度特征表示。其次,设计了多尺度缩减键值序列的方式,优化Transformer中的自注意力计算。最后,设计了轻量级的MLP解码器,进一步减少模型参数量。在Vaihingen和Potsdam数据集上与一些主流模型进行了对比实验,结果表明,所提模型的F 1值和交并比均有所提升。同时,在Potsdam数据集上准确度提升0.29%,参数量比双分支网络STransFuse减少18%。 展开更多
关键词 无人机遥感影像 transformer 语义分割 轻量级 多尺度 卷积神经网络
下载PDF
结合Swin Transformer的多尺度遥感图像变化检测研究
13
作者 刘丽 张起凡 +1 位作者 白宇昂 黄凯烨 《图学学报》 CSCD 北大核心 2024年第5期941-956,共16页
由于地物信息的复杂性及变化检测数据的多元性,遥感图像特征提取的充分性和有效性难以得到保证,导致变化检测方法获取的检测结果可靠性较低。虽然卷积神经网络(CNN)凭借有效提取语义特征的优势,被广泛应用于遥感领域的变化检测之中,但... 由于地物信息的复杂性及变化检测数据的多元性,遥感图像特征提取的充分性和有效性难以得到保证,导致变化检测方法获取的检测结果可靠性较低。虽然卷积神经网络(CNN)凭借有效提取语义特征的优势,被广泛应用于遥感领域的变化检测之中,但卷积操作固有的局部性导致感受野受限,无法捕获时空上的全局信息以至于特征空间对中远距离依赖关系的建模受限。为捕获远距离的语义依赖,提取深层全局语义特征,设计了一种基于Swin Transformer的多尺度特征融合网络SwinChangeNet。首先,SwinChangeNet采用孪生的多级Swin Transformer特征编码器进行远距离上下文建模;其次,编码器中引入特征差异提取模块,计算不同尺度下变化前后的多级特征差异,再通过自适应融合层将多尺度特征图进行融合;最后,引入残差连接和通道注意力机制对融合后的特征信息进行解码,从而生成完整准确的变化图。在CDD和CD_Data_GZ 2个公开数据集上分别与7种经典和前沿变化检测方法进行比较,CDD数据集中本文模型的性能最优,相比于性能第二的模型,F1分数提高了1.11%,精确率提高了2.38%。CD_Data_GZ数据集中本文模型的性能最优,相比于性能第二的模型,F1分数、精确率和召回率分别提高了4.78%,4.32%,4.09%,提升幅度较大。对比实验结果证明了该模型具有更好的检测效果。在消融实验中也证实了模型中各个改进模块的稳定性和有效性。本文模型针对遥感图像变化检测任务,引入了Swin Transformer结构,使网络可以对遥感图像的局部特征和全局特征进行更有效地编码,让检测结果更加准确,同时保证网络在地物要素种类繁多的数据集上容易收敛。 展开更多
关键词 变化检测 孪生网络 Swin transformer 多尺度特征融合 注意力机制 特征差异提取
下载PDF
结合视觉Transformer和CNN的道路裂缝检测方法
14
作者 代少升 刘科生 余自安 《半导体光电》 CAS 北大核心 2024年第2期252-260,共9页
提出了一种结合视觉Transformer和CNN的道路裂缝检测方法。利用CNN来捕获局部的细节信息,同时利用视觉Transformer来捕获全局特征。通过设计的Fusion特征融合模块将两者提取的特征有机地结合在一起,从而解决了单独使用CNN或视觉Transfor... 提出了一种结合视觉Transformer和CNN的道路裂缝检测方法。利用CNN来捕获局部的细节信息,同时利用视觉Transformer来捕获全局特征。通过设计的Fusion特征融合模块将两者提取的特征有机地结合在一起,从而解决了单独使用CNN或视觉Transformer方法存在的局限。最终将结果传递至交互式解码器,生成道路裂缝的检测结果。实验结果表明,无论是在公开的数据集上还是在自建的数据集上,相较于单独使用CNN或视觉Transformer的方法,所提出的方法在道路裂缝检测任务中有更好的效果。 展开更多
关键词 道路裂缝检测 视觉transformer和CNN 动态加权交叉特征融合
下载PDF
基于改进双分支视觉Transformer的艺术绘画分类
15
作者 高海燕 丁惠君 《贵阳学院学报(自然科学版)》 2024年第3期98-103,共6页
随着艺术数字化的发展,迫切需要准确分析和整理艺术绘画藏品的智能系统,并基于艺术绘画的视觉元素发掘不同艺术属性之间关系。为此,提出基于改进视觉Transformer模型和特征优化算法提高艺术绘画分类的深度学习方法。首先,使用改进双分... 随着艺术数字化的发展,迫切需要准确分析和整理艺术绘画藏品的智能系统,并基于艺术绘画的视觉元素发掘不同艺术属性之间关系。为此,提出基于改进视觉Transformer模型和特征优化算法提高艺术绘画分类的深度学习方法。首先,使用改进双分支视觉Transformer(CrossViT)从艺术绘画图像中提取特征。通过双分支架构提取共享特征,获得多尺度特征表示。设计跨任务融合阶段,使用单独的分支处理特定任务的图元,并通过跨注意力模块交换信息。其后,结合混沌游戏优化(CGO)算法和坚果夹优化器(NO)确定特定最优特征子集。CEC2022基准测试8个函数的算法测试结果验证了所提改进CGO算法的有效性。此外,在SemArt数据集上对艺术绘画进行类型、流派和时期分类任务的实验结果表明,所提方法能够基于不同任务需求准确完成艺术绘画分类,性能优于其他先进方法。 展开更多
关键词 艺术绘画分类 深度学习 视觉transformer 混沌游戏优化 坚果夹优化器
下载PDF
LNG-Transformer:基于多尺度信息交互的图像分类网络 被引量:1
16
作者 王文杰 杨燕 +2 位作者 敬丽丽 王杰 刘言 《计算机科学》 CSCD 北大核心 2024年第2期189-195,共7页
鉴于Transformer的Self-Attention机制具有优秀的表征能力,许多研究者提出了基于Self-Attention机制的图像处理模型,并取得了巨大成功。然而,基于Self-Attention的传统图像分类网络无法兼顾全局信息和计算复杂度,限制了Self-Attention... 鉴于Transformer的Self-Attention机制具有优秀的表征能力,许多研究者提出了基于Self-Attention机制的图像处理模型,并取得了巨大成功。然而,基于Self-Attention的传统图像分类网络无法兼顾全局信息和计算复杂度,限制了Self-Attention的广泛应用。文中提出了一种有效的、可扩展的注意力模块Local Neighbor Global Self-Attention(LNG-SA),该模块在任意时期都能进行局部信息、邻居信息和全局信息的交互。通过重复级联LNG-SA模块,设计了一个全新的网络,称为LNG-Transformer。该网络整体采用层次化结构,具有优秀的灵活性,其计算复杂度与图像分辨率呈线性关系。LNG-SA模块的特性使得LNG-Transformer即使在早期的高分辨率阶段,也可以进行局部信息、邻居信息和全局信息的交互,从而带来更高的效率、更强的学习能力。实验结果表明,LNG-Transformer在图像分类任务中具有良好的性能。 展开更多
关键词 图像分类 自注意力机制 多尺度 transformer
下载PDF
视觉Transformer在低级视觉领域的研究综述 被引量:2
17
作者 朱凯 李理 +2 位作者 张彤 江晟 别一鸣 《计算机工程与应用》 CSCD 北大核心 2024年第4期39-56,共18页
Transformer是一种革命性的神经网络模型架构,最初为自然语言处理而设计,但其由于卓越的性能,在计算机视觉领域获得了广泛的应用。虽然关于Transformer在自然语言处理领域的应用有大量的研究和文献,但针对低级视觉任务的综述相对匮乏。... Transformer是一种革命性的神经网络模型架构,最初为自然语言处理而设计,但其由于卓越的性能,在计算机视觉领域获得了广泛的应用。虽然关于Transformer在自然语言处理领域的应用有大量的研究和文献,但针对低级视觉任务的综述相对匮乏。简要介绍了Transformer的原理并分析归纳了几种变体。在低级视觉任务的应用方面,将重点放在图像恢复、图像增强和图像生成这三个关键领域。通过详细分析不同模型在这些任务中的表现,探讨了它们在常用数据集上的性能差异。对Transformer在低级视觉领域的发展趋势进行了总结和展望,提出了未来的研究方向,以进一步推动Transformer在低级视觉任务中的创新和发展。这一领域的迅猛发展将为计算机视觉和图像处理领域带来更多的突破,为实际应用提供更加强大和高效的解决方案。 展开更多
关键词 transformer 深度学习 注意力机制 计算机视觉 低级视觉任务
下载PDF
面向图像分类的视觉Transformer研究进展 被引量:4
18
作者 彭斌 白静 +2 位作者 李文静 郑虎 马向宇 《计算机科学与探索》 CSCD 北大核心 2024年第2期320-344,共25页
Transformer是一种基于自注意力机制的深度学习模型,在计算机视觉中展现出巨大的潜力。而在图像分类任务中,关键的挑战是高效而准确地捕捉输入图片的局部和全局特征。传统方法使用卷积神经网络的底层提取其局部特征,并通过卷积层堆叠扩... Transformer是一种基于自注意力机制的深度学习模型,在计算机视觉中展现出巨大的潜力。而在图像分类任务中,关键的挑战是高效而准确地捕捉输入图片的局部和全局特征。传统方法使用卷积神经网络的底层提取其局部特征,并通过卷积层堆叠扩大感受野以获取图像的全局特征。但这种策略在相对短的距离内聚合信息,难以建立长期依赖关系。相比之下,Transformer的自注意力机制通过直接比较特征在所有空间位置上的相关性,捕捉了局部和全局的长距离依赖关系,具备更强的全局建模能力。因此,深入探讨Transformer在图像分类任务中的问题是非常有必要的。首先以Vision Transformer为例,详细介绍了Transformer的核心原理和架构。然后以图像分类任务为切入点,围绕与视觉Transformer研究中的性能提升、计算成本和训练优化相关的三个重要方面,总结了视觉Transformer研究中的关键问题和最新进展。此外,总结了Transformer在医学图像、遥感图像和农业图像等多个特定领域的应用情况。这些领域中的应用展示了Transformer的多功能性和通用性。最后,通过综合分析视觉Transformer在图像分类方面的研究进展,对视觉Transformer的未来发展方向进行了展望。 展开更多
关键词 深度学习 视觉transformer 网络架构 图像分类 自注意力机制
下载PDF
数字赋能:基于视觉Transformer的非遗苗绣纹样数字化提取 被引量:1
19
作者 代永琪 彭莉 谢乃鹏 《丝绸》 CAS CSCD 北大核心 2024年第7期14-24,共11页
苗绣通常是以线稿描绘的基础图样,搭配丰富色彩的丝线及不同的刺绣技法而形成,出现在一系列如服饰、头饰及配件等纺织品中,但是随着纺织品的损坏和丢失等原因,部分苗绣纹样便也随之流失。目前采用传统手工描绘纹样获取线稿的方式极其不... 苗绣通常是以线稿描绘的基础图样,搭配丰富色彩的丝线及不同的刺绣技法而形成,出现在一系列如服饰、头饰及配件等纺织品中,但是随着纺织品的损坏和丢失等原因,部分苗绣纹样便也随之流失。目前采用传统手工描绘纹样获取线稿的方式极其不便,因此文章针对苗绣纹样的数字化提取,提出了一种基于两阶段渐进采样视觉Transformer的边缘检测算法,分为全局和局部检测。在两个阶段都引入渐进式采样来定位重要区域,使提取的边缘集中于苗绣纹样主体部分,减少服饰背景等造成的干扰。通过使用多尺度通道注意力特征融合模块,将全局和局部检测的边缘进行加权融合,以获得更清晰的边缘。实验结果表明,该算法与其他算法相比,提取的苗绣纹样获得了更纤细的线条,且丢失的纹样形状线条较少,纹样整体效果与标签图最接近,效果最佳。 展开更多
关键词 纹样提取 苗绣刺绣 非物质文化遗产 视觉transformer 数字化 边缘检测
下载PDF
多尺度卷积神经网络融合Transformer的竹材缺陷识别方法
20
作者 杨松 张锐 朱良宽 《林业工程学报》 CSCD 北大核心 2024年第5期126-133,共8页
在竹材缺陷识别的研究中,竹片形状、缺陷部位颜色深浅及裂纹大小差异都是制约模型识别准确率的关键。针对上述问题,提出一种适用于中小数据集的多尺度卷积神经网络融合Transformer的竹材缺陷识别方法,以更好地提高竹材缺陷识别的准确率... 在竹材缺陷识别的研究中,竹片形状、缺陷部位颜色深浅及裂纹大小差异都是制约模型识别准确率的关键。针对上述问题,提出一种适用于中小数据集的多尺度卷积神经网络融合Transformer的竹材缺陷识别方法,以更好地提高竹材缺陷识别的准确率。该方法在卷积神经网络的主干上进行改进,从获取不同尺度语义信息的角度出发,首先利用卷积神经网络在不同尺度的特征图上捕捉图像局部语义信息,然后将不同尺度的语义特征映射为特征符号,同时引入Sinkhorn分词器对不同阶段的卷积神经网络特征符号化以减少特征冗余,再通过Transformer对特征符号之间的关系进行建模以学习图像全局语义信息。试验结果表明,与VGG16、ResNet50、DenseNet121、ViT这4种深度学习模型相比,基于多尺度卷积神经网络融合Transformer的方法能够更高效地提高竹材缺陷识别模型的性能,在竹材缺陷图像数据集上的平均识别准确率达到了99.13%。该方法识别速度更快、精度更高,且具有良好的鲁棒性,为竹材缺陷的实时自动识别提供了新思路,同时也验证了所提出方法的有效性。 展开更多
关键词 竹材缺陷识别 多尺度 卷积神经网络 transformer Sinkhorn分词器
下载PDF
上一页 1 2 46 下一页 到第
使用帮助 返回顶部