期刊文献+
共找到238篇文章
< 1 2 12 >
每页显示 20 50 100
基于混合差分卷积和高效视觉Transformer网络的三重多模态图像融合算法
1
作者 司坤宇 牛春晖 《红外与激光工程》 EI CSCD 北大核心 2024年第11期322-336,共15页
提出了一种创新的三重多模态红外和可见图像融合算法,以解决传统卷积运算在全局特征捕捉和长程相关性分析方面的不足。该算法的核心创新包括:首先,在输入端引入差分图像,通过像素值相减突出图像间差异,构建三重输入网络架构,增强图像特... 提出了一种创新的三重多模态红外和可见图像融合算法,以解决传统卷积运算在全局特征捕捉和长程相关性分析方面的不足。该算法的核心创新包括:首先,在输入端引入差分图像,通过像素值相减突出图像间差异,构建三重输入网络架构,增强图像特征的区分度。其次,设计了混合差分卷积(Mixed difference convolution,MDconv),一种传统卷积的变体,结合边缘检测算子,利用像素差分原理,提升卷积运算的特征学习能力;进一步地,采用双分支编码器结构,结合密集混合差分卷积的卷积神经网络分支和高效视觉Transformer(Efficient Vision Trasnsformer,EfficientViT)分支,分别提取图像的局部细节和全局背景,实现对局部与全局特征的全面捕捉;最后,采用多维坐标协同注意力融合策略,在融合层有效整合编码器输出的多模态图像特征。在公开数据集上的定性和定量实验表明,采用文中算法进行红外和可见融合后图像具有背景纹理细节清晰、热辐射目标更显著等明显优势,并在四项客观评价指标MI、VIF、SD、QAB/F分别达到最优值,在SF指标上取得次优值。消融实验也证明了文中所提各个模块的有效性。 展开更多
关键词 差分卷积 高效视觉transformer 注意力机制 图像融合 红外与可见光图像
下载PDF
图像处理中CNN与视觉Transformer混合模型研究综述 被引量:1
2
作者 郭佳霖 智敏 +1 位作者 殷雁君 葛湘巍 《计算机科学与探索》 北大核心 2025年第1期30-44,共15页
卷积神经网络(CNN)与视觉Transformer是目前图像处理领域中两大重要的深度学习模型,两者经过多年来不断的研究与进步,已在该领域取得了非凡的成就。近些年来,CNN与视觉Transformer的混合模型正在逐步兴起,广泛的研究不断克服两种模型存... 卷积神经网络(CNN)与视觉Transformer是目前图像处理领域中两大重要的深度学习模型,两者经过多年来不断的研究与进步,已在该领域取得了非凡的成就。近些年来,CNN与视觉Transformer的混合模型正在逐步兴起,广泛的研究不断克服两种模型存在的弱项,高效地发挥出各自的亮点,在图像处理任务中表现出优异的效果。基于CNN与视觉Transformer混合模型进行深入阐述。总体概述了CNN与Vision Transformer模型的架构和优缺点,并总结混合模型的概念及优势。围绕串行结构融合方式、并行结构融合方式、层级交叉结构融合方式以及其他融合方式等四个方面全面回顾梳理了混合模型的研究现状和实际进展,并针对各种融合方式的主要代表模型进行总结与剖析,从多方面对典型混合模型进行评价对比。多角度叙述了混合模型在图像识别、图像分类、目标检测和图像分割等实际图像处理特定领域中应用研究,展现出混合模型在具体实践中的适用性和高效性。深入分析混合模型未来研究方向,并为后续该模型在图像处理中的研究与应用提出展望。 展开更多
关键词 卷积神经网络(CNN) 视觉transformer 混合模型 图像处理 深度学习
下载PDF
基于Depth-wise卷积和视觉Transformer的图像分类模型 被引量:4
3
作者 张峰 黄仕鑫 +1 位作者 花强 董春茹 《计算机科学》 CSCD 北大核心 2024年第2期196-204,共9页
图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关... 图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关系进行建模,一些研究者将Transformer应用于图像分类任务,但为了满足Transformer的序列化和并行化要求,需要将图像分割成大小相等、互不重叠的图像块,破坏了相邻图像数据块之间的局部信息。此外,由于Transformer具有较少的先验知识,模型往往需要在大规模数据集上进行预训练,因此计算复杂度较高。为了同时建模图像相邻块之间的局部信息并充分利用图像的全局信息,提出了一种基于Depth-wise卷积的视觉Transformer(Efficient Pyramid Vision Transformer,EPVT)模型。EPVT模型可以实现以较低的计算成本提取相邻图像块之间的局部和全局信息。EPVT模型主要包含3个关键组件:局部感知模块(Local Perceptron Module,LPM)、空间信息融合模块(Spatial Information Fusion,SIF)和“+卷积前馈神经网络(Convolution Feed-forward Network,CFFN)。LPM模块用于捕获图像的局部相关性;SIF模块用于融合相邻图像块之间的局部信息,并利用不同图像块之间的远距离依赖关系,提升模型的特征表达能力,使模型学习到输出特征在不同维度下的语义信息;CFFN模块用于编码位置信息和重塑张量。在图像分类数据集ImageNet-1K上,所提模型优于现有的同等规模的视觉Transformer分类模型,取得了82.6%的分类准确度,证明了该模型在大规模数据集上具有竞争力。 展开更多
关键词 深度学习 图像分类 Depth-wise卷积 视觉transformer 注意力机制
下载PDF
ConvFormer:基于Transformer的视觉主干网络 被引量:2
4
作者 胡杰 昌敏杰 +1 位作者 徐博远 徐文才 《电子学报》 EI CAS CSCD 北大核心 2024年第1期46-57,共12页
针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvFormer. ConvFormer通过所设计的多... 针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvFormer. ConvFormer通过所设计的多尺度混洗自注意力模块(Channel-Shuffle and Multi-Scale attention,CSMS)和动态相对位置编码模块(Dynamic Relative Position Coding,DRPC)来聚合多尺度像素块间的语义信息,并在前馈网络中引入深度卷积提高网络的局部建模能力.在公开数据集ImageNet-1K,COCO 2017和ADE20K上分别进行图像分类、目标检测和语义分割实验,ConvFormer-Tiny与不同视觉任务中同量级最优网络RetNetY-4G,Swin-Tiny和ResNet50对比,精度分别提高0.3%,1.4%和0.5%. 展开更多
关键词 机器视觉 自注意力 主干网络 transformer
下载PDF
基于Transformer视觉特征融合的图像描述方法
5
作者 白雪冰 车进 +1 位作者 吴金蔓 陈玉敏 《计算机工程》 CAS CSCD 北大核心 2024年第8期229-238,共10页
现有图像描述方法只利用区域型视觉特征生成描述语句,忽略了网格型视觉特征的重要性,并且均为两阶段方法,从而影响了图像描述的质量。针对该问题,提出一种基于Transformer视觉特征融合的端到端图像描述方法。首先,在特征提取阶段,利用... 现有图像描述方法只利用区域型视觉特征生成描述语句,忽略了网格型视觉特征的重要性,并且均为两阶段方法,从而影响了图像描述的质量。针对该问题,提出一种基于Transformer视觉特征融合的端到端图像描述方法。首先,在特征提取阶段,利用视觉特征提取器提取出区域型视觉特征和网格型视觉特征;其次,在特征融合阶段,通过视觉特征融合模块对区域型视觉特征和网格型视觉特征进行拼接;最后,将所有的视觉特征送入语言生成器中以生成图像描述。该方法各部分均基于Transformer模型实现,实现了一阶段方法。在MS-COCO数据集上的实验结果表明,所提方法能够充分利用区域型视觉特征与网格型视觉特征的优势,BLEU-1、BLEU-4、METEOR、ROUGE-L、CIDEr、SPICE指标分别达到83.1%、41.5%、30.2%、60.1%、140.3%、23.9%,优于目前主流的图像描述方法,能够生成更加准确和丰富的描述语句。 展开更多
关键词 图像描述 区域型视觉特征 网格型视觉特征 transformer模型 端到端训练
下载PDF
基于多层级视频Transformer的视觉自动定位方法
6
作者 邹琦萍 李博涛 +2 位作者 陈赛安 郭茜 张桃红 《工程科学与技术》 EI CAS CSCD 北大核心 2024年第6期34-43,共10页
工业自动化产线中,设备的异常检测直接决定加工质量,由机械臂和搭载于机械臂前端的工业相机构成的视觉系统可以有效监测此类异常。本文使用六轴机械臂搭载工业相机对工件表面进行成像,获取由模糊到清晰再到模糊的视频序列,以此选出最清... 工业自动化产线中,设备的异常检测直接决定加工质量,由机械臂和搭载于机械臂前端的工业相机构成的视觉系统可以有效监测此类异常。本文使用六轴机械臂搭载工业相机对工件表面进行成像,获取由模糊到清晰再到模糊的视频序列,以此选出最清晰的视频帧作为自动加工中有聚焦要求的距离指导,以进行聚焦异常修正,从而实现自动定位。提出一种基于多层级视频Transformer的视频分类模型多级视频Transformer(MLVT)用于高语义级别的视频表征学习,并用于选出视频序列中成像最清晰的帧。首先,提出一种具有多种感受野的token划分方法多级标记(MLT),能够将原始视频数据按2D图像补丁、3D图像补丁、帧和片段这4个层级划分成token序列,并在加入位置编码之后送入多级编码器(MLE)方法进行注意力的计算。为了缓解多层级的tokens带来的计算代价和收敛速度慢的问题,MLE引入一种逐层的可变形注意力机制逐层可变形注意力机制(LWLA),以一种可学习的方式代替全局注意力进行特征相似性的计算。最终,该方法3个版本的模型在本文的视频数据集上分别取得了87.2%、88.6%、88.9%的分类准确率,在与同参数量级的主流视频Transformer实验对比中均表现了最优的性能,有效地完成了从视频序列中选择出最清晰帧的任务,能够为下游视觉任务的性能提供强有力保障。 展开更多
关键词 视频transformer 视频分类 视觉自动定位 可变形注意力
下载PDF
时域孪生网络融合Transformer的长时无人机视觉跟踪
7
作者 谌海云 余鹏 王海川 《计算机工程》 CAS CSCD 北大核心 2024年第11期107-118,共12页
针对无人机(UAV)执行跟踪任务时经常出现尺寸变化、低分辨率、目标遮挡等场景导致跟踪目标框漂移的问题,提出一种时域孪生网络融合Transformer的长时无人机视觉跟踪算法TTTrack。首先,使用基于孪生网络的SiamFC++(AlexNet)算法作为基线... 针对无人机(UAV)执行跟踪任务时经常出现尺寸变化、低分辨率、目标遮挡等场景导致跟踪目标框漂移的问题,提出一种时域孪生网络融合Transformer的长时无人机视觉跟踪算法TTTrack。首先,使用基于孪生网络的SiamFC++(AlexNet)算法作为基线算法;其次,利用Transformer自适应地提取历史帧的时空信息并在线更新模板,从而将时空上下文信息储存为动态模板;随后,分别使用基准模板和动态模板与搜索特征图进行互相关运算,获得响应图后利用Transformer融合两个响应图,从而在连续帧之间建立时空上下文映射关系。实验结果表明,在LaSOT长序列跟踪基准上TTTrack的成功率和精确率分别为63.9%和66.6%,在UAV123跟踪基准上的成功率和精确率分别为61.4%和80.2%。与基线算法相比,该算法在完全遮挡场景下的成功率和精确率分别提升7.4和8.0个百分点。TTTrack在DTB70跟踪基准上精确率达到82.1%,并且跟踪速度为118 帧/s,满足实时性要求。测试结果验证了TTTrack具有良好的鲁棒性、实时性和抗干扰能力,能有效应对长时UAV跟踪任务。 展开更多
关键词 时域孪生网络 transformer模型 无人机 视觉跟踪 时空信息
下载PDF
复谱映射下融合高效Transformer的语音增强方法
8
作者 张天骐 罗庆予 +1 位作者 张慧芝 方蓉 《信号处理》 CSCD 北大核心 2024年第2期406-416,共11页
针对卷积神经网络(Convolutional Neural Network,CNN)过去在语音增强中表现优异但对全局特征捕获不足,以及Transformer近年展现出长序列间依赖优势但又存在局部细节特征丢失、参数量大等问题,该文为了充分利用CNN与Transformer的优势... 针对卷积神经网络(Convolutional Neural Network,CNN)过去在语音增强中表现优异但对全局特征捕获不足,以及Transformer近年展现出长序列间依赖优势但又存在局部细节特征丢失、参数量大等问题,该文为了充分利用CNN与Transformer的优势并弥补各自不足,提出了一种在复频谱映射下的新型卷积模块与高效Transformer融合的单通道语音增强网络。该网络由编码层、传输层与双分支解码层组成:在编解码部分设计了一种协作学习模块(Collaborative Learning Block,CLB)来监督交互信息,在减少参数量的同时提高主干网络对复特征的获取能力;传输层中则提出一种时频空间注意Transformer模块分别对语音子频带和全频带信息建模,充分利用声学特性来模拟局部频谱模式并捕获谐波间依赖关系。将该模块进一步与通道注意分支相结合,设计了一种可学习的双分支注意融合(Dual-branch Attention Fusion,DAF)机制,从空间-通道角度提取上下文特征以加强信息的多维度传输;最后,在此基础上搭建一种高斯加权渐进网络作为中间传输层,通过堆叠DAF模块进行加权求和后输出以充分利用深层特征,使得解码过程更具鲁棒性。分别在英文VoiceBank-DEMAND数据集、中文THCHS30语料库与115种环境噪声下进行消融以及综合对比实验,结果表明,该文方法仅以最小0.68×10^(6)的参数量,相比于大部分最新相关网络模型取得了更优的主、客观指标,具有较为突出的增强性能与泛化能力。 展开更多
关键词 语音增强 复频谱映射 高效transformer 轻量型网络
下载PDF
基于视觉Transformer和双解码器的红外小目标检测方法
9
作者 代少升 刘科生 +3 位作者 黄炼 贺自强 毛兴华 任汶皓 《红外技术》 CSCD 北大核心 2024年第9期1070-1080,共11页
当前基于卷积神经网络的红外小目标检测方法在编码器阶段受限于感受野,且解码器在多尺度特征融合中缺乏有效的特征交互。本文提出了一种基于编码器-解码器结构的新方法,针对现有红外小目标检测方法中的问题进行改进。该方法使用视觉Tran... 当前基于卷积神经网络的红外小目标检测方法在编码器阶段受限于感受野,且解码器在多尺度特征融合中缺乏有效的特征交互。本文提出了一种基于编码器-解码器结构的新方法,针对现有红外小目标检测方法中的问题进行改进。该方法使用视觉Transformer作为编码器,能够有效地提取红外小目标图像的多尺度特征。视觉Transformer是一种新兴的深度学习架构,其通过自注意力机制捕捉图像中像素之间的全局关系,以处理长程依赖性和上下文信息。此外,本文还设计了一个由交互式解码器和辅助解码器组成的双解码器模块,旨在提高解码器对红外小目标的重构能力。该双解码器模块能够充分利用不同特征之间的互补信息,促进深层特征和浅层特征之间的交互,并通过将两个解码器的结果进行叠加,以更好地重构红外小目标。在广泛使用的公共数据集上的实验结果表明,本文提出的方法在F1和mIoU两个评价指标上的性能优于其他对比方法。 展开更多
关键词 红外小目标检测 视觉transformer 多尺度特征融合 编解码结构
下载PDF
结合视觉Transformer和CNN的道路裂缝检测方法
10
作者 代少升 刘科生 余自安 《半导体光电》 CAS 北大核心 2024年第2期252-260,共9页
提出了一种结合视觉Transformer和CNN的道路裂缝检测方法。利用CNN来捕获局部的细节信息,同时利用视觉Transformer来捕获全局特征。通过设计的Fusion特征融合模块将两者提取的特征有机地结合在一起,从而解决了单独使用CNN或视觉Transfor... 提出了一种结合视觉Transformer和CNN的道路裂缝检测方法。利用CNN来捕获局部的细节信息,同时利用视觉Transformer来捕获全局特征。通过设计的Fusion特征融合模块将两者提取的特征有机地结合在一起,从而解决了单独使用CNN或视觉Transformer方法存在的局限。最终将结果传递至交互式解码器,生成道路裂缝的检测结果。实验结果表明,无论是在公开的数据集上还是在自建的数据集上,相较于单独使用CNN或视觉Transformer的方法,所提出的方法在道路裂缝检测任务中有更好的效果。 展开更多
关键词 道路裂缝检测 视觉transformer和CNN 动态加权交叉特征融合
下载PDF
基于改进双分支视觉Transformer的艺术绘画分类
11
作者 高海燕 丁惠君 《贵阳学院学报(自然科学版)》 2024年第3期98-103,共6页
随着艺术数字化的发展,迫切需要准确分析和整理艺术绘画藏品的智能系统,并基于艺术绘画的视觉元素发掘不同艺术属性之间关系。为此,提出基于改进视觉Transformer模型和特征优化算法提高艺术绘画分类的深度学习方法。首先,使用改进双分... 随着艺术数字化的发展,迫切需要准确分析和整理艺术绘画藏品的智能系统,并基于艺术绘画的视觉元素发掘不同艺术属性之间关系。为此,提出基于改进视觉Transformer模型和特征优化算法提高艺术绘画分类的深度学习方法。首先,使用改进双分支视觉Transformer(CrossViT)从艺术绘画图像中提取特征。通过双分支架构提取共享特征,获得多尺度特征表示。设计跨任务融合阶段,使用单独的分支处理特定任务的图元,并通过跨注意力模块交换信息。其后,结合混沌游戏优化(CGO)算法和坚果夹优化器(NO)确定特定最优特征子集。CEC2022基准测试8个函数的算法测试结果验证了所提改进CGO算法的有效性。此外,在SemArt数据集上对艺术绘画进行类型、流派和时期分类任务的实验结果表明,所提方法能够基于不同任务需求准确完成艺术绘画分类,性能优于其他先进方法。 展开更多
关键词 艺术绘画分类 深度学习 视觉transformer 混沌游戏优化 坚果夹优化器
下载PDF
视觉Transformer在低级视觉领域的研究综述 被引量:2
12
作者 朱凯 李理 +2 位作者 张彤 江晟 别一鸣 《计算机工程与应用》 CSCD 北大核心 2024年第4期39-56,共18页
Transformer是一种革命性的神经网络模型架构,最初为自然语言处理而设计,但其由于卓越的性能,在计算机视觉领域获得了广泛的应用。虽然关于Transformer在自然语言处理领域的应用有大量的研究和文献,但针对低级视觉任务的综述相对匮乏。... Transformer是一种革命性的神经网络模型架构,最初为自然语言处理而设计,但其由于卓越的性能,在计算机视觉领域获得了广泛的应用。虽然关于Transformer在自然语言处理领域的应用有大量的研究和文献,但针对低级视觉任务的综述相对匮乏。简要介绍了Transformer的原理并分析归纳了几种变体。在低级视觉任务的应用方面,将重点放在图像恢复、图像增强和图像生成这三个关键领域。通过详细分析不同模型在这些任务中的表现,探讨了它们在常用数据集上的性能差异。对Transformer在低级视觉领域的发展趋势进行了总结和展望,提出了未来的研究方向,以进一步推动Transformer在低级视觉任务中的创新和发展。这一领域的迅猛发展将为计算机视觉和图像处理领域带来更多的突破,为实际应用提供更加强大和高效的解决方案。 展开更多
关键词 transformer 深度学习 注意力机制 计算机视觉 低级视觉任务
下载PDF
卷积神经网络与视觉Transformer联合驱动的跨层多尺度融合网络高光谱图像分类方法 被引量:2
13
作者 赵凤 耿苗苗 +2 位作者 刘汉强 张俊杰 於俊 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第5期2237-2248,共12页
高光谱图像(HSI)分类是地球科学和遥感影像处理任务中最受关注的研究热点之一。近年来,卷积神经网络(CNN)和视觉Transformer相结合的方法,通过综合考虑局部-全局信息,在HSI分类任务中取得了成功。然而,HSI中地物具有丰富的纹理信息和复... 高光谱图像(HSI)分类是地球科学和遥感影像处理任务中最受关注的研究热点之一。近年来,卷积神经网络(CNN)和视觉Transformer相结合的方法,通过综合考虑局部-全局信息,在HSI分类任务中取得了成功。然而,HSI中地物具有丰富的纹理信息和复杂多样的结构,且不同地物之间存在尺度差异。现有的二者结合的方法通常对多尺度地物目标的纹理和结构信息的提取能力有限。为了克服上述局限性,该文提出CNN与视觉Transformer联合驱动的跨层多尺度融合网络HSI分类方法。首先,从结合CNN与视觉Transformer的角度出发,设计了跨层多尺度局部-全局特征提取模块分支,其主要由卷积嵌入的视觉Transformer和跨层特征融合模块构成。具体来说,卷积嵌入的视觉Transformer通过深度融合多尺度CNN与视觉Transformer实现了多尺度局部-全局特征信息的有效提取,从而增强网络对不同尺度地物的关注。进一步地,跨层特征融合模块深度聚合了不同层次的多尺度局部-全局特征信息,以综合考虑地物的浅层纹理信息和深层结构信息。其次,构建了分组多尺度卷积模块分支来挖掘HSI中密集光谱波段潜在的多尺度特征。最后,为了增强网络对HSI中局部波段细节和整体光谱信息的挖掘,设计了残差分组卷积模块对局部-全局光谱特征进行提取。Indian Pines, Houston 2013和Salinas Valley 3个HSI数据集上的实验结果证实了所提方法的有效性。 展开更多
关键词 高光谱图像分类 卷积神经网络 视觉transformer 多尺度特征 融合网络
下载PDF
面向图像分类的视觉Transformer研究进展 被引量:4
14
作者 彭斌 白静 +2 位作者 李文静 郑虎 马向宇 《计算机科学与探索》 CSCD 北大核心 2024年第2期320-344,共25页
Transformer是一种基于自注意力机制的深度学习模型,在计算机视觉中展现出巨大的潜力。而在图像分类任务中,关键的挑战是高效而准确地捕捉输入图片的局部和全局特征。传统方法使用卷积神经网络的底层提取其局部特征,并通过卷积层堆叠扩... Transformer是一种基于自注意力机制的深度学习模型,在计算机视觉中展现出巨大的潜力。而在图像分类任务中,关键的挑战是高效而准确地捕捉输入图片的局部和全局特征。传统方法使用卷积神经网络的底层提取其局部特征,并通过卷积层堆叠扩大感受野以获取图像的全局特征。但这种策略在相对短的距离内聚合信息,难以建立长期依赖关系。相比之下,Transformer的自注意力机制通过直接比较特征在所有空间位置上的相关性,捕捉了局部和全局的长距离依赖关系,具备更强的全局建模能力。因此,深入探讨Transformer在图像分类任务中的问题是非常有必要的。首先以Vision Transformer为例,详细介绍了Transformer的核心原理和架构。然后以图像分类任务为切入点,围绕与视觉Transformer研究中的性能提升、计算成本和训练优化相关的三个重要方面,总结了视觉Transformer研究中的关键问题和最新进展。此外,总结了Transformer在医学图像、遥感图像和农业图像等多个特定领域的应用情况。这些领域中的应用展示了Transformer的多功能性和通用性。最后,通过综合分析视觉Transformer在图像分类方面的研究进展,对视觉Transformer的未来发展方向进行了展望。 展开更多
关键词 深度学习 视觉transformer 网络架构 图像分类 自注意力机制
下载PDF
数字赋能:基于视觉Transformer的非遗苗绣纹样数字化提取 被引量:1
15
作者 代永琪 彭莉 谢乃鹏 《丝绸》 CAS CSCD 北大核心 2024年第7期14-24,共11页
苗绣通常是以线稿描绘的基础图样,搭配丰富色彩的丝线及不同的刺绣技法而形成,出现在一系列如服饰、头饰及配件等纺织品中,但是随着纺织品的损坏和丢失等原因,部分苗绣纹样便也随之流失。目前采用传统手工描绘纹样获取线稿的方式极其不... 苗绣通常是以线稿描绘的基础图样,搭配丰富色彩的丝线及不同的刺绣技法而形成,出现在一系列如服饰、头饰及配件等纺织品中,但是随着纺织品的损坏和丢失等原因,部分苗绣纹样便也随之流失。目前采用传统手工描绘纹样获取线稿的方式极其不便,因此文章针对苗绣纹样的数字化提取,提出了一种基于两阶段渐进采样视觉Transformer的边缘检测算法,分为全局和局部检测。在两个阶段都引入渐进式采样来定位重要区域,使提取的边缘集中于苗绣纹样主体部分,减少服饰背景等造成的干扰。通过使用多尺度通道注意力特征融合模块,将全局和局部检测的边缘进行加权融合,以获得更清晰的边缘。实验结果表明,该算法与其他算法相比,提取的苗绣纹样获得了更纤细的线条,且丢失的纹样形状线条较少,纹样整体效果与标签图最接近,效果最佳。 展开更多
关键词 纹样提取 苗绣刺绣 非物质文化遗产 视觉transformer 数字化 边缘检测
下载PDF
基于自监督视觉Transformer的图像美学质量评价方法
16
作者 黄荣 宋俊杰 +1 位作者 周树波 刘浩 《计算机应用》 CSCD 北大核心 2024年第4期1269-1276,共8页
现有的图像美学质量评价方法普遍使用卷积神经网络(CNN)提取图像特征,但受局部感受野机制的限制,CNN较难提取图像的全局特征,导致全局构图关系、全局色彩搭配等美学属性缺失。为解决该问题,提出基于自监督视觉Transformer(SSViT)模型的... 现有的图像美学质量评价方法普遍使用卷积神经网络(CNN)提取图像特征,但受局部感受野机制的限制,CNN较难提取图像的全局特征,导致全局构图关系、全局色彩搭配等美学属性缺失。为解决该问题,提出基于自监督视觉Transformer(SSViT)模型的图像美学质量评价方法。利用自注意力机制建立图像局部块之间的长距离依赖关系,自适应地学习图像不同局部块之间的相关性,提取图像的全局特征,从而刻画图像的美学属性;同时,设计图像降质分类、图像美学质量排序和图像语义重构这3项美学质量感知任务,利用无标注的图像数据对视觉Transformer(ViT)进行自监督预训练,增强全局特征的表达能力。在AVA(Aesthetic Visual Assessment)数据集上的实验结果显示,SSViT模型在美学质量分类准确率、皮尔森线性相关系数(PLCC)和斯皮尔曼等级相关系数(SRCC)指标上分别达到83.28%、0.7634和0.7462。以上实验结果表明,SSViT模型具有较高的图像美学质量评价准确性。 展开更多
关键词 图像美学质量评价 视觉transformer 自监督学习 全局特征 自注意力机制
下载PDF
基于Transformer的视觉分割技术进展
17
作者 李文生 张菁 +2 位作者 卓力 吴鑫嘉 闫伊 《计算机学报》 EI CAS CSCD 北大核心 2024年第12期2760-2782,共23页
视觉分割是计算机视觉领域的核心任务,旨在将图像或视频帧中的像素分类以划分成不同区域.得益于视觉分割技术的快速发展,该技术在自动驾驶、航空遥感和视频场景理解等多种应用领域中发挥着关键作用.近年来,基于Transformer的视觉分割技... 视觉分割是计算机视觉领域的核心任务,旨在将图像或视频帧中的像素分类以划分成不同区域.得益于视觉分割技术的快速发展,该技术在自动驾驶、航空遥感和视频场景理解等多种应用领域中发挥着关键作用.近年来,基于Transformer的视觉分割技术因具备长程依赖建模能力而备受关注.随着Transformer的模型架构的持续优化与迭代,亟须更全面地理解和认识Transformer在视觉分割领域的已有进展和发展趋势,通过发现现有研究中的不足和挑战,以更深入地探索Transformer的核心理论.为此,本文从图像/视频两个视觉脉络出发,整理、回顾、分析和探讨了近年来基于Transformer的视觉分割相关技术进展,不仅归纳了Transformer的理论框架,还给出了一些应用实例和研究热点,从而做出总结和展望.具体来说,首先梳理了Transformer的背景,包括问题定义、数据集和评估指标、基本结构,其中,问题定义描述了视觉分割在图像/视频任务中的预期目标和结果;数据集和评估指标反映了模型的具体应用场景,以及性能的衡量标准;基本结构则描述了算法的核心模块、实现流程以及各个模块之间的关系.然后,着重阐述了Transformer在图像语义分割、图像实例分割,以及视频语义分割和视频实例分割四个方法体系,并探讨了当前的研究热点.对于图像语义分割任务,分析了Transformer的代表性结构,包括纯Trans⁃former和双分支结构,并以无人机影像非铺装道路分割和遥感图像语义分割为实际应用案例,探讨了Transformer的改进动机与应用效果,并展示了主观结果;图像实例分割总结了常见的非端对端Transformer和端对端Trans⁃former典型结构.视频语义分割主要分为面向精度的和面向效率的Transformer结构,视频实例分割则包括逐帧和逐片段Transformer分割,并以网络直播视频实例分割为应用实例,一方面讨论了可用的数据集、实验参数和评估指标,另一方面,对网络直播视频实例分割主流方法性能进行了评价和分析,展示了一些主观可视化结果.之后,鉴于视觉分割领域的SAM大模型、开放词汇分割、指代分割受到了广泛关注,本文将这些热点问题方法进行了追溯和评述,以期碰撞出视觉分割的新思路和新灵感.最后,尽管基于Transformer在视觉分割技术受到了广泛的关注,但存在的科学问题也逐渐凸显,限制了模型性能与效率的进一步提升,对此本文总结了利用Trans⁃former开展图像/视频语义/实例分割仍需关注的难点问题,并对未来可能的发展方向进行了展望,提供了一些启示供参考. 展开更多
关键词 视觉分割 transformer 语义分割 实例分割 自注意力机制
下载PDF
ViTH:面向医学图像检索的视觉Transformer哈希改进算法
18
作者 刘传升 丁卫平 +2 位作者 程纯 黄嘉爽 王海鹏 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第5期11-26,共16页
对海量的医学图像进行有效检索会给医学诊断和治疗带来极其重要的意义.哈希方法是图像检索领域中的一种主流方法,但在医学图像领域的应用相对较少.针对此,提出一种面向医学图像检索的视觉Transformer哈希改进算法.首先使用视觉Transfor... 对海量的医学图像进行有效检索会给医学诊断和治疗带来极其重要的意义.哈希方法是图像检索领域中的一种主流方法,但在医学图像领域的应用相对较少.针对此,提出一种面向医学图像检索的视觉Transformer哈希改进算法.首先使用视觉Transformer模型作为基础的特征提取模块,其次在Transformer编码器的前、后端分别加入幂均值变换(Power-Mean Transformation,PMT),进一步增强模型的非线性性能,接着在Transformer编码器内部的多头注意力(Multi-Head Attention,MHA)层引入空间金字塔池化(Spatial Pyramid Pooling,SPP)形成多头空间金字塔池化注意力(Multi-Head Spatial Pyramid Pooling Attention,MHSPA)模块,该模块不仅可以提取全局的上下文特征,而且可以提取多尺度的局部上下文特征,并将不同尺度的特征进行融合.最后在输出幂均值变换层之后将提取到的特征分别通过两个多层感知机(Multi-Layer Perceptrons,MLPs),上分支的MLP用来预测图像的类别,下分支的MLP用来学习图像的哈希码.在损失函数部分,充分考虑了成对损失、量化损失、平衡损失以及分类损失来优化整个模型.在医学图像数据集ChestX-ray14和ISIC 2018上的实验结果表明,该研究所提出的算法相比于经典的哈希算法具有更好的检索效果. 展开更多
关键词 医学图像检索 视觉transformer 哈希 幂均值变换 空间金字塔池化
下载PDF
基于FPGA的卷积神经网络和视觉Transformer通用加速器
19
作者 李天阳 张帆 +2 位作者 王松 曹伟 陈立 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第6期2663-2672,共10页
针对计算机视觉领域中基于现场可编程逻辑门阵列(FPGA)的传统卷积神经网(CNN)络加速器不适配视觉Transformer网络的问题,该文提出一种面向卷积神经网络和Transformer的通用FPGA加速器。首先,根据卷积和注意力机制的计算特征,提出一种面... 针对计算机视觉领域中基于现场可编程逻辑门阵列(FPGA)的传统卷积神经网(CNN)络加速器不适配视觉Transformer网络的问题,该文提出一种面向卷积神经网络和Transformer的通用FPGA加速器。首先,根据卷积和注意力机制的计算特征,提出一种面向FPGA的通用计算映射方法;其次,提出一种非线性与归一化加速单元,为计算机视觉神经网络模型中的多种非线性和归一化操作提供加速支持;然后,在Xilinx XCVU37P FPGA上实现了加速器设计。实验结果表明,所提出的非线性与归一化加速单元在提高吞吐量的同时仅造成很小的精度损失,ResNet-50和ViT-B/16在所提FPGA加速器上的性能分别达到了589.94 GOPS和564.76 GOPS。与GPU实现相比,能效比分别提高了5.19倍和7.17倍;与其他基于FPGA的大规模加速器设计相比,能效比有明显提高,同时计算效率较对比FPGA加速器提高了8.02%~177.53%。 展开更多
关键词 计算机视觉 卷积神经网络 transformer FPGA 硬件加速器
下载PDF
基于改进双流视觉Transformer的行为识别模型
20
作者 雷永升 丁锰 +3 位作者 沈尧 李居昊 赵东越 陈福仕 《计算机科学》 CSCD 北大核心 2024年第7期229-235,共7页
针对现有行为识别方法中抗背景干扰能力差和准确率低等问题,提出了一种改进的双流视觉Transformer行为识别模型。该模型采用分段采样的方法来增加模型对长时序列数据的处理能力;在网络头部嵌入无参数的注意力模块,在降低动作背景干扰的... 针对现有行为识别方法中抗背景干扰能力差和准确率低等问题,提出了一种改进的双流视觉Transformer行为识别模型。该模型采用分段采样的方法来增加模型对长时序列数据的处理能力;在网络头部嵌入无参数的注意力模块,在降低动作背景干扰的同时,增强了模型的特征表示能力;在网络尾部嵌入时间注意力模块,通过融合时域高语义信息来充分提取时序特征。文中提出了一种新的联合损失函数,旨在增大类间差异并减少类内差异;采用决策融合层以充分利用光流与RGB流特征。针对上述改进模型,在基准数据集UCF101和HMDB51上进行消融及对比实验,消融实验结果验证了所提方法的有效性,对比实验结果表明,所提方法相比时间分段网络在两个数据集上的准确率分别提高了3.48%和7.76%,优于目前的主流算法,具有较好的识别效果。 展开更多
关键词 行为识别 视觉transformer SimAM无参注意力 时间注意力 联合损失
下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部