期刊文献+
共找到275,514篇文章
< 1 2 250 >
每页显示 20 50 100
基于多尺度transformer的伪造人脸检测方法
1
作者 黄继胜 《南阳理工学院学报》 2024年第2期69-73,91,共6页
考虑到目前大多数伪造人脸分类方法存在分类精度低、泛化能力差的问题,提出一种结合多尺度transformer和卷积块注意力模块的伪造人脸分类方法。多尺度transformer用来学习卷积层所提取特征图的高级语义特征,卷积块注意力模块用来增强此... 考虑到目前大多数伪造人脸分类方法存在分类精度低、泛化能力差的问题,提出一种结合多尺度transformer和卷积块注意力模块的伪造人脸分类方法。多尺度transformer用来学习卷积层所提取特征图的高级语义特征,卷积块注意力模块用来增强此高级语义特征,使其更具有区分性,使用增强后的特征来进行分类。实验结果表明,该方法可以显著提高伪造人脸分类的准确性和泛化能力。 展开更多
关键词 多尺度transformer 卷积块注意力模块 伪造人脸分类 高级语义特征
下载PDF
基于渐进式多尺度Transformer的图像去雾算法
2
作者 周宇 陈志华 +1 位作者 盛斌 梁磊 《计算机科学》 CSCD 北大核心 2024年第5期117-124,共8页
现有的去雾方法难以在复原图像细节的同时保持全局信息。为了解决此问题,文中提出了一种基于渐进式多尺度Transformer(Multi Scale Progressive Transformer,MSP-Transformer)的图像去雾算法。该模型能够有效提取和利用不同尺度的雾相... 现有的去雾方法难以在复原图像细节的同时保持全局信息。为了解决此问题,文中提出了一种基于渐进式多尺度Transformer(Multi Scale Progressive Transformer,MSP-Transformer)的图像去雾算法。该模型能够有效提取和利用不同尺度的雾相关特征,实现了特征和图像的多尺度学习和融合,渐进式地从有雾图像中复原清晰图像。所提出的MSP-Transformer分为编码、解码和复原3个阶段。在编码阶段,利用基于Transformer模块的编码器将输入图像分解为不同尺度的雾图像特征,以全面表征真实有雾图像的信息损失。在解码阶段,考虑到有雾图像的不同区域存在不同尺度的信息丢失,设计了一个包含多尺度注意力机制的特征聚合模块,利用通道注意力和多尺度空间注意力来融合不同尺度的特征信息。复原阶段包含了复原模块和融合模块,首先基于多尺度特征融合的复原模块聚合不同尺度的雾相关特征以增加不同尺度特征的联系,并在每个尺度复原出清晰的无雾图像,然后将每个尺度的复原图像送入融合模块以获得最终的去雾结果。定性和定量的实验结果表明,所提出的MSP-Transformer在真实图像和合成数据集上能够实现雾的有效去除,具有良好的鲁棒性。在公开的RESIDE数据集上与11种去雾方法进行定量和定性比较,MSP-Transformer取得了最高的PSNR(39.53db)和SSIM(0.9954),并获得了良好的视觉效果。此外,消融实验也证明了MSP-Transformer中所提出的模块的有效性。 展开更多
关键词 图像去雾 多尺度 transformer 注意力机制 特征融合
下载PDF
多尺度Transformer的在线更新无锚框工件跟踪方法研究
3
作者 夏代洪 徐健 +2 位作者 郑自立 赵一剑 刘高峰 《国外电子测量技术》 2024年第1期110-116,共7页
针对工业场景目标工件跟踪任务精度低、失败率高的问题,提出了多尺度Transformer在线更新的工件跟踪算法。首先,采用Transformer特征金字塔结构,融合多层次特征信息,以实现鲁棒的对目标表观建模;其次,使用Transformer模块对高级语义信... 针对工业场景目标工件跟踪任务精度低、失败率高的问题,提出了多尺度Transformer在线更新的工件跟踪算法。首先,采用Transformer特征金字塔结构,融合多层次特征信息,以实现鲁棒的对目标表观建模;其次,使用Transformer模块对高级语义信息进行特征融合,使得网络模型专注于目标工件本身;然后,提出了基于排序的交并化(IoU)损失函数优化策略,有效地抑制干扰物对跟踪器影响;最后,设计一种在线更新策略更新目标模板,增强网络的鲁棒性。实验结果表明,在VOT-2018上准确率和失败率分别比基准跟踪器提高3.8%和4.1%,且能保持53 fps的实时跟踪速度;在LaSOT数据集上精度与成功率别为0.578和0.573,均优于基准跟踪器。通过CCD工业相机采集视频序列验证算法可以准确且鲁棒的跟踪目标工件。 展开更多
关键词 目标跟踪 特征金字塔 transformer 损失函数 在线更新
下载PDF
基于多尺度Transformer的多视图三维形状分析方法
4
作者 卫鑫 孙剑 《工程数学学报》 CSCD 北大核心 2024年第1期164-174,共11页
基于多视图的三维形状分析方法是三维计算机视觉领域中的重要研究分支,通过整合三维形状在多个视角下的二维图像的特征来完成三维形状的识别、检索等任务。然而,如何有效地探索不同视角之间的关联性,并运用这些关联性来聚合多视图图像... 基于多视图的三维形状分析方法是三维计算机视觉领域中的重要研究分支,通过整合三维形状在多个视角下的二维图像的特征来完成三维形状的识别、检索等任务。然而,如何有效地探索不同视角之间的关联性,并运用这些关联性来聚合多视图图像的特征仍然是三维形状分析中一个亟待解决的核心问题。受到最近兴起的Transformer网络在关系建模问题上成功应用的启发,研究工作引入了一种创新的多尺度Transformer架构,提出了基于多尺度Transformer的多视图三维形状分析方法(Multi-View Multi-Scale Transformer,MVMST)。此方法能够有效地学习不同视角之间的关联性,将多视图图像的特征聚合为一个具有强大表达能力的整体描述符。与以往方法使用感受野为全局的Transformer建模多视图特征的关系不同,该方法受到多尺度学习方法的启发,使用多尺度的Transformer来建模不同尺度下的多视图图像特征之间的关系,并设计了一个多尺度融合模块将多个尺度下经过Transformer处理的特征进行融合,得到一个相比单一尺度更加有效的多尺度表示。多个视图的多尺度表示最终经过视角池化模块融合成三维形状的一个整体描述符。研究了在多个合成和真实扫描三维形状分类数据集上进行了实验,结果表明所提出的方法在三维形状分类任务上表现出令人满意的性能。 展开更多
关键词 三维形状分析 transformer 多尺度方法
下载PDF
基于多尺度Transformer融合多域信息的伪造人脸检测
5
作者 马欣 吉立新 李邵梅 《计算机科学》 CSCD 北大核心 2023年第10期112-118,共7页
当前,基于Deepfakes等深度伪造技术生成的“换脸”类伪造视频泛滥,给公民个人隐私和国家政治安全带来巨大威胁,为此,研究视频中深度伪造人脸检测技术具有重要意义。针对已有伪造人脸检测方法存在的面部特征提取不充分、泛化能力弱等不足... 当前,基于Deepfakes等深度伪造技术生成的“换脸”类伪造视频泛滥,给公民个人隐私和国家政治安全带来巨大威胁,为此,研究视频中深度伪造人脸检测技术具有重要意义。针对已有伪造人脸检测方法存在的面部特征提取不充分、泛化能力弱等不足,提出一种基于多尺度Transformer对多域信息进行融合的伪造人脸检测方法。基于多域特征融合的思路,同时从视频帧的频域与RGB域进行特征提取,提高模型的泛化性;联合EfficientNet和多尺度Transformer,设计多层级的特征提取网络以提取更精细的伪造特征。在开源数据集上的测试结果表明,相比已有方法,所提方法具有更好的检测效果;同时在跨数据集上的实验结果证明了所提模型具有较好的泛化性能。 展开更多
关键词 伪造人脸检测 多尺度transformer EfficientNet 频域特征 特征融合
下载PDF
红外与可见光图像多尺度Transformer融合方法 被引量:1
6
作者 陈彦林 王志社 +2 位作者 邵文禹 杨帆 孙婧 《红外技术》 CSCD 北大核心 2023年第3期266-275,共10页
目前主流的深度融合方法仅利用卷积运算来提取图像局部特征,但图像与卷积核之间的交互过程与内容无关,且不能有效建立特征长距离依赖关系,不可避免地造成图像上下文内容信息的丢失,限制了红外与可见光图像的融合性能。为此,本文提出了... 目前主流的深度融合方法仅利用卷积运算来提取图像局部特征,但图像与卷积核之间的交互过程与内容无关,且不能有效建立特征长距离依赖关系,不可避免地造成图像上下文内容信息的丢失,限制了红外与可见光图像的融合性能。为此,本文提出了一种红外与可见光图像多尺度Transformer融合方法。以Swin Transformer为组件,架构了Conv Swin Transformer Block模块,利用卷积层增强图像全局特征的表征能力。构建了多尺度自注意力编码-解码网络,实现了图像全局特征提取与全局特征重构;设计了特征序列融合层,利用SoftMax操作计算特征序列的注意力权重系数,突出了源图像各自的显著特征,实现了端到端的红外与可见光图像融合。在TNO、Roadscene数据集上的实验结果表明,该方法在主观视觉描述和客观指标评价都优于其他典型的传统与深度学习融合方法。本方法结合自注意力机制,利用Transformer建立图像的长距离依赖关系,构建了图像全局特征融合模型,比其他深度学习融合方法具有更优的融合性能和更强的泛化能力。 展开更多
关键词 图像融合 Swin transformer 自注意力机制 多尺度 红外图像
下载PDF
多尺度Transformer激光雷达点云3D物体检测 被引量:1
7
作者 孙刘杰 赵进 +1 位作者 王文举 张煜森 《计算机工程与应用》 CSCD 北大核心 2022年第8期136-146,共11页
激光雷达点云3D物体检测,对于小物体如行人、自行车的检测精度较低,容易漏检误检,提出一种多尺度Transformer激光雷达点云3D物体检测方法 MSPT-RCNN(multi-scale point transformer-RCNN),提高点云3D物体检测精度。该方法包含两个阶段,... 激光雷达点云3D物体检测,对于小物体如行人、自行车的检测精度较低,容易漏检误检,提出一种多尺度Transformer激光雷达点云3D物体检测方法 MSPT-RCNN(multi-scale point transformer-RCNN),提高点云3D物体检测精度。该方法包含两个阶段,即第一阶段(RPN)和第二阶段(RCNN)。RPN阶段通过多尺度Transformer网络提取点云特征,该网络包含多尺度邻域嵌入模块和跳跃连接偏移注意力模块,获取多尺度邻域几何信息和不同层次全局语义信息,生成高质量初始3D包围盒;在RCNN阶段,引入包围盒内的点云多尺度邻域几何信息,优化了包围盒位置、尺寸、朝向和置信度等信息。实验结果表明,该方法(MSPT-RCNN)具有较高检测精度,特别是对于远处和较小物体,提升更高。MSPT-RCNN通过有效学习点云数据中的多尺度几何信息,提取不同层次有效的语义信息,能够有效提升3D物体检测精度。 展开更多
关键词 transformer 多尺度 偏移注意力 点云 3D物体检测
下载PDF
多尺度Transformer与层次化边界引导的显著性目标检测
8
作者 杨世伟 王永雄 兰博天 《计算机应用研究》 CSCD 北大核心 2022年第12期3820-3824,3836,共6页
针对显著性目标检测算法中全局和局部信息难以联合表征和目标边界难以细化的问题,提出了一种多尺度Transformer与层次化边界引导的显著性目标检测算法。首先,构建Transformer模型提取全局信息,同时通过自注意力机制获取有判别性的浅层... 针对显著性目标检测算法中全局和局部信息难以联合表征和目标边界难以细化的问题,提出了一种多尺度Transformer与层次化边界引导的显著性目标检测算法。首先,构建Transformer模型提取全局信息,同时通过自注意力机制获取有判别性的浅层局部特征,对全局和局部信息进行联合表征。然后,引入Tokens-to-Token方法提取多尺度特征,使模型实现尺度变换平滑的编解码。进一步,提出了一种层次化的边界学习策略,引导模型在每个解码特征层提取精细化的显著性目标边界特征,提升显著性目标边界的预测准确性。实验结果表明,提出的算法在四个公开显著性目标检测数据集上均优于八种主流的显著性目标检测算法,并且通过消融实验验证了提出模型和边界学习策略的有效性。 展开更多
关键词 显著性目标检测 多尺度特征 层次化边界引导 transformer
下载PDF
多尺度卷积结合Transformer的抑郁脑电分类研究
9
作者 翟凤文 孙芳林 金静 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期182-195,共14页
在通过深度学习模型进行抑郁症类脑电信号分析时,针对单一尺度的卷积存在特征提取不充分的问题和卷积神经网络在感知脑电信号全局依赖性方面的局限性,分别设计了多尺度动态卷积网络模块和门控Transformer编码器模块,并与时间卷积网络相... 在通过深度学习模型进行抑郁症类脑电信号分析时,针对单一尺度的卷积存在特征提取不充分的问题和卷积神经网络在感知脑电信号全局依赖性方面的局限性,分别设计了多尺度动态卷积网络模块和门控Transformer编码器模块,并与时间卷积网络相结合,提出了混合网络模型(MGTTCNet)进行抑郁症患者和健康对照组的脑电信号分类。该模型首先通过多尺度动态卷积从空间域和频率域捕捉脑电信号的多尺度时频信息。其次通过门控Transformer编码器学习脑电信号中的全局依赖关系,其利用多头注意力机制有效增强网络表达相关脑电信号特征的能力。之后利用时间卷积网络提取脑电信号可用的时间特征,最后将提取的抽象特征输入到分类模块进行分类。在公开数据集MODMA上用留出法和十折交叉验证法对提出模型进行实验验证,分别取得了约98.51%和98.53%的分类准确率,相较于基线单尺度模型EEGNet,分类准确率分别提升了约1.89%和1.93%,F1值分别提升了约2.05%和2.08%,kappa系数值分别提高了约0.038 1和0.038 5;同时消融实验验证了文中设计的各个模块的有效性。 展开更多
关键词 脑电信号 抑郁分类 深度学习 transformer 时间卷积网络
下载PDF
多尺度融合卷积的轻量化Transformer无人机地物识别模型
10
作者 肖斌 罗浩 +2 位作者 张恒宾 刘宏伟 张兴鹏 《郑州大学学报(理学版)》 CAS 北大核心 2024年第1期32-39,共8页
Transformer模型性能优越,但其巨大的参数量不适合资源受限的无人机遥感任务。为此,提出一种用于无人机遥感图像的多尺度融合卷积的轻量化Transformer模型,通过设计三种优化策略来提高精度以及减少参数量。首先,设计了一种轻量级多尺度... Transformer模型性能优越,但其巨大的参数量不适合资源受限的无人机遥感任务。为此,提出一种用于无人机遥感图像的多尺度融合卷积的轻量化Transformer模型,通过设计三种优化策略来提高精度以及减少参数量。首先,设计了一种轻量级多尺度融合卷积方法,补充Transformer丢失的块内空间信息,从而有效提取多尺度上的粗、细粒度特征表示。其次,设计了多尺度缩减键值序列的方式,优化Transformer中的自注意力计算。最后,设计了轻量级的MLP解码器,进一步减少模型参数量。在Vaihingen和Potsdam数据集上与一些主流模型进行了对比实验,结果表明,所提模型的F 1值和交并比均有所提升。同时,在Potsdam数据集上准确度提升0.29%,参数量比双分支网络STransFuse减少18%。 展开更多
关键词 无人机遥感影像 transformer 语义分割 轻量级 多尺度 卷积神经网络
下载PDF
LNG-Transformer:基于多尺度信息交互的图像分类网络
11
作者 王文杰 杨燕 +2 位作者 敬丽丽 王杰 刘言 《计算机科学》 CSCD 北大核心 2024年第2期189-195,共7页
鉴于Transformer的Self-Attention机制具有优秀的表征能力,许多研究者提出了基于Self-Attention机制的图像处理模型,并取得了巨大成功。然而,基于Self-Attention的传统图像分类网络无法兼顾全局信息和计算复杂度,限制了Self-Attention... 鉴于Transformer的Self-Attention机制具有优秀的表征能力,许多研究者提出了基于Self-Attention机制的图像处理模型,并取得了巨大成功。然而,基于Self-Attention的传统图像分类网络无法兼顾全局信息和计算复杂度,限制了Self-Attention的广泛应用。文中提出了一种有效的、可扩展的注意力模块Local Neighbor Global Self-Attention(LNG-SA),该模块在任意时期都能进行局部信息、邻居信息和全局信息的交互。通过重复级联LNG-SA模块,设计了一个全新的网络,称为LNG-Transformer。该网络整体采用层次化结构,具有优秀的灵活性,其计算复杂度与图像分辨率呈线性关系。LNG-SA模块的特性使得LNG-Transformer即使在早期的高分辨率阶段,也可以进行局部信息、邻居信息和全局信息的交互,从而带来更高的效率、更强的学习能力。实验结果表明,LNG-Transformer在图像分类任务中具有良好的性能。 展开更多
关键词 图像分类 自注意力机制 多尺度 transformer
下载PDF
基于多尺度金字塔Transformer的人群计数方法
12
作者 张少乐 雷涛 +3 位作者 王营博 周强 薛明园 赵伟强 《智能系统学报》 CSCD 北大核心 2024年第1期67-78,共12页
针对密集人群场景中背景复杂、目标尺度变化较大导致人群计数精度较低的问题,本文提出一种基于多尺度金字塔Transformer的人群计数方法(multi-scale pyramid transformer network,MSPT-Net)。在特征提取阶段设计了一种基于深度可分离自... 针对密集人群场景中背景复杂、目标尺度变化较大导致人群计数精度较低的问题,本文提出一种基于多尺度金字塔Transformer的人群计数方法(multi-scale pyramid transformer network,MSPT-Net)。在特征提取阶段设计了一种基于深度可分离自注意力的金字塔Transformer主干网络结构,该网络结构能有效捕获图像的局部和全局信息,从而有效解决人群密度图像背景复杂导致计数精度低的问题;设计了一种特征金字塔融合模块及多尺度感受野的回归头,实现了密集人群图像浅层细节特征和深层语义特征的高效融合,增强了网络对不同尺度目标的捕获能力;采用深度监督的训练方法在3个公开数据集上对提出的方法进行验证。实验结果表明,本文方法在全监督与弱监督学习策略中,与目前主流的人群计数方法相比,实现了更高精度的人群计数,克服了主流方法对背景复杂、目标尺度变化大的密集人群图像计数精度低的问题,同时本文方法保持着更小的参数量与计算量。 展开更多
关键词 密集人群 人群计数 多尺度 金字塔 transformer 自注意力 密度图 深度监督
下载PDF
融合卷积和Transformer的多尺度皮肤病变分割算法
13
作者 蒋新辉 李筱林 +1 位作者 韦春苗 覃镇锋 《无线电工程》 2024年第3期670-678,共9页
皮肤病变自动分割对协助医生临床诊断、治疗及术后观察都具有非常重要的意义。现有卷积擅长建立局部相关性但无法捕获像素长程依赖关系,而Tansformer可以建立特征信息的全局依赖关系但会造成局部细节信息丢失。因此,提出了一种融合卷积... 皮肤病变自动分割对协助医生临床诊断、治疗及术后观察都具有非常重要的意义。现有卷积擅长建立局部相关性但无法捕获像素长程依赖关系,而Tansformer可以建立特征信息的全局依赖关系但会造成局部细节信息丢失。因此,提出了一种融合卷积和Transformer的多尺度自动分割网络。采用ResNet34作为基础编码块,利用其金字塔结构建立病灶的多级局部相关性;采用Swin Transformer模块捕获上下文特征的长程依赖关系,考虑到病灶形状多变、大小不一等情况,提出多尺度特征聚合模块来进一步提取上下文特征多尺度信息;采用具有注意力机制的解码块逐步融合编码块提取到的多级语义信息。实验结果表明,所提模型在ISIC 2017数据集上测试所得的Dice系数分别高达89.55%,FPS高达83,与其他先进模型相比,本模型参数更少、推理速度更快、精度更高。 展开更多
关键词 图像处理 Swin transformer 多尺度特征聚合模块 注意力机制
下载PDF
融合卷积和Transformer的多尺度肝肿瘤分割方法
14
作者 陈丽芳 罗世勇 《计算机工程与应用》 CSCD 北大核心 2024年第4期270-279,共10页
精确的肝脏和肝脏肿瘤自动分割方法对帮助医生进行肝癌诊断、治疗和术后观察具有重要的意义。由于卷积的局部性,现有基于卷积的方法难以建立长距离的依赖关系。Transformer的级联注意力机制可以建立全局的信息关联,但是会破坏局部细节... 精确的肝脏和肝脏肿瘤自动分割方法对帮助医生进行肝癌诊断、治疗和术后观察具有重要的意义。由于卷积的局部性,现有基于卷积的方法难以建立长距离的依赖关系。Transformer的级联注意力机制可以建立全局的信息关联,但是会破坏局部细节。基于此,提出了一种融合卷积和Transformer的特征建模方法。该方法通过混合嵌入的方式交互融合局部表示和全局表示,最大程度地建立不同分辨率下的全局依赖关系。在跳跃连接处通过多级特征融合模块捕捉来自不同编码阶段的上下文信息以获取更丰富的语义信息。为了应对肝脏肿瘤在大小和形状上的变化,使用可变形多尺度模块提取肿瘤的多尺度特征。实验主要采用Dice相关性系数(Dice similarity coefficient,DSC)作为评价指标,在LiTS17数据集上肝脏和肿瘤的DSC分别为0.920和0.748,结果表明提出的网络相比基线具有更准确的肝脏肿瘤分割结果。 展开更多
关键词 医学图像 肿瘤分割 transformer 卷积神经网络 多尺度 特征融合
下载PDF
基于多尺度时空Transformer的视频动态场景图生成模型
15
作者 王朱佳 余宙 +1 位作者 俞俊 范建平 《计算机应用》 CSCD 北大核心 2024年第1期47-57,共11页
为应对动态视频中物体间关系在时间维度上的动态变化,提出一种基于多尺度时空Transformer的视频动态场景图生成模型,在经典的Transformer架构基础上引入了多尺度建模思想,以实现对视频动态细粒度语义的精确建模。首先,在空间维度上保留... 为应对动态视频中物体间关系在时间维度上的动态变化,提出一种基于多尺度时空Transformer的视频动态场景图生成模型,在经典的Transformer架构基础上引入了多尺度建模思想,以实现对视频动态细粒度语义的精确建模。首先,在空间维度上保留了传统模型对物体在全局空间相关性的关注;同时还对物体间的相对位置进行了局部空间相关性建模,以便更好地理解人和物之间的交互动态,提供更准确的语义分析结果。其次,在时间维度上,除了保留传统模型对视频中物体短期时间相关性的关注外,还关注了同一对物体在完整视频中的长期时间相关性,通过更全面地建模物体之间的长期关系,生成更准确、连贯的场景图,在一定程度上缓解了由遮挡、重合等引起的场景图生成问题。最后,通过空间编码器与时间编码器的共同作用,更加精准地建模视频动态细粒度语义,克服了传统的单尺度模型的局限性。实验结果显示,在Action Genome基准数据集上,与基线模型STTran相比,在谓词分类、场景图分类与场景图检测三个任务的Recall@10指标上分别提升了5.0、2.8、2.9个百分点。实验结果表明,多尺度建模思想能够更加精确地建模,并有效地提高在视频动态场景图生成任务上的性能。 展开更多
关键词 动态场景图生成 注意力机制 多尺度建模 视频理解 语义分析
下载PDF
基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法
16
作者 田子建 吴佳奇 +4 位作者 张文琪 陈伟 周涛 杨伟 王帅 《煤炭科学技术》 EI CAS CSCD 北大核心 2024年第1期297-310,共14页
高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低... 高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法。基于生成对抗思想搭建生成对抗式主体模型框架,使用目标图像域而非单一参考图像驱动判别器监督生成器的训练,实现对低照度图像的充分增强;基于特征表示学习理论搭建特征编码器,将图像解耦为亮度分量和反射分量,避免图像增强过程中亮度与颜色特征相互影响从而导致颜色失真问题;设计CEM-Transformer Encoder通过捕获全局上下文关系和提取局部区域特征,能够充分提升整体图像亮度并消除局部区域照度不均;在反射分量增强过程中,使用结合CEM-Cross-Transformer Encoder的跳跃连接将低级特征与深层网络处特征进行自适应融合,能够有效避免细节特征丢失,并在编码网络中添加ECA-Net,提高浅层网络的特征提取效率。制作矿井低照度图像数据集为矿井低照度图像增强任务提供数据资源。试验显示,在矿井低照度图像数据集和公共数据集中,与5种先进的低照度图像增强算法相比,该算法增强图像的质量指标PSNR、SSIM、VIF平均提高了16.564%,10.998%,16.226%和14.438%,10.888%,14.948%,证明该算法能够有效提升整体图像亮度,消除照度不均,避免颜色失真和细节丢失,实现矿井低照度图像增强。 展开更多
关键词 图像增强 图像识别 生成对抗网络 特征解耦 transformer
下载PDF
基于Depth-wise卷积和视觉Transformer的图像分类模型
17
作者 张峰 黄仕鑫 +1 位作者 花强 董春茹 《计算机科学》 CSCD 北大核心 2024年第2期196-204,共9页
图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关... 图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关系进行建模,一些研究者将Transformer应用于图像分类任务,但为了满足Transformer的序列化和并行化要求,需要将图像分割成大小相等、互不重叠的图像块,破坏了相邻图像数据块之间的局部信息。此外,由于Transformer具有较少的先验知识,模型往往需要在大规模数据集上进行预训练,因此计算复杂度较高。为了同时建模图像相邻块之间的局部信息并充分利用图像的全局信息,提出了一种基于Depth-wise卷积的视觉Transformer(Efficient Pyramid Vision Transformer,EPVT)模型。EPVT模型可以实现以较低的计算成本提取相邻图像块之间的局部和全局信息。EPVT模型主要包含3个关键组件:局部感知模块(Local Perceptron Module,LPM)、空间信息融合模块(Spatial Information Fusion,SIF)和“+卷积前馈神经网络(Convolution Feed-forward Network,CFFN)。LPM模块用于捕获图像的局部相关性;SIF模块用于融合相邻图像块之间的局部信息,并利用不同图像块之间的远距离依赖关系,提升模型的特征表达能力,使模型学习到输出特征在不同维度下的语义信息;CFFN模块用于编码位置信息和重塑张量。在图像分类数据集ImageNet-1K上,所提模型优于现有的同等规模的视觉Transformer分类模型,取得了82.6%的分类准确度,证明了该模型在大规模数据集上具有竞争力。 展开更多
关键词 深度学习 图像分类 Depth-wise卷积 视觉transformer 注意力机制
下载PDF
基于RoBERTa和图增强Transformer的序列推荐方法
18
作者 王明虎 石智奎 +1 位作者 苏佳 张新生 《计算机工程》 CAS CSCD 北大核心 2024年第4期121-131,共11页
自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明... 自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明显劣势。为了更好地挖掘用户与商品之间的深层潜在特征,进一步提高推荐质量,提出一种基于Ro BERTa和图增强Transformer的序列推荐(RGT)模型。引入评论文本数据,首先利用预训练的Ro BERTa模型捕获评论文本中的字词语义特征,初步建模用户的个性化兴趣,然后根据用户与商品的历史交互信息,构建具有时序特性的商品关联图注意力机制网络模型,通过图增强Transformer的方法将图模型学习到的各个商品的特征表示以序列的形式输入Transformer编码层,最后将得到的输出向量与之前捕获的语义表征以及计算得到的商品关联图的全图表征输入全连接层,以捕获用户全局的兴趣偏好,实现用户对商品的预测评分。在3组真实亚马逊公开数据集上的实验结果表明,与Deep FM、Conv MF等经典文本推荐模型相比,RGT模型在均方根误差(RMSE)和平均绝对误差(MAE)2种指标上有显著提升,相较于最优对比模型最高分别提升4.7%和5.3%。 展开更多
关键词 推荐算法 评论文本 RoBERTa模型 图注意力机制 transformer机制
下载PDF
Dual-Path Vision Transformer用于急性缺血性脑卒中辅助诊断
19
作者 张桃红 郭学强 +4 位作者 郑瀚 罗继昌 王韬 焦力群 唐安莹 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期307-314,共8页
急性缺血性脑卒中是由于脑组织血液供应障碍导致的脑功能障碍,数字减影脑血管造影(DSA)是诊断脑血管疾病的金标准。基于患者的正面和侧面DSA图像,对急性缺血性脑卒中的治疗效果进行分级评估,构建基于Vision Transformer的双路径图像分... 急性缺血性脑卒中是由于脑组织血液供应障碍导致的脑功能障碍,数字减影脑血管造影(DSA)是诊断脑血管疾病的金标准。基于患者的正面和侧面DSA图像,对急性缺血性脑卒中的治疗效果进行分级评估,构建基于Vision Transformer的双路径图像分类智能模型DPVF。为了提高辅助诊断速度,基于EdgeViT的轻量化设计思想进行了模型的构建;为了使模型保持轻量化的同时具有较高的精度,提出空间-通道自注意力模块,促进Transformer模型捕获更全面的特征信息,提高模型的表达能力;此外,对于DPVF的两分支的特征融合,构建交叉注意力模块对两分支输出进行交叉融合,促使模型提取更丰富的特征,从而提高模型表现。实验结果显示DPVF在测试集上的准确率达98.5%,满足实际需求。 展开更多
关键词 急性缺血性脑卒中 视觉transformer 双分支网络 特征融合
下载PDF
基于多模态掩码Transformer网络的社会事件分类
20
作者 陈宏 钱胜胜 +2 位作者 李章明 方全 徐常胜 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期579-587,共9页
多模态社会事件分类的关键是充分且准确地利用图像和文字2种模态的特征。然而,现有的大多数方法存在以下局限性:简单地将事件的图像特征和文本特征连接起来,不同模态之间存在不相关的上下文信息导致相互干扰。因此,仅仅考虑多模态数据... 多模态社会事件分类的关键是充分且准确地利用图像和文字2种模态的特征。然而,现有的大多数方法存在以下局限性:简单地将事件的图像特征和文本特征连接起来,不同模态之间存在不相关的上下文信息导致相互干扰。因此,仅仅考虑多模态数据模态间的关系是不够的,还要考虑模态之间不相关的上下文信息(即区域或单词)。为克服这些局限性,提出一种新颖的基于多模态掩码Transformer网络(MMTN)模型的社会事件分类方法。通过图-文编码网络来学习文本和图像的更好的表示。将获得的图像和文本表示输入多模态掩码Transformer网络来融合多模态信息,并通过计算多模态信息之间的相似性,对多模态信息的模态间的关系进行建模,掩盖模态之间的不相关上下文。在2个基准数据集上的大量实验表明:所提模型达到了最先进的性能。 展开更多
关键词 多模态 社会事件分类 社交媒体 表示学习 多模态transformer网络
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部