期刊文献+
共找到239,880篇文章
< 1 2 250 >
每页显示 20 50 100
CNN联合多尺度Transformer的高光谱与多光谱图像融合
1
作者 徐光宪 周伟杰 马飞 《红外技术》 北大核心 2025年第1期52-62,共11页
高光谱图像具有丰富的光谱信息,多光谱图像具有精妙的几何特征,融合高分辨率的多光谱图像和低分辨率的高光谱图像可以获取更为全面的遥感数据图像。然而现有的融合网络大多数基于卷积神经网络所设计,对于结构复杂的遥感类图像而言,依赖... 高光谱图像具有丰富的光谱信息,多光谱图像具有精妙的几何特征,融合高分辨率的多光谱图像和低分辨率的高光谱图像可以获取更为全面的遥感数据图像。然而现有的融合网络大多数基于卷积神经网络所设计,对于结构复杂的遥感类图像而言,依赖于核大小的卷积运算,容易导致特征融合阶段缺乏一些全局上下文信息。为保证图像融合的质量,本文提出了一种CNN(Convolutional Neural Network,CNN)联合多尺度transformer网络来实现多光谱和高光谱图像融合,结合了CNN的特征提取能力与transformer的全局建模优势。网络将融合任务分为了两个阶段,特征提取阶段和融合阶段。特征提取阶段,针对图像特性,基于卷积神经网络分别设计了不同模块用于特征提取。融合阶段,通过多尺度transformer模块从局部到全局建立信息间长距离关联,最后通过多层卷积层将特征映射为高分辨率的高光谱图像。经过在CAVE和Harvard数据集的实验结果表明,本文所提算法与其他经典算法相比,能更好地提升融合图像的质量。 展开更多
关键词 高光谱图像 多光谱图像 卷积神经网络 transformer 图像融合
下载PDF
基于Transformer模型的时序数据预测方法综述
2
作者 孟祥福 石皓源 《计算机科学与探索》 北大核心 2025年第1期45-64,共20页
时序数据预测(TSF)是指通过分析历史数据的趋势性、季节性等潜在信息,预测未来时间点或时间段的数值和趋势。时序数据由传感器生成,在金融、医疗、能源、交通、气象等众多领域都发挥着重要作用。随着物联网传感器的发展,海量的时序数据... 时序数据预测(TSF)是指通过分析历史数据的趋势性、季节性等潜在信息,预测未来时间点或时间段的数值和趋势。时序数据由传感器生成,在金融、医疗、能源、交通、气象等众多领域都发挥着重要作用。随着物联网传感器的发展,海量的时序数据难以使用传统的机器学习解决,而Transformer在自然语言处理和计算机视觉等领域的诸多任务表现优秀,学者们利用Transformer模型有效捕获长期依赖关系,使得时序数据预测任务取得了飞速发展。综述了基于Transformer模型的时序数据预测方法,按时间梳理了时序数据预测的发展进程,系统介绍了时序数据预处理过程和方法,介绍了常用的时序预测评价指标和数据集。以算法框架为研究内容系统阐述了基于Transformer的各类模型在TSF任务中的应用方法和工作原理。通过实验对比了各个模型的性能、优点和局限性,并对实验结果展开了分析与讨论。结合Transformer模型在时序数据预测任务中现有工作存在的挑战提出了该方向未来发展趋势。 展开更多
关键词 深度学习 时序数据预测 数据预处理 transformer模型
下载PDF
基于Transformer与注意力机制的肺部肿瘤分割方法
3
作者 曾安 王丹 +4 位作者 杨宝瑶 张小波 石镇维 刘再毅 潘丹 《广东工业大学学报》 2025年第1期24-32,共9页
肺部肿瘤的准确分割对于肿瘤的诊断和治疗具有重要作用,然而肺部肿瘤分割中存在病灶与周围组织的对比度低、肿瘤与正常组织易粘连和背景噪声大等问题。针对这些问题,本文提出了一种基于Transformer和注意力机制的肺部肿瘤分割方法。在Tr... 肺部肿瘤的准确分割对于肿瘤的诊断和治疗具有重要作用,然而肺部肿瘤分割中存在病灶与周围组织的对比度低、肿瘤与正常组织易粘连和背景噪声大等问题。针对这些问题,本文提出了一种基于Transformer和注意力机制的肺部肿瘤分割方法。在Transformer编码器阶段引入全局和局部的注意力机制,使得网络可以同时关注全局和局部的上下文信息;在跳跃连接阶段,使用通道优先卷积注意力机制,可以增强复杂病灶的空间感知能力和降低通道维度冗余,从而提高肿瘤的分割精度。在私有数据集GDPH和公共数据集LUNG1上的测试结果表明,本文方法相比其他8种分割方法,Dice指标在两个数据集上表现最优,分别为90.96%和88.18%,可以为临床的诊疗提供可靠辅助。 展开更多
关键词 肺部肿瘤 医学图像分割 卷积神经网络 transformer 注意力机制
下载PDF
基于Transformer的胃癌显微高光谱图像分割方法
4
作者 张然 金伟 +8 位作者 牟颖 于丙文 柏怡文 邵益波 平金良 宋鹏涛 何湘漪 刘飞 付琳琳 《光谱学与光谱分析》 北大核心 2025年第2期551-557,共7页
胃癌是全球第五常见的恶性肿瘤并死亡率较高,严重威胁人类的生命健康。因此,早期识别胃癌病变对早期胃癌诊断至关重要。显微高光谱成像技术作为一种新兴技术,可以在微观层面同时获取生物组织丰富的光谱信息和空间信息,为早期病理切片诊... 胃癌是全球第五常见的恶性肿瘤并死亡率较高,严重威胁人类的生命健康。因此,早期识别胃癌病变对早期胃癌诊断至关重要。显微高光谱成像技术作为一种新兴技术,可以在微观层面同时获取生物组织丰富的光谱信息和空间信息,为早期病理切片诊断提供了一种新的思路。利用显微高光谱成像系统,采集了在400~1000 nm波段范围的胃癌显微高光谱病理图像,通过光谱校正等预处理构建了包含230张图像的胃癌显微高光谱数据集。尽管基于空间注意力的方法在图像分类、分割等领域已取得了显著成果,但在处理高光谱图像时仍面临计算复杂度高以及光谱信息利用不充分的问题。为此,提出了基于卷积和注意力机制的混合双分支Transformer(MDBT)的特征提取主干网络模型。该模型通过交替应用空间混合模块和通道混合模块,实现块间和块内的空间和通道特征聚合。具体而言,设计了窗口注意力和卷积双分支以及空间和通道交互结构。这种设计不仅降低了计算复杂度,还通过卷积交互实现了窗口间信息交互和特征融合,从而克服了窗口注意力感受野受限的问题,进一步提高了Transformer的全局建模能力。在进行图像分割实验中,采用UperNet模型作为解码头网络对主干网络提取得到的特征进行还原,以得到最终的分割结果。在采集得到的胃癌高光谱数据集上进行了五折交叉验证实验,结果表明本模型的平均mDice和mIoU分别达到85.39、74.66,性能优于目前UNet、Swin、PVT、VIT等主流图像分割网络模型。同时设计一系列消融实验,验证本文提出空间和通道双混合模块、卷积与窗口注意力双分支等结构对实验结果的优化效果。实验结果表明本文提出的MDBT模型能够有效利用高光谱图像丰富的空间和光谱信息,提高胃癌图像分割准确率,证明显微高光谱成像技术在胃癌诊断方面具有一定的研究意义和应用价值。 展开更多
关键词 显微高光谱 图像分割 深度学习 transformer
下载PDF
图像处理中CNN与视觉Transformer混合模型研究综述 被引量:2
5
作者 郭佳霖 智敏 +1 位作者 殷雁君 葛湘巍 《计算机科学与探索》 北大核心 2025年第1期30-44,共15页
卷积神经网络(CNN)与视觉Transformer是目前图像处理领域中两大重要的深度学习模型,两者经过多年来不断的研究与进步,已在该领域取得了非凡的成就。近些年来,CNN与视觉Transformer的混合模型正在逐步兴起,广泛的研究不断克服两种模型存... 卷积神经网络(CNN)与视觉Transformer是目前图像处理领域中两大重要的深度学习模型,两者经过多年来不断的研究与进步,已在该领域取得了非凡的成就。近些年来,CNN与视觉Transformer的混合模型正在逐步兴起,广泛的研究不断克服两种模型存在的弱项,高效地发挥出各自的亮点,在图像处理任务中表现出优异的效果。基于CNN与视觉Transformer混合模型进行深入阐述。总体概述了CNN与Vision Transformer模型的架构和优缺点,并总结混合模型的概念及优势。围绕串行结构融合方式、并行结构融合方式、层级交叉结构融合方式以及其他融合方式等四个方面全面回顾梳理了混合模型的研究现状和实际进展,并针对各种融合方式的主要代表模型进行总结与剖析,从多方面对典型混合模型进行评价对比。多角度叙述了混合模型在图像识别、图像分类、目标检测和图像分割等实际图像处理特定领域中应用研究,展现出混合模型在具体实践中的适用性和高效性。深入分析混合模型未来研究方向,并为后续该模型在图像处理中的研究与应用提出展望。 展开更多
关键词 卷积神经网络(CNN) 视觉transformer 混合模型 图像处理 深度学习
下载PDF
基于改进Transformer模型的多元时间序列预测
6
作者 程艺锐 李果 《南阳师范学院学报》 CAS 2025年第1期38-45,共8页
在无线数据传输中,环境干扰和网络拥塞导致的数据丢包和缺失问题显著影响了时间序列预测的稳定性。为了解决这个问题,提出了一种名为TFKNet的时间序列预测模型。该模型基于Transformer的多维时间序列数据预测方法,在传统Transformer模... 在无线数据传输中,环境干扰和网络拥塞导致的数据丢包和缺失问题显著影响了时间序列预测的稳定性。为了解决这个问题,提出了一种名为TFKNet的时间序列预测模型。该模型基于Transformer的多维时间序列数据预测方法,在传统Transformer模型的基础上,结合时间卷积网络(TCN)和傅立叶频率特征提取技术增强了模型对局部特征的捕捉能力和多频率特征的提取能力,引入Kernel Attention Networks(KAN)提高了模型的预测性能。实验结果表明,与Transformer、Informer、Reformer、Autoformer传统方法相比,TFKNet模型在时间序列长预测任务中预测误差MAE分别平均降低0.0522、0.1117、0.1209、0.1922。 展开更多
关键词 数据预测 transformer TCN KAN 傅立叶频率特征
下载PDF
ViTAU:基于Vision transformer和面部动作单元的面瘫识别与分析
7
作者 高嘉 蔡文浩 +1 位作者 赵俊莉 段福庆 《工程科学学报》 EI 北大核心 2025年第2期351-363,共13页
面部神经麻痹(Facial nerve paralysis,FNP),通常称为贝尔氏麻痹或面瘫,对患者的日常生活和心理健康产生显著影响,面瘫的及时识别和诊断对于患者的早期治疗和康复至关重要.随着深度学习和计算机视觉技术的快速发展,面瘫的自动识别变得可... 面部神经麻痹(Facial nerve paralysis,FNP),通常称为贝尔氏麻痹或面瘫,对患者的日常生活和心理健康产生显著影响,面瘫的及时识别和诊断对于患者的早期治疗和康复至关重要.随着深度学习和计算机视觉技术的快速发展,面瘫的自动识别变得可行,为诊断提供了一种更准确和客观的方式.目前的研究主要集中关注面部的整体变化,而忽略了面部细节的重要性.面部不同部位对识别结果的影响力并不相同,这些研究尚未对面部各个区域进行细致区分和分析.本项研究引入结合Vision transformer(ViT)模型和动作单元(Action unit,AU)区域检测网络的创新性方法用于面瘫的自动识别及区域分析.ViT模型通过自注意力机制精准识别是否面瘫,同时,基于AU的策略从StyleGAN2模型提取的特征图中,利用金字塔卷积神经网络分析受影响区域.这一综合方法在YouTube Facial Palsy(YFP)和经过扩展的Cohn Kanade(CK+)数据集上的实验中分别达到99.4%的面瘫识别准确率和81.36%的面瘫区域识别准确率.通过与最新方法的对比,实验结果展示了所提的自动面瘫识别方法的有效性. 展开更多
关键词 transformer 面部动作单元 多分辨率特征图 生成器 热力图回归
下载PDF
基于贝叶斯图注意力Transformer的航空发动机剩余使用寿命概率预测
8
作者 胡艳艳 白雅婷 《工程科学学报》 EI 北大核心 2025年第2期374-388,共15页
航空发动机作为飞机的心脏,其健康状态对飞机的安全飞行至关重要.深度学习强大的数据挖掘能力,为通过海量历史数据预测航空发动机的剩余使用寿命提供了新方法.然而,传统基于深度学习的方法大都关注于挖掘数据在时间上的关联,而忽略了多... 航空发动机作为飞机的心脏,其健康状态对飞机的安全飞行至关重要.深度学习强大的数据挖掘能力,为通过海量历史数据预测航空发动机的剩余使用寿命提供了新方法.然而,传统基于深度学习的方法大都关注于挖掘数据在时间上的关联,而忽略了多个传感器监测数据之间复杂的非欧氏空间关系.此外,少有研究考虑数据或者预测过程本身具有的不确定性,缺乏对预测结果可靠性的评估.为解决上述问题,本文提出了一种基于贝叶斯网络和图注意力Transformer的航空发动机剩余使用寿命概率预测方法.将图注意力机制融入Transformer的时间多头注意力模块,结合图注意力网络在空间特征提取上的优势和Transformer模型在时间特征提取的优势,实现数据特征时空关系的联合提取.同时,利用改进的贝叶斯网络度量预测不确定性,在得到剩余使用寿命预测点值的同时给出相应的置信区间.最后,通过在公开航空发动机数据集上的实验,证明了所提模型的有效性和先进性. 展开更多
关键词 航空发动机 剩余使用寿命 图注意力transformer 贝叶斯网络 概率预测
下载PDF
基于Point Transformer方法的鱼类三维点云模型分类
9
作者 胡少秋 段瑞 +3 位作者 张东旭 鲍江辉 吕华飞 段明 《水生生物学报》 北大核心 2025年第2期146-155,共10页
为实现对不同鱼类的精准分类,研究共采集110尾真实鱼类的三维模型,对获取的3D模型进行基于预处理、旋转增强和下采样等操作后,获取了1650尾实验样本。然后基于Point Transformer网络和2个三维分类的对比网络进行数据集的分类训练和验证... 为实现对不同鱼类的精准分类,研究共采集110尾真实鱼类的三维模型,对获取的3D模型进行基于预处理、旋转增强和下采样等操作后,获取了1650尾实验样本。然后基于Point Transformer网络和2个三维分类的对比网络进行数据集的分类训练和验证。结果表明,利用本实验的目标方法Point Transformer获得了比2个对比网络更好的分类结果,整体的分类准确率能够达到91.9%。同时对所使用的三维分类网络进行有效性评估,3个模型对于5种真实鱼类模型的分类是有意义的,其中Point Transformer的模型ROC曲线准确率最高,AUC面积最大,对于三维鱼类数据集的分类最为有效。研究提供了一种可以实现对鱼类三维模型进行精准分类的方法,为以后的智能化渔业资源监测提供一种新的技术手段。 展开更多
关键词 点云处理 Point transformer 三维模型 鱼类分类
下载PDF
基于Transformer的状态−动作−奖赏预测表征学习
10
作者 刘民颂 朱圆恒 赵冬斌 《自动化学报》 北大核心 2025年第1期117-132,共16页
为了提升具有高维动作空间的复杂连续控制任务的性能和样本效率,提出一种基于Transformer的状态−动作−奖赏预测表征学习框架(Transformer-based state-action-reward prediction representation learning framework,TSAR).具体来说,TSA... 为了提升具有高维动作空间的复杂连续控制任务的性能和样本效率,提出一种基于Transformer的状态−动作−奖赏预测表征学习框架(Transformer-based state-action-reward prediction representation learning framework,TSAR).具体来说,TSAR提出一种基于Transformer的融合状态−动作−奖赏信息的序列预测任务.该预测任务采用随机掩码技术对序列数据进行预处理,通过最大化掩码序列的预测状态特征与实际目标状态特征间的互信息,同时学习状态与动作表征.为进一步强化状态和动作表征与强化学习(Reinforcement learning,RL)策略的相关性,TSAR引入动作预测学习和奖赏预测学习作为附加的学习约束以指导状态和动作表征学习.TSAR同时将状态表征和动作表征显式地纳入到强化学习策略的优化中,显著提高了表征对策略学习的促进作用.实验结果表明,在DMControl的9个具有挑战性的困难环境中,TSAR的性能和样本效率超越了现有最先进的方法. 展开更多
关键词 深度强化学习 表征学习 自监督对比学习 transformer
下载PDF
MSMVT:多尺度和多视图Transformer半监督医学图像分割框架
11
作者 李飞翔 降爱莲 《计算机工程与应用》 北大核心 2025年第2期273-282,共10页
近年来,Transformer在众多监督式计算机视觉任务中取得了显著进展,然而由于高质量医学标注图像的缺乏,其在半监督图像分割领域的性能仍有待提高。为此,提出了一种基于多尺度和多视图Transformer的半监督医学图像分割框架:MSMVT(multi-sc... 近年来,Transformer在众多监督式计算机视觉任务中取得了显著进展,然而由于高质量医学标注图像的缺乏,其在半监督图像分割领域的性能仍有待提高。为此,提出了一种基于多尺度和多视图Transformer的半监督医学图像分割框架:MSMVT(multi-scale and multi-view transformer)。鉴于对比学习在Transformer的预训练中取得的良好效果,设计了一个基于伪标签引导的多尺度原型对比学习模块。该模块利用图像金字塔数据增强技术,为无标签图像生成富有语义信息的多尺度原型表示;通过对比学习,强化了不同尺度原型之间的一致性,从而有效缓解了由标签稀缺性导致的Transformer训练不足的问题。此外,为了增强Transformer模型训练的稳定性,提出了多视图一致性学习策略。通过弱扰动视图,以校正多个强扰动视图。通过最小化不同视图之间的输出差异性,使得模型能够对不同扰动保持多层次的一致性。实验结果表明,当仅采用10%的标注比例时,提出的MSMVT框架在ACDC、LIDC和ISIC三个公共数据集上的DSC图像分割性能指标分别达到了88.93%、84.75%和85.38%,优于现有的半监督医学图像分割方法。 展开更多
关键词 半监督医学图像分割 伪标签 transformer 多尺度 多视图
下载PDF
三维卷积与Transformer支持下联合空谱特征的高光谱影像分类
12
作者 何光 吴田军 《计算机工程与应用》 北大核心 2025年第2期259-272,共14页
由于CNN对局部特征提取能力强,目前仍是高光谱影像处理和分析中的主流深度模型,但是CNN感受野有限,无法建立长距离依赖关系,学习全局语义信息受限。Transformer的自注意力机制可以对输入序列中的每个位置进行注意力计算,从而能有效获取... 由于CNN对局部特征提取能力强,目前仍是高光谱影像处理和分析中的主流深度模型,但是CNN感受野有限,无法建立长距离依赖关系,学习全局语义信息受限。Transformer的自注意力机制可以对输入序列中的每个位置进行注意力计算,从而能有效获取全局上下文信息。如何实现CNN和Transformer的技术耦合并充分利用空间信息和光谱信息进行高光谱遥感影像分类是一个重要的待研问题。鉴于此,提出一种新的基于三维卷积和Transformer的高光谱遥感影像分类方法,尝试联合空谱特征实现解译能力的提升。使用主成分分析方法对高光谱遥感影像沿垂直方向降维;用非负矩阵分解算法对降维后遥感影像沿水平方向进行空间特征提取,将两种工具处理后遥感影像进行拼接,以充分保留信息;再用三维卷积核对拼接后遥感影像进行空间特征和光谱特征的综合提取;用Transformer的注意力机制对提取空间信息和光谱信息的遥感影像序列建立长距离依赖关系并使用多层感知机完成分类任务。实验表明,所提方法在WHU-Hi龙口、汉川、洪湖以及雄安新区马蹄湾村数据集上均表现出比对比方法更优异的分类性能,表明该方法具有一定的泛化性和稳健性。 展开更多
关键词 非负矩阵分解 特征融合 三维卷积 空谱联合 transformer 高光谱遥感影像分类
下载PDF
融合信息增益和Transformer的代码异味强度预测
13
作者 苏亚宁 高建华 《计算机技术与发展》 2025年第1期154-161,共8页
检测代码异味强度可以使开发人员优先处理严重性较高的代码问题,从而降低维护成本提升效率。目前基于传统算法模型的异味强度识别方法无法确保检测的效率,为了解决这个问题,该文提出了一种代码异味强度预测模型。首先选取涵盖代码的不... 检测代码异味强度可以使开发人员优先处理严重性较高的代码问题,从而降低维护成本提升效率。目前基于传统算法模型的异味强度识别方法无法确保检测的效率,为了解决这个问题,该文提出了一种代码异味强度预测模型。首先选取涵盖代码的不同方面度量,然后经过信息增益分析优化处理,将处理后的数据子集输入注意力机制以增强特征的表现能力,经归一化处理后的特征表示输入到一个前馈神经网络中再进行非线性处理,最后通过全连接层生成最终的输出。实验结果表明,在开源项目数据集上,该模型在代码异味强度检测精确率、召回率和F1值等指标上均有提高,相较于基线方法,F1值最高提升了16.2%。表明该模型在检测代码异味强度方面具有较高的精度和可靠性,能够更有效地帮助开发人员识别代码异味问题。 展开更多
关键词 代码异味 transformer 信息增益 强度预测 机器学习
下载PDF
一种基于Transformer的双流文档图像质量评价算法
14
作者 焦树恒 张善卿 《软件工程》 2025年第2期42-45,51,共5页
为了解决文档图像质量评价网络对图像特征提取不充分、评价指标不恰当等问题,提出了一种基于Transformer的双流文档图像质量评价算法。首先,利用Transformer提取图像特征,计算特征通道间注意力;其次,使用权重模块预测文档图像OCR(光学... 为了解决文档图像质量评价网络对图像特征提取不充分、评价指标不恰当等问题,提出了一种基于Transformer的双流文档图像质量评价算法。首先,利用Transformer提取图像特征,计算特征通道间注意力;其次,使用权重模块预测文档图像OCR(光学字符识别)准确率作为文档图像质量得分,使用CNN(卷积神经网络)提取文档全局特征,全连接后预测图像的自然图像得分;最后,将两者得分结合作为预测图像的质量得分。实验结果表明,基于Transformer的双流文档图像质量评价算法在数据集上的皮尔逊线性相关系数(PLCC)达到0.9045,史比尔曼等级相关系数(SROCC)达到0.8775,证明该算法可以预测出更符合人类视觉标准的文档图像质量分数。 展开更多
关键词 图像质量评价 文档图像 transformer 神经网络
下载PDF
Common-mode Electromagnetic Interference Mitigation for Solid-state Transformers
15
作者 Dong Jiang Zhenyu Wang +3 位作者 Wenjie Chen Jianrui Liu Xuan Zhao Wei Sun 《Chinese Journal of Electrical Engineering》 CSCD 2022年第3期22-36,共15页
Solid-state transformers(SSTs)have been widely used in many areas owing to their advantages of high-frequency isolation and high power density.However,high-frequency switching causes severe electromagnetic interferenc... Solid-state transformers(SSTs)have been widely used in many areas owing to their advantages of high-frequency isolation and high power density.However,high-frequency switching causes severe electromagnetic interference(EMI)problems.Particularly,the common-mode(CM)EMI caused by the switching of the dual active bridge(DAB)converter is conducted through the parasitic capacitances in the high-frequency transformer and impacts the system reliability.With the understanding of the CM EMI model in SSTs,CM EMI mitigation methods have been studied.For passive mitigation,the coupled inductor can be integrated with the phase-shift inductor function to reduce CM EMI.For active mitigation,variations in the DAB switching frequency can help reduce the CM EMI peak.An active EMI filter can also be designed to sample and compensate for CM EMI.Using these methods,CM EMI can be reduced in SSTs. 展开更多
关键词 solid-state transformer(SST) Dual active bridge(DAB) Common-mode Electromagnetic interference(EMI)
原文传递
基于双信息流Transformer的图像描述生成
16
作者 范小瑞 张晓滨 《计算机技术与发展》 2025年第1期38-45,共8页
针对图像描述生成中由于视觉信息不足,模型会忽略背景信息,并且难以准确捕捉目标之间的相对位置关系,导致生成的句子未能准确、完整地描述图像中的场景问题,提出了一个针对图像描述领域的双信息流Transformer模型(DIFTN)。首先,该网络... 针对图像描述生成中由于视觉信息不足,模型会忽略背景信息,并且难以准确捕捉目标之间的相对位置关系,导致生成的句子未能准确、完整地描述图像中的场景问题,提出了一个针对图像描述领域的双信息流Transformer模型(DIFTN)。首先,该网络将图像的全景分割特征作为另一个视觉信息源,以增强视觉特征对背景信息的贡献;其次,在网格流Transformer编码器中添加卷积位置学习(CPL)模块,利用卷积和自注意力的优势,补偿信息丢失。最后,在解码器中增加一个自适应交叉注意力融合模块,用于计算上述两种类型的视觉特征和描述句子之间的关系。为了验证该方法的有效性,将模型与目前广泛使用的Up-Down模型、M2 Transformer模型、RSTNet模型、VAT模型、PGT模型和Tri-RAT模型在MSCOCO数据集上进行对比实验,结果表明,DIFTN模型的BLEU-1、METEOR、CIDEr和SPICE评价指标分数更高,分别达到了81.5、29.5、134.1、23.3。 展开更多
关键词 图像描述 双信息流transformer 全景分割 卷积位置学习 交叉注意力融合
下载PDF
融合快速边缘注意力的Transformer跟踪算法
17
作者 薛紫涵 葛海波 +2 位作者 王淑贤 安玉 杨雨迪 《计算机工程与应用》 北大核心 2025年第1期221-231,共11页
针对长期目标跟踪中出现模型退化和跟踪漂移的问题,提出了一种融合快速边缘注意力的Transformer跟踪算法TransFEA(fast edge attention on Transformer)。使用ResNet-50作为Siamese网络的骨干网络,并在其每个残差块后端引入注意力网络... 针对长期目标跟踪中出现模型退化和跟踪漂移的问题,提出了一种融合快速边缘注意力的Transformer跟踪算法TransFEA(fast edge attention on Transformer)。使用ResNet-50作为Siamese网络的骨干网络,并在其每个残差块后端引入注意力网络进行特征提取,增强目标的关键信息和全局信息;边缘注意力网络(edge attention network,EA)提取模板与搜索区域的特征向量,快速注意力网络(fast attention network,FA)计算注意响应值,确定两个区域的相似度,以此调整目标位置。设计多层感知器预测边界框,避免过多超参数,使跟踪器实现了准确性与轻量化的平衡。实验结果表明,TransFEA在LaSOT数据集上成功率和准确率分别为65.3%、69.1%,运行可以达到90 FPS,提高了长期跟踪的成功率和准确率。 展开更多
关键词 transformer网络 边缘注意力网络 快速注意力网络 多层感知器
下载PDF
视觉Transformer(ViT)发展综述
18
作者 李玉洁 马子航 +2 位作者 王艺甫 王星河 谭本英 《计算机科学》 北大核心 2025年第1期194-209,共16页
视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对... 视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对近年来ViT的发展进行概述。首先,简要回顾了ViT的基本原理及迁移过程,并分析了ViT模型的结构特点和优势;然后,根据各ViT变体模型的改进特点,归纳和梳理了基于ViT的主要骨干网络变体改进方向及其代表性改进模型,包括局部性改进、结构改进、自监督、轻量化及效率改进等改进方向,并对其进行分析比较;最后,讨论了当前ViT及其改进模型仍存在的不足,对ViT未来的研究方向进行了展望。可以作为研究人员进行基于ViT骨干网络的研究时选择深度学习相关方法的一个权衡和参考。 展开更多
关键词 计算机视觉 模式识别 Vision transformer(ViT) 深度学习 自注意力
下载PDF
锂离子电池健康状态的DCAE-Transformer预测方法研究
19
作者 李浩平 于波涛 +3 位作者 孟荣华 金朱鸿 杜昕毅 李景瑞 《三峡大学学报(自然科学版)》 CAS 北大核心 2025年第1期106-112,共7页
提出了一种基于Transformer的DCAE-Transformer模型,旨在改善健康状态(SOH)估计的准确性.该方法通过Pearson相关系数筛选关键特征,利用去噪自编码器(DAE)和卷积神经网络(CNN)相结合进行数据预处理和特征提取,再将数据输入Transformer框... 提出了一种基于Transformer的DCAE-Transformer模型,旨在改善健康状态(SOH)估计的准确性.该方法通过Pearson相关系数筛选关键特征,利用去噪自编码器(DAE)和卷积神经网络(CNN)相结合进行数据预处理和特征提取,再将数据输入Transformer框架完成预测.使用NASA和CALCE提供的数据集进行验证,DCAE-Transformer模型在NASA电池样本上的误差指标(EMA、EMAP和ERMS)均低于1%,R2值超过99.5%;在CALCE样本上,误差指标低于5%,R2值超过98%.结果表明,该模型在锂电池SOH估计方面具有较高的精确性和泛化性. 展开更多
关键词 锂电池 健康状态估计 卷积去噪自编码器 transformer 预测性能
下载PDF
基于Transformer模型与注意力机制的差分密码分析
20
作者 肖超恩 李子凡 +2 位作者 张磊 王建新 钱思源 《计算机工程》 北大核心 2025年第1期156-163,共8页
基于差分分析的密码攻击中,通常使用贝叶斯优化方法验证部分解密的数据是否具有差分特性。目前,主要采用基于深度学习的方式训练1个差分区分器,但随着加密轮数的增加,差分特征的精确度会呈现线性降低的趋势。为此,结合注意力机制和侧信... 基于差分分析的密码攻击中,通常使用贝叶斯优化方法验证部分解密的数据是否具有差分特性。目前,主要采用基于深度学习的方式训练1个差分区分器,但随着加密轮数的增加,差分特征的精确度会呈现线性降低的趋势。为此,结合注意力机制和侧信道分析,提出了一种新的差分特性判别方法。根据多轮密文间的差分关系,基于Transformer训练了1个针对SPECK32/64算法的差分区分器。在密钥恢复攻击中,借助前一轮的密文对待区分密文影响最大特性,设计了新的密钥恢复攻击方案。在SPECK32/64算法的密钥恢复攻击中,采用26个选择明密文对,并借助第20轮密文对将第22轮65536个候选密钥范围缩小至17个以内,完成对最后两轮子密钥的恢复攻击。实验结果表明,该方法的攻击成功率达90%,可以有效应对加密轮数增多造成的密文差分特征难以识别的问题。 展开更多
关键词 transformer模型 注意力机制 差分区分器 SPECK32/64算法 密钥恢复攻击
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部