期刊文献+
共找到239,301篇文章
< 1 2 250 >
每页显示 20 50 100
基于CNN-BiLSTM-Transformer的舰船中压直流全电推进系统故障诊断设计
1
作者 张建良 韩涛 季瑞松 《实验技术与管理》 北大核心 2025年第1期11-18,共8页
针对舰船中压直流全电推进系统结构复杂度高、单元耦合性强、运行环境多变等特点造成的故障诊断准确性低和实时性差等问题,开展了基于CNN-BiLSTM-Transformer的故障诊断设计。首先,基于卷积神经网络CNN构建单点特征级联网络,开展单一时... 针对舰船中压直流全电推进系统结构复杂度高、单元耦合性强、运行环境多变等特点造成的故障诊断准确性低和实时性差等问题,开展了基于CNN-BiLSTM-Transformer的故障诊断设计。首先,基于卷积神经网络CNN构建单点特征级联网络,开展单一时刻下故障信号空间特征的深入提取,以提升故障特征提取的有效性;其次,以双向长短期记忆网络BiLSTM为核心设计多点特征依赖网络,利用门控机制和双向时序学习机制,实现故障信号在多个时刻之间特征依赖关系的有效学习,以提升故障诊断的准确性;然后,以Transformer为核心建立序列特征并行处理网络,通过自注意力机制实现对故障特征上下文关系的精确刻画,进而利用多头注意力机制实现特征序列的并行处理,以提升故障诊断的实时性;最后,设计舰船中压直流全电推进系统故障诊断实验方案,并开展不同故障模式下的诊断性能评估。该文方法在多种故障模式下诊断准确率和实时性均优于现有的主流故障诊断方法,有助于为舰船中压直流全电推进系统的安全运行提供更有力的技术保障。 展开更多
关键词 舰船 中压直流 全电推进系统 故障诊断 transformer
下载PDF
融合CNN与Transformer的遥感影像道路信息提取
2
作者 曲海成 王莹 +1 位作者 刘腊梅 郝明 《自然资源遥感》 北大核心 2025年第1期38-45,共8页
利用高分辨率遥感影像进行道路信息提取时,深度神经网络很难同时学习影像全局上下文信息和边缘细节信息,为此,该文提出了一种同时学习全局语义信息和局部空间细节的级联神经网络。首先将输入的特征图分别送入到双分支编码器卷积神经网络... 利用高分辨率遥感影像进行道路信息提取时,深度神经网络很难同时学习影像全局上下文信息和边缘细节信息,为此,该文提出了一种同时学习全局语义信息和局部空间细节的级联神经网络。首先将输入的特征图分别送入到双分支编码器卷积神经网络(convolutional neural networks,CNN)和Transformer中,然后,采用了双分支融合模块(shuffle attention dual branch fusion block,SA-DBF)来有效地结合这2个分支学习到的特征,从而实现全局信息与局部信息的融合。其中,双分支融合模块通过细粒度交互对这2个分支的特征进行建模,同时利用多重注意力机制充分提取特征图的通道和空间信息,并抑制掉无效的噪声信息。在公共数据集Massachusetts道路数据集上对模型进行测试,准确率(overall accuracy,OA)、交并比(intersection over union,IoU)和F 1等评价指标分别达到98.04%,88.03%和65.13%;与主流方法U-Net和TransRoadNet等进行比较,IoU分别提升了2.01个百分点和1.42个百分点,实验结果表明所提出的方法优于其他的比较方法,能够有效提高道路分割的精确度。 展开更多
关键词 级联神经网络 transformer 特征融合 注意力机制
下载PDF
CNN联合多尺度Transformer的高光谱与多光谱图像融合
3
作者 徐光宪 周伟杰 马飞 《红外技术》 北大核心 2025年第1期52-62,共11页
高光谱图像具有丰富的光谱信息,多光谱图像具有精妙的几何特征,融合高分辨率的多光谱图像和低分辨率的高光谱图像可以获取更为全面的遥感数据图像。然而现有的融合网络大多数基于卷积神经网络所设计,对于结构复杂的遥感类图像而言,依赖... 高光谱图像具有丰富的光谱信息,多光谱图像具有精妙的几何特征,融合高分辨率的多光谱图像和低分辨率的高光谱图像可以获取更为全面的遥感数据图像。然而现有的融合网络大多数基于卷积神经网络所设计,对于结构复杂的遥感类图像而言,依赖于核大小的卷积运算,容易导致特征融合阶段缺乏一些全局上下文信息。为保证图像融合的质量,本文提出了一种CNN(Convolutional Neural Network,CNN)联合多尺度transformer网络来实现多光谱和高光谱图像融合,结合了CNN的特征提取能力与transformer的全局建模优势。网络将融合任务分为了两个阶段,特征提取阶段和融合阶段。特征提取阶段,针对图像特性,基于卷积神经网络分别设计了不同模块用于特征提取。融合阶段,通过多尺度transformer模块从局部到全局建立信息间长距离关联,最后通过多层卷积层将特征映射为高分辨率的高光谱图像。经过在CAVE和Harvard数据集的实验结果表明,本文所提算法与其他经典算法相比,能更好地提升融合图像的质量。 展开更多
关键词 高光谱图像 多光谱图像 卷积神经网络 transformer 图像融合
下载PDF
基于Transformer模型的时序数据预测方法综述
4
作者 孟祥福 石皓源 《计算机科学与探索》 北大核心 2025年第1期45-64,共20页
时序数据预测(TSF)是指通过分析历史数据的趋势性、季节性等潜在信息,预测未来时间点或时间段的数值和趋势。时序数据由传感器生成,在金融、医疗、能源、交通、气象等众多领域都发挥着重要作用。随着物联网传感器的发展,海量的时序数据... 时序数据预测(TSF)是指通过分析历史数据的趋势性、季节性等潜在信息,预测未来时间点或时间段的数值和趋势。时序数据由传感器生成,在金融、医疗、能源、交通、气象等众多领域都发挥着重要作用。随着物联网传感器的发展,海量的时序数据难以使用传统的机器学习解决,而Transformer在自然语言处理和计算机视觉等领域的诸多任务表现优秀,学者们利用Transformer模型有效捕获长期依赖关系,使得时序数据预测任务取得了飞速发展。综述了基于Transformer模型的时序数据预测方法,按时间梳理了时序数据预测的发展进程,系统介绍了时序数据预处理过程和方法,介绍了常用的时序预测评价指标和数据集。以算法框架为研究内容系统阐述了基于Transformer的各类模型在TSF任务中的应用方法和工作原理。通过实验对比了各个模型的性能、优点和局限性,并对实验结果展开了分析与讨论。结合Transformer模型在时序数据预测任务中现有工作存在的挑战提出了该方向未来发展趋势。 展开更多
关键词 深度学习 时序数据预测 数据预处理 transformer模型
下载PDF
小数据集上基于语义的局部注意视觉Transformer方法
5
作者 冯欣 王俊杰 +1 位作者 钟声 方婷婷 《计算机应用研究》 北大核心 2025年第1期314-320,共7页
在小数据集上从零开始训练时,视觉Transformer无法与同规模的卷积神经网络媲美。基于图像的局部注意力方法,可以显著提高ViT的数据效率,但是会丢失距离较远但相关的补丁之间的信息。为了解决上述问题,提出一种双向并行局部注意力视觉Tra... 在小数据集上从零开始训练时,视觉Transformer无法与同规模的卷积神经网络媲美。基于图像的局部注意力方法,可以显著提高ViT的数据效率,但是会丢失距离较远但相关的补丁之间的信息。为了解决上述问题,提出一种双向并行局部注意力视觉Transformer的方法。该方法首先在特征层面上对补丁进行分组,在组内执行局部注意力,以利用特征空间中补丁之间的关系弥补信息丢失。其次,为了有效融合补丁之间的信息,将基于语义的局部注意力和基于图像的局部注意力并行结合起来,通过双向自适应学习来增强ViT模型在小数据上的性能。实验结果表明,该方法在计算量为15.2 GFLOPs和参数量为57.2 M的情况下,分别在CIFAR-10和CIFAR-100数据集上实现了97.93%和85.80%的准确性。相比于其他方法,双向并行局部注意力视觉Transformer在增强局部引导能力的同时,保持了局部注意力所需属性的有效性。 展开更多
关键词 深度学习 图像分类 transformer 局部注意力 基于语义的局部注意
下载PDF
基于Transformer与注意力机制的肺部肿瘤分割方法
6
作者 曾安 王丹 +4 位作者 杨宝瑶 张小波 石镇维 刘再毅 潘丹 《广东工业大学学报》 2025年第1期24-32,共9页
肺部肿瘤的准确分割对于肿瘤的诊断和治疗具有重要作用,然而肺部肿瘤分割中存在病灶与周围组织的对比度低、肿瘤与正常组织易粘连和背景噪声大等问题。针对这些问题,本文提出了一种基于Transformer和注意力机制的肺部肿瘤分割方法。在Tr... 肺部肿瘤的准确分割对于肿瘤的诊断和治疗具有重要作用,然而肺部肿瘤分割中存在病灶与周围组织的对比度低、肿瘤与正常组织易粘连和背景噪声大等问题。针对这些问题,本文提出了一种基于Transformer和注意力机制的肺部肿瘤分割方法。在Transformer编码器阶段引入全局和局部的注意力机制,使得网络可以同时关注全局和局部的上下文信息;在跳跃连接阶段,使用通道优先卷积注意力机制,可以增强复杂病灶的空间感知能力和降低通道维度冗余,从而提高肿瘤的分割精度。在私有数据集GDPH和公共数据集LUNG1上的测试结果表明,本文方法相比其他8种分割方法,Dice指标在两个数据集上表现最优,分别为90.96%和88.18%,可以为临床的诊疗提供可靠辅助。 展开更多
关键词 肺部肿瘤 医学图像分割 卷积神经网络 transformer 注意力机制
下载PDF
局部特征增强的磁共振图像Transformer重构
7
作者 熊承义 陈文旗 +2 位作者 高志荣 马帅 李帆 《中南民族大学学报(自然科学版)》 CAS 2025年第1期50-57,共8页
研究了一种基于多头自注意力与卷积特征融合的磁共振图像Transformer重构方法.采用U型网络结构,通过学习图像的多尺度特征以提升重构性能.采用深度分离卷积与多头自注意力融合的Swin Transformer结构,改善网络的特征学习能力.在CC359-Br... 研究了一种基于多头自注意力与卷积特征融合的磁共振图像Transformer重构方法.采用U型网络结构,通过学习图像的多尺度特征以提升重构性能.采用深度分离卷积与多头自注意力融合的Swin Transformer结构,改善网络的特征学习能力.在CC359-Brain数据集下基于多种采样模式进行仿真实验,结果证明了该方法在提升磁共振图像重构质量与降低系统复杂度方面的有效性. 展开更多
关键词 磁共振成像 卷积神经网络 变换器 深度学习
下载PDF
基于Transformer的胃癌显微高光谱图像分割方法
8
作者 张然 金伟 +8 位作者 牟颖 于丙文 柏怡文 邵益波 平金良 宋鹏涛 何湘漪 刘飞 付琳琳 《光谱学与光谱分析》 北大核心 2025年第2期551-557,共7页
胃癌是全球第五常见的恶性肿瘤并死亡率较高,严重威胁人类的生命健康。因此,早期识别胃癌病变对早期胃癌诊断至关重要。显微高光谱成像技术作为一种新兴技术,可以在微观层面同时获取生物组织丰富的光谱信息和空间信息,为早期病理切片诊... 胃癌是全球第五常见的恶性肿瘤并死亡率较高,严重威胁人类的生命健康。因此,早期识别胃癌病变对早期胃癌诊断至关重要。显微高光谱成像技术作为一种新兴技术,可以在微观层面同时获取生物组织丰富的光谱信息和空间信息,为早期病理切片诊断提供了一种新的思路。利用显微高光谱成像系统,采集了在400~1000 nm波段范围的胃癌显微高光谱病理图像,通过光谱校正等预处理构建了包含230张图像的胃癌显微高光谱数据集。尽管基于空间注意力的方法在图像分类、分割等领域已取得了显著成果,但在处理高光谱图像时仍面临计算复杂度高以及光谱信息利用不充分的问题。为此,提出了基于卷积和注意力机制的混合双分支Transformer(MDBT)的特征提取主干网络模型。该模型通过交替应用空间混合模块和通道混合模块,实现块间和块内的空间和通道特征聚合。具体而言,设计了窗口注意力和卷积双分支以及空间和通道交互结构。这种设计不仅降低了计算复杂度,还通过卷积交互实现了窗口间信息交互和特征融合,从而克服了窗口注意力感受野受限的问题,进一步提高了Transformer的全局建模能力。在进行图像分割实验中,采用UperNet模型作为解码头网络对主干网络提取得到的特征进行还原,以得到最终的分割结果。在采集得到的胃癌高光谱数据集上进行了五折交叉验证实验,结果表明本模型的平均mDice和mIoU分别达到85.39、74.66,性能优于目前UNet、Swin、PVT、VIT等主流图像分割网络模型。同时设计一系列消融实验,验证本文提出空间和通道双混合模块、卷积与窗口注意力双分支等结构对实验结果的优化效果。实验结果表明本文提出的MDBT模型能够有效利用高光谱图像丰富的空间和光谱信息,提高胃癌图像分割准确率,证明显微高光谱成像技术在胃癌诊断方面具有一定的研究意义和应用价值。 展开更多
关键词 显微高光谱 图像分割 深度学习 transformer
下载PDF
图像处理中CNN与视觉Transformer混合模型研究综述 被引量:2
9
作者 郭佳霖 智敏 +1 位作者 殷雁君 葛湘巍 《计算机科学与探索》 北大核心 2025年第1期30-44,共15页
卷积神经网络(CNN)与视觉Transformer是目前图像处理领域中两大重要的深度学习模型,两者经过多年来不断的研究与进步,已在该领域取得了非凡的成就。近些年来,CNN与视觉Transformer的混合模型正在逐步兴起,广泛的研究不断克服两种模型存... 卷积神经网络(CNN)与视觉Transformer是目前图像处理领域中两大重要的深度学习模型,两者经过多年来不断的研究与进步,已在该领域取得了非凡的成就。近些年来,CNN与视觉Transformer的混合模型正在逐步兴起,广泛的研究不断克服两种模型存在的弱项,高效地发挥出各自的亮点,在图像处理任务中表现出优异的效果。基于CNN与视觉Transformer混合模型进行深入阐述。总体概述了CNN与Vision Transformer模型的架构和优缺点,并总结混合模型的概念及优势。围绕串行结构融合方式、并行结构融合方式、层级交叉结构融合方式以及其他融合方式等四个方面全面回顾梳理了混合模型的研究现状和实际进展,并针对各种融合方式的主要代表模型进行总结与剖析,从多方面对典型混合模型进行评价对比。多角度叙述了混合模型在图像识别、图像分类、目标检测和图像分割等实际图像处理特定领域中应用研究,展现出混合模型在具体实践中的适用性和高效性。深入分析混合模型未来研究方向,并为后续该模型在图像处理中的研究与应用提出展望。 展开更多
关键词 卷积神经网络(CNN) 视觉transformer 混合模型 图像处理 深度学习
下载PDF
基于改进Transformer模型的多元时间序列预测
10
作者 程艺锐 李果 《南阳师范学院学报》 CAS 2025年第1期38-45,共8页
在无线数据传输中,环境干扰和网络拥塞导致的数据丢包和缺失问题显著影响了时间序列预测的稳定性。为了解决这个问题,提出了一种名为TFKNet的时间序列预测模型。该模型基于Transformer的多维时间序列数据预测方法,在传统Transformer模... 在无线数据传输中,环境干扰和网络拥塞导致的数据丢包和缺失问题显著影响了时间序列预测的稳定性。为了解决这个问题,提出了一种名为TFKNet的时间序列预测模型。该模型基于Transformer的多维时间序列数据预测方法,在传统Transformer模型的基础上,结合时间卷积网络(TCN)和傅立叶频率特征提取技术增强了模型对局部特征的捕捉能力和多频率特征的提取能力,引入Kernel Attention Networks(KAN)提高了模型的预测性能。实验结果表明,与Transformer、Informer、Reformer、Autoformer传统方法相比,TFKNet模型在时间序列长预测任务中预测误差MAE分别平均降低0.0522、0.1117、0.1209、0.1922。 展开更多
关键词 数据预测 transformer TCN KAN 傅立叶频率特征
下载PDF
基于Swin-AK Transformer的智能手机拍摄图像质量评价方法
11
作者 侯国鹏 董武 +4 位作者 陆利坤 周子镱 马倩 柏振 郑晟辉 《光电工程》 北大核心 2025年第1期116-130,共15页
本文提出了一种基于双交叉注意力融合的Swin-AK Transformer(Swin Transformer based on alterable kernel convolution)和手工特征相结合的智能手机拍摄图像质量评价方法。首先,提取了影响图像质量的手工特征,这些特征可以捕捉到图像... 本文提出了一种基于双交叉注意力融合的Swin-AK Transformer(Swin Transformer based on alterable kernel convolution)和手工特征相结合的智能手机拍摄图像质量评价方法。首先,提取了影响图像质量的手工特征,这些特征可以捕捉到图像中细微的视觉变化;其次,提出了Swin-AK Transformer,增强了模型对局部信息的提取和处理能力。此外,本文设计了双交叉注意力融合模块,结合空间注意力和通道注意力机制,融合了手工特征与深度特征,实现了更加精确的图像质量预测。实验结果表明,在SPAQ和LIVE-C数据集上,皮尔森线性相关系数分别达到0.932和0.885,斯皮尔曼等级排序相关系数分别达到0.929和0.858。上述结果证明了本文提出的方法能够有效地预测智能手机拍摄图像的质量。 展开更多
关键词 图像质量评价 智能手机拍摄图像 Swin transformer 手工特征 空间注意力 通道注意力
下载PDF
ViTAU:基于Vision transformer和面部动作单元的面瘫识别与分析
12
作者 高嘉 蔡文浩 +1 位作者 赵俊莉 段福庆 《工程科学学报》 EI 北大核心 2025年第2期351-363,共13页
面部神经麻痹(Facial nerve paralysis,FNP),通常称为贝尔氏麻痹或面瘫,对患者的日常生活和心理健康产生显著影响,面瘫的及时识别和诊断对于患者的早期治疗和康复至关重要.随着深度学习和计算机视觉技术的快速发展,面瘫的自动识别变得可... 面部神经麻痹(Facial nerve paralysis,FNP),通常称为贝尔氏麻痹或面瘫,对患者的日常生活和心理健康产生显著影响,面瘫的及时识别和诊断对于患者的早期治疗和康复至关重要.随着深度学习和计算机视觉技术的快速发展,面瘫的自动识别变得可行,为诊断提供了一种更准确和客观的方式.目前的研究主要集中关注面部的整体变化,而忽略了面部细节的重要性.面部不同部位对识别结果的影响力并不相同,这些研究尚未对面部各个区域进行细致区分和分析.本项研究引入结合Vision transformer(ViT)模型和动作单元(Action unit,AU)区域检测网络的创新性方法用于面瘫的自动识别及区域分析.ViT模型通过自注意力机制精准识别是否面瘫,同时,基于AU的策略从StyleGAN2模型提取的特征图中,利用金字塔卷积神经网络分析受影响区域.这一综合方法在YouTube Facial Palsy(YFP)和经过扩展的Cohn Kanade(CK+)数据集上的实验中分别达到99.4%的面瘫识别准确率和81.36%的面瘫区域识别准确率.通过与最新方法的对比,实验结果展示了所提的自动面瘫识别方法的有效性. 展开更多
关键词 transformer 面部动作单元 多分辨率特征图 生成器 热力图回归
下载PDF
基于贝叶斯图注意力Transformer的航空发动机剩余使用寿命概率预测
13
作者 胡艳艳 白雅婷 《工程科学学报》 EI 北大核心 2025年第2期374-388,共15页
航空发动机作为飞机的心脏,其健康状态对飞机的安全飞行至关重要.深度学习强大的数据挖掘能力,为通过海量历史数据预测航空发动机的剩余使用寿命提供了新方法.然而,传统基于深度学习的方法大都关注于挖掘数据在时间上的关联,而忽略了多... 航空发动机作为飞机的心脏,其健康状态对飞机的安全飞行至关重要.深度学习强大的数据挖掘能力,为通过海量历史数据预测航空发动机的剩余使用寿命提供了新方法.然而,传统基于深度学习的方法大都关注于挖掘数据在时间上的关联,而忽略了多个传感器监测数据之间复杂的非欧氏空间关系.此外,少有研究考虑数据或者预测过程本身具有的不确定性,缺乏对预测结果可靠性的评估.为解决上述问题,本文提出了一种基于贝叶斯网络和图注意力Transformer的航空发动机剩余使用寿命概率预测方法.将图注意力机制融入Transformer的时间多头注意力模块,结合图注意力网络在空间特征提取上的优势和Transformer模型在时间特征提取的优势,实现数据特征时空关系的联合提取.同时,利用改进的贝叶斯网络度量预测不确定性,在得到剩余使用寿命预测点值的同时给出相应的置信区间.最后,通过在公开航空发动机数据集上的实验,证明了所提模型的有效性和先进性. 展开更多
关键词 航空发动机 剩余使用寿命 图注意力transformer 贝叶斯网络 概率预测
下载PDF
基于Point Transformer方法的鱼类三维点云模型分类
14
作者 胡少秋 段瑞 +3 位作者 张东旭 鲍江辉 吕华飞 段明 《水生生物学报》 北大核心 2025年第2期146-155,共10页
为实现对不同鱼类的精准分类,研究共采集110尾真实鱼类的三维模型,对获取的3D模型进行基于预处理、旋转增强和下采样等操作后,获取了1650尾实验样本。然后基于Point Transformer网络和2个三维分类的对比网络进行数据集的分类训练和验证... 为实现对不同鱼类的精准分类,研究共采集110尾真实鱼类的三维模型,对获取的3D模型进行基于预处理、旋转增强和下采样等操作后,获取了1650尾实验样本。然后基于Point Transformer网络和2个三维分类的对比网络进行数据集的分类训练和验证。结果表明,利用本实验的目标方法Point Transformer获得了比2个对比网络更好的分类结果,整体的分类准确率能够达到91.9%。同时对所使用的三维分类网络进行有效性评估,3个模型对于5种真实鱼类模型的分类是有意义的,其中Point Transformer的模型ROC曲线准确率最高,AUC面积最大,对于三维鱼类数据集的分类最为有效。研究提供了一种可以实现对鱼类三维模型进行精准分类的方法,为以后的智能化渔业资源监测提供一种新的技术手段。 展开更多
关键词 点云处理 Point transformer 三维模型 鱼类分类
下载PDF
基于条件先验Swin Transformer的人脸图像超分辨重建
15
作者 郑方亮 王延年 +1 位作者 廉继红 阮佩 《电子科技》 2025年第2期35-41,共7页
针对现有基于Swin Transformer图像超分辨模型未对人脸图像进行预处理导致最终超分辨结果不佳的问题,文中提出了基于条件先验Swin Transformer的人脸图像超分辨重建方法。该方法利用人脸解析图融合Swin Transformer模型对人脸图像进行... 针对现有基于Swin Transformer图像超分辨模型未对人脸图像进行预处理导致最终超分辨结果不佳的问题,文中提出了基于条件先验Swin Transformer的人脸图像超分辨重建方法。该方法利用人脸解析图融合Swin Transformer模型对人脸图像进行预处理,使用条件先验对人脸超分问题进行优化,采用人脸解析图Parsing Map进行约束从而得到更有价值的先验信息。在深层特征提取阶段,将通道空间注意力机制融合Swin Transformer模块对特征组调整进行速度与精度的平衡。实验结果表明,所提方法在测试集上的峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)为32.21 dB,相较于现有模型具有一定提升。实验证明改进模型更适用于人脸,所生成结果更清晰、更真实,能够还原出更多人脸图像纹理细节。 展开更多
关键词 图像超分辨 Swin transformer 深度学习 条件先验 人脸超分辨 注意力机制 transformer 图像处理 超分重建
下载PDF
基于Transformer的状态−动作−奖赏预测表征学习
16
作者 刘民颂 朱圆恒 赵冬斌 《自动化学报》 北大核心 2025年第1期117-132,共16页
为了提升具有高维动作空间的复杂连续控制任务的性能和样本效率,提出一种基于Transformer的状态−动作−奖赏预测表征学习框架(Transformer-based state-action-reward prediction representation learning framework,TSAR).具体来说,TSA... 为了提升具有高维动作空间的复杂连续控制任务的性能和样本效率,提出一种基于Transformer的状态−动作−奖赏预测表征学习框架(Transformer-based state-action-reward prediction representation learning framework,TSAR).具体来说,TSAR提出一种基于Transformer的融合状态−动作−奖赏信息的序列预测任务.该预测任务采用随机掩码技术对序列数据进行预处理,通过最大化掩码序列的预测状态特征与实际目标状态特征间的互信息,同时学习状态与动作表征.为进一步强化状态和动作表征与强化学习(Reinforcement learning,RL)策略的相关性,TSAR引入动作预测学习和奖赏预测学习作为附加的学习约束以指导状态和动作表征学习.TSAR同时将状态表征和动作表征显式地纳入到强化学习策略的优化中,显著提高了表征对策略学习的促进作用.实验结果表明,在DMControl的9个具有挑战性的困难环境中,TSAR的性能和样本效率超越了现有最先进的方法. 展开更多
关键词 深度强化学习 表征学习 自监督对比学习 transformer
下载PDF
MSMVT:多尺度和多视图Transformer半监督医学图像分割框架
17
作者 李飞翔 降爱莲 《计算机工程与应用》 北大核心 2025年第2期273-282,共10页
近年来,Transformer在众多监督式计算机视觉任务中取得了显著进展,然而由于高质量医学标注图像的缺乏,其在半监督图像分割领域的性能仍有待提高。为此,提出了一种基于多尺度和多视图Transformer的半监督医学图像分割框架:MSMVT(multi-sc... 近年来,Transformer在众多监督式计算机视觉任务中取得了显著进展,然而由于高质量医学标注图像的缺乏,其在半监督图像分割领域的性能仍有待提高。为此,提出了一种基于多尺度和多视图Transformer的半监督医学图像分割框架:MSMVT(multi-scale and multi-view transformer)。鉴于对比学习在Transformer的预训练中取得的良好效果,设计了一个基于伪标签引导的多尺度原型对比学习模块。该模块利用图像金字塔数据增强技术,为无标签图像生成富有语义信息的多尺度原型表示;通过对比学习,强化了不同尺度原型之间的一致性,从而有效缓解了由标签稀缺性导致的Transformer训练不足的问题。此外,为了增强Transformer模型训练的稳定性,提出了多视图一致性学习策略。通过弱扰动视图,以校正多个强扰动视图。通过最小化不同视图之间的输出差异性,使得模型能够对不同扰动保持多层次的一致性。实验结果表明,当仅采用10%的标注比例时,提出的MSMVT框架在ACDC、LIDC和ISIC三个公共数据集上的DSC图像分割性能指标分别达到了88.93%、84.75%和85.38%,优于现有的半监督医学图像分割方法。 展开更多
关键词 半监督医学图像分割 伪标签 transformer 多尺度 多视图
下载PDF
基于多模态视听融合的Transformer语音识别算法研究
18
作者 赵小芬 彭朋 《传感器与微系统》 北大核心 2025年第2期48-52,共5页
针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分... 针对单模态语音识别在复杂环境中易受噪音、口音、语速等因素干扰的局限性,本研究提出一种基于多模态视听融合的Transformer语音识别算法。通过综合音频和视频两种模态信息,并引入不同模态间的动态权重分配机制,有效解决了模态间信息分布不均的问题。通过将原始音频和视觉信号转换为Transformer模型可处理的特征表示,并结合编码器和解码器结构实现语音到文本的精确转换,利用多头自注意力机制捕捉序列间的内在相关性。实验结果表明,本算法在字错误率上降低了6%~22%,显著提升了语音识别率,验证了算法的有效性和优越性。 展开更多
关键词 多模态 视听融合 语音识别 transformer 动态权重分配机制
下载PDF
三维卷积与Transformer支持下联合空谱特征的高光谱影像分类
19
作者 何光 吴田军 《计算机工程与应用》 北大核心 2025年第2期259-272,共14页
由于CNN对局部特征提取能力强,目前仍是高光谱影像处理和分析中的主流深度模型,但是CNN感受野有限,无法建立长距离依赖关系,学习全局语义信息受限。Transformer的自注意力机制可以对输入序列中的每个位置进行注意力计算,从而能有效获取... 由于CNN对局部特征提取能力强,目前仍是高光谱影像处理和分析中的主流深度模型,但是CNN感受野有限,无法建立长距离依赖关系,学习全局语义信息受限。Transformer的自注意力机制可以对输入序列中的每个位置进行注意力计算,从而能有效获取全局上下文信息。如何实现CNN和Transformer的技术耦合并充分利用空间信息和光谱信息进行高光谱遥感影像分类是一个重要的待研问题。鉴于此,提出一种新的基于三维卷积和Transformer的高光谱遥感影像分类方法,尝试联合空谱特征实现解译能力的提升。使用主成分分析方法对高光谱遥感影像沿垂直方向降维;用非负矩阵分解算法对降维后遥感影像沿水平方向进行空间特征提取,将两种工具处理后遥感影像进行拼接,以充分保留信息;再用三维卷积核对拼接后遥感影像进行空间特征和光谱特征的综合提取;用Transformer的注意力机制对提取空间信息和光谱信息的遥感影像序列建立长距离依赖关系并使用多层感知机完成分类任务。实验表明,所提方法在WHU-Hi龙口、汉川、洪湖以及雄安新区马蹄湾村数据集上均表现出比对比方法更优异的分类性能,表明该方法具有一定的泛化性和稳健性。 展开更多
关键词 非负矩阵分解 特征融合 三维卷积 空谱联合 transformer 高光谱遥感影像分类
下载PDF
基于Transformer的皮肤癌图像辅助识别
20
作者 陈小飞 王瑞 姚柳丞 《工业控制计算机》 2025年第1期73-75,共3页
黑色素瘤是皮肤癌最为致命的一种,早期诊断对于及时有效的治疗至关重要。针对皮肤癌诊断存在的人为主观性、差异性,以及现有的计算机辅助识别因数据集不平衡而导致准确率低等问题,提出了一种基于Transformer辅助识别皮肤癌图像的方法。... 黑色素瘤是皮肤癌最为致命的一种,早期诊断对于及时有效的治疗至关重要。针对皮肤癌诊断存在的人为主观性、差异性,以及现有的计算机辅助识别因数据集不平衡而导致准确率低等问题,提出了一种基于Transformer辅助识别皮肤癌图像的方法。以批处理Transformer模型对皮肤癌图像进行分类,其中批处理的作用是,在提取皮肤癌图像特征时共享样本间的特征,缓解数据集不平衡问题。使用ISIC2019数据集进行实验评估。实验结果表明,该方法有效提升了分类准确性,并且各评估指标分别为准确率91.78%,BMA值93.75%,F1-score值99.94%。该方法可用于黑色素瘤的辅助诊断,对皮肤癌的早期筛查具有参考价值。 展开更多
关键词 皮肤癌辅助识别 transformer BatchFormer
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部