期刊文献+
共找到234,685篇文章
< 1 2 250 >
每页显示 20 50 100
基于Depth-wise卷积和视觉Transformer的图像分类模型 被引量:2
1
作者 张峰 黄仕鑫 +1 位作者 花强 董春茹 《计算机科学》 CSCD 北大核心 2024年第2期196-204,共9页
图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关... 图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关系进行建模,一些研究者将Transformer应用于图像分类任务,但为了满足Transformer的序列化和并行化要求,需要将图像分割成大小相等、互不重叠的图像块,破坏了相邻图像数据块之间的局部信息。此外,由于Transformer具有较少的先验知识,模型往往需要在大规模数据集上进行预训练,因此计算复杂度较高。为了同时建模图像相邻块之间的局部信息并充分利用图像的全局信息,提出了一种基于Depth-wise卷积的视觉Transformer(Efficient Pyramid Vision Transformer,EPVT)模型。EPVT模型可以实现以较低的计算成本提取相邻图像块之间的局部和全局信息。EPVT模型主要包含3个关键组件:局部感知模块(Local Perceptron Module,LPM)、空间信息融合模块(Spatial Information Fusion,SIF)和“+卷积前馈神经网络(Convolution Feed-forward Network,CFFN)。LPM模块用于捕获图像的局部相关性;SIF模块用于融合相邻图像块之间的局部信息,并利用不同图像块之间的远距离依赖关系,提升模型的特征表达能力,使模型学习到输出特征在不同维度下的语义信息;CFFN模块用于编码位置信息和重塑张量。在图像分类数据集ImageNet-1K上,所提模型优于现有的同等规模的视觉Transformer分类模型,取得了82.6%的分类准确度,证明了该模型在大规模数据集上具有竞争力。 展开更多
关键词 深度学习 图像分类 Depth-wise卷积 视觉transformer 注意力机制
下载PDF
基于RoBERTa和图增强Transformer的序列推荐方法 被引量:2
2
作者 王明虎 石智奎 +1 位作者 苏佳 张新生 《计算机工程》 CAS CSCD 北大核心 2024年第4期121-131,共11页
自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明... 自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明显劣势。为了更好地挖掘用户与商品之间的深层潜在特征,进一步提高推荐质量,提出一种基于Ro BERTa和图增强Transformer的序列推荐(RGT)模型。引入评论文本数据,首先利用预训练的Ro BERTa模型捕获评论文本中的字词语义特征,初步建模用户的个性化兴趣,然后根据用户与商品的历史交互信息,构建具有时序特性的商品关联图注意力机制网络模型,通过图增强Transformer的方法将图模型学习到的各个商品的特征表示以序列的形式输入Transformer编码层,最后将得到的输出向量与之前捕获的语义表征以及计算得到的商品关联图的全图表征输入全连接层,以捕获用户全局的兴趣偏好,实现用户对商品的预测评分。在3组真实亚马逊公开数据集上的实验结果表明,与Deep FM、Conv MF等经典文本推荐模型相比,RGT模型在均方根误差(RMSE)和平均绝对误差(MAE)2种指标上有显著提升,相较于最优对比模型最高分别提升4.7%和5.3%。 展开更多
关键词 推荐算法 评论文本 RoBERTa模型 图注意力机制 transformer机制
下载PDF
基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法 被引量:1
3
作者 田子建 吴佳奇 +4 位作者 张文琪 陈伟 周涛 杨伟 王帅 《煤炭科学技术》 EI CAS CSCD 北大核心 2024年第1期297-310,共14页
高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低... 高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法。基于生成对抗思想搭建生成对抗式主体模型框架,使用目标图像域而非单一参考图像驱动判别器监督生成器的训练,实现对低照度图像的充分增强;基于特征表示学习理论搭建特征编码器,将图像解耦为亮度分量和反射分量,避免图像增强过程中亮度与颜色特征相互影响从而导致颜色失真问题;设计CEM-Transformer Encoder通过捕获全局上下文关系和提取局部区域特征,能够充分提升整体图像亮度并消除局部区域照度不均;在反射分量增强过程中,使用结合CEM-Cross-Transformer Encoder的跳跃连接将低级特征与深层网络处特征进行自适应融合,能够有效避免细节特征丢失,并在编码网络中添加ECA-Net,提高浅层网络的特征提取效率。制作矿井低照度图像数据集为矿井低照度图像增强任务提供数据资源。试验显示,在矿井低照度图像数据集和公共数据集中,与5种先进的低照度图像增强算法相比,该算法增强图像的质量指标PSNR、SSIM、VIF平均提高了16.564%,10.998%,16.226%和14.438%,10.888%,14.948%,证明该算法能够有效提升整体图像亮度,消除照度不均,避免颜色失真和细节丢失,实现矿井低照度图像增强。 展开更多
关键词 图像增强 图像识别 生成对抗网络 特征解耦 transformER
下载PDF
CNN-Transformer特征融合多目标跟踪算法 被引量:1
4
作者 张英俊 白小辉 谢斌红 《计算机工程与应用》 CSCD 北大核心 2024年第2期180-190,共11页
在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特... 在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特征提取和融合的多目标跟踪算法CTMOT(CNN-transformer multi-object tracking)。使用基于CNN和Transformer双分支并行的主干网络分别提取图像的局部和全局特征。使用双向桥接模块(two-way braidge module,TBM)对两种特征进行充分融合。将融合后的特征输入两组并行的解码器进行处理。将解码器输出的检测框和跟踪框进行匹配,完成多目标跟踪任务。在多目标跟踪数据集MOT17、MOT20、KITTI以及UADETRAC上进行评估,CTMOT算法的MOTP和IDs指标在四个数据集上均达到了SOTA效果,MOTA指标分别达到了76.4%、66.3%、92.36%和88.57%,在MOT数据集上与SOTA方法效果相当,在KITTI数据集上达到SOTA效果。由于同时完成目标检测和关联,能够端到端进行目标跟踪,跟踪速度可达35 FPS,表明CTMOT算法在跟踪的实时性和准确性上达到了较好的平衡,具有较大潜力。 展开更多
关键词 多目标跟踪 transformER 特征融合
下载PDF
基于残差U-Net和自注意力Transformer编码器的磁场预测方法 被引量:1
5
作者 金亮 尹振豪 +2 位作者 刘璐 宋居恒 刘元凯 《电工技术学报》 EI CSCD 北大核心 2024年第10期2937-2952,共16页
利用有限元方法对几何结构复杂的电机和变压器进行磁场分析,存在仿真时间长且无法复用的问题。因此,该文提出一种基于残差U-Net和自注意力Transformer编码器的磁场预测方法。首先建立永磁同步电机(PMSM)和非晶合金变压器(AMT)有限元模型... 利用有限元方法对几何结构复杂的电机和变压器进行磁场分析,存在仿真时间长且无法复用的问题。因此,该文提出一种基于残差U-Net和自注意力Transformer编码器的磁场预测方法。首先建立永磁同步电机(PMSM)和非晶合金变压器(AMT)有限元模型,得到深度学习训练所需的数据集;然后将Transformer模块与U-Net模型结合,并引入短残差机制建立ResUnet-Transformer模型,通过预测图像的像素实现磁场预测;最后通过Targeted Dropout算法和动态学习率调整策略对模型进行优化,解决拟合问题并提高预测精度。计算实例证明,ResUnet-Transformer模型在PMSM和AMT数据集上测试集的平均绝对百分比误差(MAPE)均小于1%,且仅需500组样本。该文提出的磁场预测方法能减少实际工况和多工况下精细模拟和拓扑优化的时间和资源消耗,亦是虚拟传感器乃至数字孪生的关键实现方法之一。 展开更多
关键词 有限元方法 电磁场 深度学习 U-Net transformER
下载PDF
融合卷积注意力和Transformer架构的行人重识别方法 被引量:1
6
作者 王静 李沛橦 +2 位作者 赵容锋 张云 马振玲 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期466-476,共11页
行人重识别技术是智能安防系统中的重要方法之一,为构建一个适用各种复杂场景的行人重识别模型,基于现有的卷积神经网络和Transformer模型,提出一种融合卷积注意力和Transformer(FCAT)架构的方法,以增强Transformer对局部细节信息的关... 行人重识别技术是智能安防系统中的重要方法之一,为构建一个适用各种复杂场景的行人重识别模型,基于现有的卷积神经网络和Transformer模型,提出一种融合卷积注意力和Transformer(FCAT)架构的方法,以增强Transformer对局部细节信息的关注。所提方法主要将卷积空间注意力和通道注意力嵌入Transformer架构中,分别加强对图像中重要区域的关注和对重要通道特征的关注,以进一步提高Transformer架构对局部细节特征的提取能力。在3个公开行人重识别数据集上的对比消融实验证明,所提方法在非遮挡数据集上取得了与现有方法相当的结果,在遮挡数据集上的性能得到显著提升。所提方法更加轻量化,在不增加额外计算量和模型参数的情况下,推理速度得到了提升。 展开更多
关键词 行人重识别 深度学习 卷积神经网络 transformER 注意力机制
下载PDF
基于Transformer和动态3D卷积的多源遥感图像分类 被引量:1
7
作者 高峰 孟德森 +2 位作者 解正源 亓林 董军宇 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期606-614,共9页
多源遥感数据具有互补性和协同性,近年来,基于深度学习的方法已经在多源遥感图像分类中取得了一定进展,但当前方法仍面临关键难题,如多源遥感图像特征表达不一致,融合困难,基于静态推理范式的神经网络缺乏对不同类别地物的适应性。为解... 多源遥感数据具有互补性和协同性,近年来,基于深度学习的方法已经在多源遥感图像分类中取得了一定进展,但当前方法仍面临关键难题,如多源遥感图像特征表达不一致,融合困难,基于静态推理范式的神经网络缺乏对不同类别地物的适应性。为解决上述问题,提出了基于跨模态Transformer和多尺度动态3D卷积的多源遥感图像分类模型。为提高多源特征表达的一致性,设计了基于Transformer的融合模块,借助其强大的注意力建模能力挖掘高光谱和LiDAR数据特征之间的相互作用;为提高特征提取方法对不同地物类别的适应性,设计了多尺度动态3D卷积模块,将输入特征的多尺度信息融入卷积核的调制,提高卷积操作对不同地物的适应性。采用多源遥感数据集Houston和Trento对所提方法进行验证,实验结果表明:所提方法在Houston和Trento数据集上总体准确率分别达到94.60%和98.21%,相比MGA-MFN等主流方法,总体准确率分别至少提升0.97%和0.25%,验证了所提方法可有效提升多源遥感图像分类的准确率。 展开更多
关键词 高光谱图像 激光雷达 transformER 多源特征融合 动态卷积
下载PDF
考虑特征重组与改进Transformer的风电功率短期日前预测方法 被引量:3
8
作者 李练兵 高国强 +3 位作者 吴伟强 魏玉憧 卢盛欣 梁纪峰 《电网技术》 EI CSCD 北大核心 2024年第4期1466-1476,I0025,I0027-I0029,共15页
短期日前风电功率预测对电力系统调度计划制定有重要意义,该文为提高风电功率预测的准确性,提出了一种基于Transformer的预测模型Powerformer。模型通过因果注意力机制挖掘序列的时序依赖;通过去平稳化模块优化因果注意力以提高数据本... 短期日前风电功率预测对电力系统调度计划制定有重要意义,该文为提高风电功率预测的准确性,提出了一种基于Transformer的预测模型Powerformer。模型通过因果注意力机制挖掘序列的时序依赖;通过去平稳化模块优化因果注意力以提高数据本身的可预测性;通过设计趋势增强和周期增强模块提高模型的预测能力;通过改进解码器的多头注意力层,使模型提取周期特征和趋势特征。该文首先对风电数据进行预处理,采用完全自适应噪声集合经验模态分解(complete ensemble empirical mode decomposition with adaptive noise,CEEMDAN)将风电数据序列分解为不同频率的本征模态函数并计算其样本熵,使得风电功率序列重组为周期序列和趋势序列,然后将序列输入到Powerformer模型,实现对风电功率短期日前准确预测。结果表明,虽然训练时间长于已有预测模型,但Poweformer模型预测精度得到提升;同时,消融实验结果验证了模型各模块的必要性和有效性,具有一定的应用价值。 展开更多
关键词 风电功率预测 特征重组 transformer模型 注意力机制 周期趋势增强
下载PDF
基于遥感多参数和CNN-Transformer的冬小麦单产估测 被引量:2
9
作者 王鹏新 杜江莉 +3 位作者 张悦 刘峻明 李红梅 王春梅 《农业机械学报》 EI CAS CSCD 北大核心 2024年第3期173-182,共10页
为了提高冬小麦单产估测精度,改善估产模型存在的高产低估和低产高估等现象,以陕西省关中平原为研究区域,选取旬尺度条件植被温度指数(VTCI)、叶面积指数(LAI)和光合有效辐射吸收比率(FPAR)为遥感特征参数,结合卷积神经网络(CNN)局部特... 为了提高冬小麦单产估测精度,改善估产模型存在的高产低估和低产高估等现象,以陕西省关中平原为研究区域,选取旬尺度条件植被温度指数(VTCI)、叶面积指数(LAI)和光合有效辐射吸收比率(FPAR)为遥感特征参数,结合卷积神经网络(CNN)局部特征提取能力和基于自注意力机制的Transformer网络的全局信息提取能力,构建CNN-Transformer深度学习模型,用于估测关中平原冬小麦产量。与Transformer模型(R^(2)为0.64,RMSE为465.40 kg/hm^(2),MAPE为8.04%)相比,CNN-Transformer模型具有更高的冬小麦单产估测精度(R^(2)为0.70,RMSE为420.39 kg/hm^(2),MAPE为7.65%),能够从遥感多参数中提取更多与产量相关的信息,且对于Transformer模型存在的高产低估和低产高估现象均有所改善。基于5折交叉验证法和留一法进一步验证了CNN-Transformer模型的鲁棒性和泛化能力。此外,基于CNN-Transformer模型捕获冬小麦生长过程的累积效应,分析逐步累积旬尺度输入参数对产量估测的影响,评估模型对于冬小麦不同生长阶段的累积过程的表征能力。结果表明,模型能有效捕捉冬小麦生长的关键时期,3月下旬至5月上旬是冬小麦生长的关键时期。 展开更多
关键词 冬小麦 作物估产 遥感多参数 卷积神经网络 transformer模型
下载PDF
基于Transformer的多尺度遥感语义分割网络 被引量:1
10
作者 邵凯 王明政 王光宇 《智能系统学报》 CSCD 北大核心 2024年第4期920-929,共10页
为了提升遥感图像语义分割效果,本文针对分割目标类间方差小、类内方差大的特点,从全局上下文信息和多尺度语义特征2个关键点提出一种基于Transformer的多尺度遥感语义分割网络(muliti-scale Transformer network,MSTNet)。其由编码器... 为了提升遥感图像语义分割效果,本文针对分割目标类间方差小、类内方差大的特点,从全局上下文信息和多尺度语义特征2个关键点提出一种基于Transformer的多尺度遥感语义分割网络(muliti-scale Transformer network,MSTNet)。其由编码器和解码器2个部分组成,编码器包含基于Transformer改进的视觉注意网络(visual attention network,VAN)主干和基于空洞空间金字塔池化(atrous spatial pyramid pooling, ASPP)结构改进的多尺度语义特征提取模块(multi-scale semantic feature extraction module, MSFEM)。解码器采用轻量级多层感知器(multi-layer perception,MLP)配合编码器设计,充分分析所提取的包含全局上下文信息和多尺度表示的语义特征。MSTNet在2个高分辨率遥感语义分割数据集ISPRS Potsdam和LoveDA上进行验证,平均交并比(mIoU)分别达到79.50%和54.12%,平均F1-score(m F1)分别达到87.46%和69.34%,实验结果验证了本文所提方法有效提升了遥感图像语义分割的效果。 展开更多
关键词 遥感图像 语义分割 卷积神经网络 transformER 全局上下文信息 多尺度感受野 编码器 解码器
下载PDF
引入轻量级Transformer的无人机视觉跟踪 被引量:1
11
作者 谌海云 王海川 +1 位作者 黄忠义 余鸿皓 《计算机工程与应用》 CSCD 北大核心 2024年第2期244-253,共10页
随着无人机在军事和民用领域的广泛运用,对于高精度、低功耗智能无人机跟踪系统的需求日益增加。针对目标跟踪算法在无人机跟踪场景下很难平衡跟踪精度和跟踪速度的问题,提出一种引入轻量级Transformer的孪生网络无人机目标跟踪算法Sia... 随着无人机在军事和民用领域的广泛运用,对于高精度、低功耗智能无人机跟踪系统的需求日益增加。针对目标跟踪算法在无人机跟踪场景下很难平衡跟踪精度和跟踪速度的问题,提出一种引入轻量级Transformer的孪生网络无人机目标跟踪算法SiamLT。使用Transformer对AlexNet网络进行改进,在增加最小计算量的情况下捕获全局特征信息。在目标模板与搜索区域匹配方面,联合Transformer和深度互相关运算提出一种二元相关模块,同时捕获目标模板与搜索区域之间的局部相关性和全局依赖关系。在分类回归网络中引入距离交并比,并采用多监督策略训练网络,以获取更准确的目标位置。在UAV123和UAV20L跟踪基准上的实验结果表明,SiamLT算法优于主流的目标跟踪算法,更有效地平衡了跟踪精度和跟踪速度。 展开更多
关键词 无人机 目标跟踪 transformER 孪生网络 多头注意力
下载PDF
基于Swin Transformer的沥青路面病害分类检测研究 被引量:1
12
作者 郭晨 杨玉龙 +1 位作者 左琛 杨冰鑫 《计算机测量与控制》 2024年第2期114-121,共8页
针对传统卷积神经网络模型在沥青路面病害检测中识别长距离裂缝结构能力不足以及面临的精度局限问题,引入Swin Transformer模型进行沥青路面病害分类研究;首先对于路面检测车采集到的沥青路面扫描图像对比度低的问题,使用直方图均衡技... 针对传统卷积神经网络模型在沥青路面病害检测中识别长距离裂缝结构能力不足以及面临的精度局限问题,引入Swin Transformer模型进行沥青路面病害分类研究;首先对于路面检测车采集到的沥青路面扫描图像对比度低的问题,使用直方图均衡技术处理图像,增加图像可视化效果;其次,选取3种经典卷积神经网络模型作为对比模型,并在训练过程中采用更换损失函数,调整预训练模型等手段解决过拟合问题;并选用准确率、查全率、F1-score作为评价指标;在最终实验结果中Swin Transformer识别准确率达到了80.6%,F1-score达到了0.776,不仅在整体分类准确率上超越了传统CNN模型,并且对具有长距离特征结构的病害方面具有更高的识别准确率,同时具有良好的可靠性。 展开更多
关键词 Swin transformer 路面病害检测 卷积神经网络 图像分类 图像处理
下载PDF
基于Transformer改进的YOLOv5+DeepSORT的车辆跟踪算法
13
作者 何水龙 张靖佳 +1 位作者 张林俊 莫德赟 《汽车技术》 CSCD 北大核心 2024年第7期9-16,共8页
针对传统目标检测跟踪算法检测精度低、全局感知能力差、对遮挡和小目标物体的识别能力差等问题,提出了一种基于轻量化Transformer改进的YOLOv5和DeepSORT算法的车辆跟踪方法。首先,利用EfficientFormerV2模型改进YOLOv5算法模型,增强... 针对传统目标检测跟踪算法检测精度低、全局感知能力差、对遮挡和小目标物体的识别能力差等问题,提出了一种基于轻量化Transformer改进的YOLOv5和DeepSORT算法的车辆跟踪方法。首先,利用EfficientFormerV2模型改进YOLOv5算法模型,增强车辆的目标检测能力;然后,利用移位窗口(Swin)模型的优点改进DeepSORT多目标跟踪算法中的重识别(Re-Identification)模块,提高车辆的跟踪能力和精度;最后,通过数据集KITTI和VeRi开展对比试验和消融实验。结果表明,在复杂工况下,该方法的性能在车辆遮挡和小目标识别方面显著提高,平均准确度达到96.7%,目标跟踪准确度提高了9.547%,编号(ID)切换总次数减少了26.4%。 展开更多
关键词 YOLOv5 车辆检测 DeepSORT transformER
下载PDF
Dual-Path Vision Transformer用于急性缺血性脑卒中辅助诊断
14
作者 张桃红 郭学强 +4 位作者 郑瀚 罗继昌 王韬 焦力群 唐安莹 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期307-314,共8页
急性缺血性脑卒中是由于脑组织血液供应障碍导致的脑功能障碍,数字减影脑血管造影(DSA)是诊断脑血管疾病的金标准。基于患者的正面和侧面DSA图像,对急性缺血性脑卒中的治疗效果进行分级评估,构建基于Vision Transformer的双路径图像分... 急性缺血性脑卒中是由于脑组织血液供应障碍导致的脑功能障碍,数字减影脑血管造影(DSA)是诊断脑血管疾病的金标准。基于患者的正面和侧面DSA图像,对急性缺血性脑卒中的治疗效果进行分级评估,构建基于Vision Transformer的双路径图像分类智能模型DPVF。为了提高辅助诊断速度,基于EdgeViT的轻量化设计思想进行了模型的构建;为了使模型保持轻量化的同时具有较高的精度,提出空间-通道自注意力模块,促进Transformer模型捕获更全面的特征信息,提高模型的表达能力;此外,对于DPVF的两分支的特征融合,构建交叉注意力模块对两分支输出进行交叉融合,促使模型提取更丰富的特征,从而提高模型表现。实验结果显示DPVF在测试集上的准确率达98.5%,满足实际需求。 展开更多
关键词 急性缺血性脑卒中 视觉transformer 双分支网络 特征融合
下载PDF
基于多模态掩码Transformer网络的社会事件分类
15
作者 陈宏 钱胜胜 +2 位作者 李章明 方全 徐常胜 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期579-587,共9页
多模态社会事件分类的关键是充分且准确地利用图像和文字2种模态的特征。然而,现有的大多数方法存在以下局限性:简单地将事件的图像特征和文本特征连接起来,不同模态之间存在不相关的上下文信息导致相互干扰。因此,仅仅考虑多模态数据... 多模态社会事件分类的关键是充分且准确地利用图像和文字2种模态的特征。然而,现有的大多数方法存在以下局限性:简单地将事件的图像特征和文本特征连接起来,不同模态之间存在不相关的上下文信息导致相互干扰。因此,仅仅考虑多模态数据模态间的关系是不够的,还要考虑模态之间不相关的上下文信息(即区域或单词)。为克服这些局限性,提出一种新颖的基于多模态掩码Transformer网络(MMTN)模型的社会事件分类方法。通过图-文编码网络来学习文本和图像的更好的表示。将获得的图像和文本表示输入多模态掩码Transformer网络来融合多模态信息,并通过计算多模态信息之间的相似性,对多模态信息的模态间的关系进行建模,掩盖模态之间的不相关上下文。在2个基准数据集上的大量实验表明:所提模型达到了最先进的性能。 展开更多
关键词 多模态 社会事件分类 社交媒体 表示学习 多模态transformer网络
下载PDF
基于特征融合Transformer的EfficientNet v2网络对马铃薯叶片病害的识别 被引量:1
16
作者 孙剑明 毕振宇 牛连丁 《江苏农业科学》 北大核心 2024年第8期166-176,共11页
马铃薯叶片病害是影响马铃薯质量和产量的主要因素,为了能够快速准确地识别马铃薯叶片病害并采取对应的防控和救治措施,本研究提出一种新型马铃薯叶片病害识别方法。该方法利用EfficientNet v2网络提取图像特征,通过4个不同尺度的网络... 马铃薯叶片病害是影响马铃薯质量和产量的主要因素,为了能够快速准确地识别马铃薯叶片病害并采取对应的防控和救治措施,本研究提出一种新型马铃薯叶片病害识别方法。该方法利用EfficientNet v2网络提取图像特征,通过4个不同尺度的网络层进行金字塔融合,从而捕捉不同尺度下的图像细节和上下文信息,并在金字塔融合中的每个下采样环节都添加1个CBAM注意力机制模块,且每个CBAM模块后都加入Vision Transformer的Encoder模块进行特征增强,帮助提升所提取特征的丰富性和抽象能力,最后使用softmax进行分类。研究提出的模型识别准确率达到98.26%,相比改进之前提升3.47百分点,且其loss收敛更快,宏平均值与加权平均值都有明显提升。消融试验表明,该模型在各项指标上的表现最优,超过基线模型和融合模型,大幅提高图像分类识别任务模型的性能表现。该方法可有效提高病害区域的识别能力和检测准确率,且能在强干扰的环境下做到高精度识别,具有良好的鲁棒性和适应性,同时能解决病害识别中泛化能力弱、精度低、计算效率低等问题。 展开更多
关键词 农业 马铃薯叶片病害 图像识别 卷积神经网络 特征融合 transformer模型
下载PDF
基于Transformer复杂运动辨识的机动星凸形扩展目标跟踪方法
17
作者 陈辉 边斌超 +1 位作者 连峰 韩崇昭 《雷达学报(中英文)》 EI CSCD 北大核心 2024年第3期629-645,共17页
针对复杂的机动扩展目标跟踪问题,利用Transformer网络设计了一种有效的星凸不规则形状机动扩展目标跟踪方法。首先,该文研究利用alpha-shape算法建立了星凸形状的变化模型,实现了静态场景下的星凸形扩展目标的形状估计。然后,通过对目... 针对复杂的机动扩展目标跟踪问题,利用Transformer网络设计了一种有效的星凸不规则形状机动扩展目标跟踪方法。首先,该文研究利用alpha-shape算法建立了星凸形状的变化模型,实现了静态场景下的星凸形扩展目标的形状估计。然后,通过对目标状态转移矩阵进行重新设计,结合Transformer网络对机动扩展目标运动状态转移矩阵进行实时估计,实现了对复杂机动目标运动过程的精准跟踪。进一步地,将估计得到的形状轮廓与运动状态进行融合,最终实现了对星凸形机动扩展目标的实时跟踪。最后,通过构造复杂的机动扩展目标跟踪场景,利用多重性能指标测试算法对形状和运动状态的综合估计性能,验证了算法的有效性。 展开更多
关键词 扩展目标跟踪 机动目标 transformER 星凸形 弗雷歇距离-面积误差
下载PDF
基于差分非平稳Transformer的液压支架立柱压力预测
18
作者 杨艺 Aimen Malik +1 位作者 袁瑞甫 王科平 《电子测量技术》 北大核心 2024年第6期41-49,共9页
液压支架立柱压力预测是回采工艺决策的重要依据,也是确保围岩稳定的基础信息之一。然而,液压支架立柱压力虽然具有一定的规律性,却无法用简单的数学模型进行预测;且在回采过程中,支架不接顶、顶板破碎、传感器检测误差等带来大量的随... 液压支架立柱压力预测是回采工艺决策的重要依据,也是确保围岩稳定的基础信息之一。然而,液压支架立柱压力虽然具有一定的规律性,却无法用简单的数学模型进行预测;且在回采过程中,支架不接顶、顶板破碎、传感器检测误差等带来大量的随机噪声,使得压力数据劣化为非平稳时间序列,给压力的预测带来的很大的困难。本文在Transformer基础上,提出一种差分非平稳Transformer模型,在Transformer的编码器和解码器中分别引入差分归一化和反归一化操作,以提升序列的平稳性。同时,在Transformer中采用去平稳注意力机制,计算序列元素之间的关联关系,以增强模型的预测能力。在真实的煤矿支架立柱数据集上的对比实验表明,本文提出的差分非平稳Transformer的预测效果达到0.674,表现明显优于LSTM、Transformer和非平稳Transformer模型。 展开更多
关键词 煤矿安全 工作面 液压支架 压力预测 非平稳transformer 差分
下载PDF
基于CNN和Transformer并行编码的腹部多器官图像分割
19
作者 赵欣 李森 李智生 《吉林大学学报(理学版)》 CAS 北大核心 2024年第5期1145-1154,共10页
针对现有方法在腹部中小器官图像分割性能方面存在的不足,提出一种基于局部和全局并行编码的网络模型用于腹部多器官图像分割.首先,设计一种提取多尺度特征信息的局部编码分支;其次,全局特征编码分支采用分块Transformer,通过块内Transf... 针对现有方法在腹部中小器官图像分割性能方面存在的不足,提出一种基于局部和全局并行编码的网络模型用于腹部多器官图像分割.首先,设计一种提取多尺度特征信息的局部编码分支;其次,全局特征编码分支采用分块Transformer,通过块内Transformer和块间Transformer的组合,既捕获了全局的长距离依赖信息又降低了计算量;再次,设计特征融合模块,以融合来自两条编码分支的上下文信息;最后,设计解码模块,实现全局信息与局部上下文信息的交互,更好地补偿解码阶段的信息损失.在Synapse多器官CT数据集上进行实验,与目前9种先进方法相比,在平均Dice相似系数(DSC)和Hausdorff距离(HD)指标上都达到了最佳性能,分别为83.10%和17.80 mm. 展开更多
关键词 多器官图像分割 分块transformer 特征融合
下载PDF
多尺度卷积结合Transformer的抑郁脑电分类研究
20
作者 翟凤文 孙芳林 金静 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期182-195,共14页
在通过深度学习模型进行抑郁症类脑电信号分析时,针对单一尺度的卷积存在特征提取不充分的问题和卷积神经网络在感知脑电信号全局依赖性方面的局限性,分别设计了多尺度动态卷积网络模块和门控Transformer编码器模块,并与时间卷积网络相... 在通过深度学习模型进行抑郁症类脑电信号分析时,针对单一尺度的卷积存在特征提取不充分的问题和卷积神经网络在感知脑电信号全局依赖性方面的局限性,分别设计了多尺度动态卷积网络模块和门控Transformer编码器模块,并与时间卷积网络相结合,提出了混合网络模型(MGTTCNet)进行抑郁症患者和健康对照组的脑电信号分类。该模型首先通过多尺度动态卷积从空间域和频率域捕捉脑电信号的多尺度时频信息。其次通过门控Transformer编码器学习脑电信号中的全局依赖关系,其利用多头注意力机制有效增强网络表达相关脑电信号特征的能力。之后利用时间卷积网络提取脑电信号可用的时间特征,最后将提取的抽象特征输入到分类模块进行分类。在公开数据集MODMA上用留出法和十折交叉验证法对提出模型进行实验验证,分别取得了约98.51%和98.53%的分类准确率,相较于基线单尺度模型EEGNet,分类准确率分别提升了约1.89%和1.93%,F1值分别提升了约2.05%和2.08%,kappa系数值分别提高了约0.038 1和0.038 5;同时消融实验验证了文中设计的各个模块的有效性。 展开更多
关键词 脑电信号 抑郁分类 深度学习 transformER 时间卷积网络
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部