期刊文献+
共找到238,289篇文章
< 1 2 250 >
每页显示 20 50 100
基于RoBERTa和图增强Transformer的序列推荐方法 被引量:2
1
作者 王明虎 石智奎 +1 位作者 苏佳 张新生 《计算机工程》 CAS CSCD 北大核心 2024年第4期121-131,共11页
自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明... 自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明显劣势。为了更好地挖掘用户与商品之间的深层潜在特征,进一步提高推荐质量,提出一种基于Ro BERTa和图增强Transformer的序列推荐(RGT)模型。引入评论文本数据,首先利用预训练的Ro BERTa模型捕获评论文本中的字词语义特征,初步建模用户的个性化兴趣,然后根据用户与商品的历史交互信息,构建具有时序特性的商品关联图注意力机制网络模型,通过图增强Transformer的方法将图模型学习到的各个商品的特征表示以序列的形式输入Transformer编码层,最后将得到的输出向量与之前捕获的语义表征以及计算得到的商品关联图的全图表征输入全连接层,以捕获用户全局的兴趣偏好,实现用户对商品的预测评分。在3组真实亚马逊公开数据集上的实验结果表明,与Deep FM、Conv MF等经典文本推荐模型相比,RGT模型在均方根误差(RMSE)和平均绝对误差(MAE)2种指标上有显著提升,相较于最优对比模型最高分别提升4.7%和5.3%。 展开更多
关键词 推荐算法 评论文本 RoBERTa模型 图注意力机制 Transformer机制
下载PDF
基于Depth-wise卷积和视觉Transformer的图像分类模型 被引量:2
2
作者 张峰 黄仕鑫 +1 位作者 花强 董春茹 《计算机科学》 CSCD 北大核心 2024年第2期196-204,共9页
图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关... 图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关系进行建模,一些研究者将Transformer应用于图像分类任务,但为了满足Transformer的序列化和并行化要求,需要将图像分割成大小相等、互不重叠的图像块,破坏了相邻图像数据块之间的局部信息。此外,由于Transformer具有较少的先验知识,模型往往需要在大规模数据集上进行预训练,因此计算复杂度较高。为了同时建模图像相邻块之间的局部信息并充分利用图像的全局信息,提出了一种基于Depth-wise卷积的视觉Transformer(Efficient Pyramid Vision Transformer,EPVT)模型。EPVT模型可以实现以较低的计算成本提取相邻图像块之间的局部和全局信息。EPVT模型主要包含3个关键组件:局部感知模块(Local Perceptron Module,LPM)、空间信息融合模块(Spatial Information Fusion,SIF)和“+卷积前馈神经网络(Convolution Feed-forward Network,CFFN)。LPM模块用于捕获图像的局部相关性;SIF模块用于融合相邻图像块之间的局部信息,并利用不同图像块之间的远距离依赖关系,提升模型的特征表达能力,使模型学习到输出特征在不同维度下的语义信息;CFFN模块用于编码位置信息和重塑张量。在图像分类数据集ImageNet-1K上,所提模型优于现有的同等规模的视觉Transformer分类模型,取得了82.6%的分类准确度,证明了该模型在大规模数据集上具有竞争力。 展开更多
关键词 深度学习 图像分类 Depth-wise卷积 视觉Transformer 注意力机制
下载PDF
CNN-Transformer特征融合多目标跟踪算法 被引量:2
3
作者 张英俊 白小辉 谢斌红 《计算机工程与应用》 CSCD 北大核心 2024年第2期180-190,共11页
在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特... 在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特征提取和融合的多目标跟踪算法CTMOT(CNN-transformer multi-object tracking)。使用基于CNN和Transformer双分支并行的主干网络分别提取图像的局部和全局特征。使用双向桥接模块(two-way braidge module,TBM)对两种特征进行充分融合。将融合后的特征输入两组并行的解码器进行处理。将解码器输出的检测框和跟踪框进行匹配,完成多目标跟踪任务。在多目标跟踪数据集MOT17、MOT20、KITTI以及UADETRAC上进行评估,CTMOT算法的MOTP和IDs指标在四个数据集上均达到了SOTA效果,MOTA指标分别达到了76.4%、66.3%、92.36%和88.57%,在MOT数据集上与SOTA方法效果相当,在KITTI数据集上达到SOTA效果。由于同时完成目标检测和关联,能够端到端进行目标跟踪,跟踪速度可达35 FPS,表明CTMOT算法在跟踪的实时性和准确性上达到了较好的平衡,具有较大潜力。 展开更多
关键词 多目标跟踪 TRANSFORMER 特征融合
下载PDF
基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法 被引量:1
4
作者 田子建 吴佳奇 +4 位作者 张文琪 陈伟 周涛 杨伟 王帅 《煤炭科学技术》 EI CAS CSCD 北大核心 2024年第1期297-310,共14页
高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低... 高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法。基于生成对抗思想搭建生成对抗式主体模型框架,使用目标图像域而非单一参考图像驱动判别器监督生成器的训练,实现对低照度图像的充分增强;基于特征表示学习理论搭建特征编码器,将图像解耦为亮度分量和反射分量,避免图像增强过程中亮度与颜色特征相互影响从而导致颜色失真问题;设计CEM-Transformer Encoder通过捕获全局上下文关系和提取局部区域特征,能够充分提升整体图像亮度并消除局部区域照度不均;在反射分量增强过程中,使用结合CEM-Cross-Transformer Encoder的跳跃连接将低级特征与深层网络处特征进行自适应融合,能够有效避免细节特征丢失,并在编码网络中添加ECA-Net,提高浅层网络的特征提取效率。制作矿井低照度图像数据集为矿井低照度图像增强任务提供数据资源。试验显示,在矿井低照度图像数据集和公共数据集中,与5种先进的低照度图像增强算法相比,该算法增强图像的质量指标PSNR、SSIM、VIF平均提高了16.564%,10.998%,16.226%和14.438%,10.888%,14.948%,证明该算法能够有效提升整体图像亮度,消除照度不均,避免颜色失真和细节丢失,实现矿井低照度图像增强。 展开更多
关键词 图像增强 图像识别 生成对抗网络 特征解耦 TRANSFORMER
下载PDF
融合卷积注意力和Transformer架构的行人重识别方法 被引量:2
5
作者 王静 李沛橦 +2 位作者 赵容锋 张云 马振玲 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期466-476,共11页
行人重识别技术是智能安防系统中的重要方法之一,为构建一个适用各种复杂场景的行人重识别模型,基于现有的卷积神经网络和Transformer模型,提出一种融合卷积注意力和Transformer(FCAT)架构的方法,以增强Transformer对局部细节信息的关... 行人重识别技术是智能安防系统中的重要方法之一,为构建一个适用各种复杂场景的行人重识别模型,基于现有的卷积神经网络和Transformer模型,提出一种融合卷积注意力和Transformer(FCAT)架构的方法,以增强Transformer对局部细节信息的关注。所提方法主要将卷积空间注意力和通道注意力嵌入Transformer架构中,分别加强对图像中重要区域的关注和对重要通道特征的关注,以进一步提高Transformer架构对局部细节特征的提取能力。在3个公开行人重识别数据集上的对比消融实验证明,所提方法在非遮挡数据集上取得了与现有方法相当的结果,在遮挡数据集上的性能得到显著提升。所提方法更加轻量化,在不增加额外计算量和模型参数的情况下,推理速度得到了提升。 展开更多
关键词 行人重识别 深度学习 卷积神经网络 TRANSFORMER 注意力机制
下载PDF
基于残差U-Net和自注意力Transformer编码器的磁场预测方法 被引量:1
6
作者 金亮 尹振豪 +2 位作者 刘璐 宋居恒 刘元凯 《电工技术学报》 EI CSCD 北大核心 2024年第10期2937-2952,共16页
利用有限元方法对几何结构复杂的电机和变压器进行磁场分析,存在仿真时间长且无法复用的问题。因此,该文提出一种基于残差U-Net和自注意力Transformer编码器的磁场预测方法。首先建立永磁同步电机(PMSM)和非晶合金变压器(AMT)有限元模型... 利用有限元方法对几何结构复杂的电机和变压器进行磁场分析,存在仿真时间长且无法复用的问题。因此,该文提出一种基于残差U-Net和自注意力Transformer编码器的磁场预测方法。首先建立永磁同步电机(PMSM)和非晶合金变压器(AMT)有限元模型,得到深度学习训练所需的数据集;然后将Transformer模块与U-Net模型结合,并引入短残差机制建立ResUnet-Transformer模型,通过预测图像的像素实现磁场预测;最后通过Targeted Dropout算法和动态学习率调整策略对模型进行优化,解决拟合问题并提高预测精度。计算实例证明,ResUnet-Transformer模型在PMSM和AMT数据集上测试集的平均绝对百分比误差(MAPE)均小于1%,且仅需500组样本。该文提出的磁场预测方法能减少实际工况和多工况下精细模拟和拓扑优化的时间和资源消耗,亦是虚拟传感器乃至数字孪生的关键实现方法之一。 展开更多
关键词 有限元方法 电磁场 深度学习 U-Net TRANSFORMER
下载PDF
基于改进Deformable-DETR的水下图像目标检测方法 被引量:2
7
作者 崔颖 韩佳成 +1 位作者 高山 陈立伟 《应用科技》 CAS 2024年第1期30-36,91,共8页
针对由于水下复杂环境造成的目标检测效果较差、检测精度较低的问题,基于Deformable-DETR算法提出一种改进的水下目标检测算法Deformable-DETR-DA。使用空间注意力模块结合标准Transformer块设计了一个用于增加模型深度的深度特征金字塔... 针对由于水下复杂环境造成的目标检测效果较差、检测精度较低的问题,基于Deformable-DETR算法提出一种改进的水下目标检测算法Deformable-DETR-DA。使用空间注意力模块结合标准Transformer块设计了一个用于增加模型深度的深度特征金字塔(deep feature pyramid networks,DFPN)模块,将其嵌入到模型中提高模型对深层纹理信息的提取能力。使用注意力引导的方式对原模型中编码器部分进行改进,加强了对特征信息的聚合能力,提高了模型在复杂环境下的检测能力。针对URPC数据集,模型各交并比尺度的平均准确度(average precision,AP)为39.5%,相比原模型提升1%,与一些DETR(detection transformer)类的模型相比,不同目标尺度的平均准确度均有1%~4%左右的提高,表明改进的模型能够很好解决复杂环境的水下目标检测的问题。本文提出的模型可作为其他水下目标检测模型设计的参考。 展开更多
关键词 水下光学图像 Deformable-DETR 目标检测 TRANSFORMER 注意力机制 深度学习 图像处理 残差网络
下载PDF
基于Transformer和动态3D卷积的多源遥感图像分类 被引量:1
8
作者 高峰 孟德森 +2 位作者 解正源 亓林 董军宇 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期606-614,共9页
多源遥感数据具有互补性和协同性,近年来,基于深度学习的方法已经在多源遥感图像分类中取得了一定进展,但当前方法仍面临关键难题,如多源遥感图像特征表达不一致,融合困难,基于静态推理范式的神经网络缺乏对不同类别地物的适应性。为解... 多源遥感数据具有互补性和协同性,近年来,基于深度学习的方法已经在多源遥感图像分类中取得了一定进展,但当前方法仍面临关键难题,如多源遥感图像特征表达不一致,融合困难,基于静态推理范式的神经网络缺乏对不同类别地物的适应性。为解决上述问题,提出了基于跨模态Transformer和多尺度动态3D卷积的多源遥感图像分类模型。为提高多源特征表达的一致性,设计了基于Transformer的融合模块,借助其强大的注意力建模能力挖掘高光谱和LiDAR数据特征之间的相互作用;为提高特征提取方法对不同地物类别的适应性,设计了多尺度动态3D卷积模块,将输入特征的多尺度信息融入卷积核的调制,提高卷积操作对不同地物的适应性。采用多源遥感数据集Houston和Trento对所提方法进行验证,实验结果表明:所提方法在Houston和Trento数据集上总体准确率分别达到94.60%和98.21%,相比MGA-MFN等主流方法,总体准确率分别至少提升0.97%和0.25%,验证了所提方法可有效提升多源遥感图像分类的准确率。 展开更多
关键词 高光谱图像 激光雷达 TRANSFORMER 多源特征融合 动态卷积
下载PDF
基于多尺度注意力特征融合的场景文本检测 被引量:1
9
作者 厍向阳 刘哲 董立红 《计算机工程与应用》 CSCD 北大核心 2024年第1期198-206,共9页
针对目前文本检测中小尺度文本和长文本检测精度低的问题,提出了一种基于多尺度注意力特征融合的场景文本检测算法。该方法以Mask R-CNN为基线模型,引入Swin_Transformer作为骨干网络提取底层特征。在特征金字塔(feature pyramid networ... 针对目前文本检测中小尺度文本和长文本检测精度低的问题,提出了一种基于多尺度注意力特征融合的场景文本检测算法。该方法以Mask R-CNN为基线模型,引入Swin_Transformer作为骨干网络提取底层特征。在特征金字塔(feature pyramid networks,FPN)中,通过将多尺度注意力热图与底层特征通过横向连接相融合,使检测器的不同层级专注于特定尺度的目标,并利用相邻层注意力热图之间的关系实现了FPN结构中的纵向特征共享,避免了不同层之间梯度计算的不一致性问题。实验结果表明:在ICDAR2015数据集上,该方法的准确率、召回率和F值分别达到了88.3%、83.07%和85.61%,在CTW1500和Total-Text弯曲文本数据集上相较现有方法均有良好表现。 展开更多
关键词 场景文本检测 Mask R-CNN Swin Transformer 注意力机制 多尺度特征融合
下载PDF
考虑特征重组与改进Transformer的风电功率短期日前预测方法 被引量:3
10
作者 李练兵 高国强 +3 位作者 吴伟强 魏玉憧 卢盛欣 梁纪峰 《电网技术》 EI CSCD 北大核心 2024年第4期1466-1476,I0025,I0027-I0029,共15页
短期日前风电功率预测对电力系统调度计划制定有重要意义,该文为提高风电功率预测的准确性,提出了一种基于Transformer的预测模型Powerformer。模型通过因果注意力机制挖掘序列的时序依赖;通过去平稳化模块优化因果注意力以提高数据本... 短期日前风电功率预测对电力系统调度计划制定有重要意义,该文为提高风电功率预测的准确性,提出了一种基于Transformer的预测模型Powerformer。模型通过因果注意力机制挖掘序列的时序依赖;通过去平稳化模块优化因果注意力以提高数据本身的可预测性;通过设计趋势增强和周期增强模块提高模型的预测能力;通过改进解码器的多头注意力层,使模型提取周期特征和趋势特征。该文首先对风电数据进行预处理,采用完全自适应噪声集合经验模态分解(complete ensemble empirical mode decomposition with adaptive noise,CEEMDAN)将风电数据序列分解为不同频率的本征模态函数并计算其样本熵,使得风电功率序列重组为周期序列和趋势序列,然后将序列输入到Powerformer模型,实现对风电功率短期日前准确预测。结果表明,虽然训练时间长于已有预测模型,但Poweformer模型预测精度得到提升;同时,消融实验结果验证了模型各模块的必要性和有效性,具有一定的应用价值。 展开更多
关键词 风电功率预测 特征重组 Transformer模型 注意力机制 周期趋势增强
下载PDF
基于Transformer的陶瓷轴承表面缺陷检测方法 被引量:1
11
作者 安冬 胡荣华 +3 位作者 王丽艳 邵萌 李新然 刘则通 《组合机床与自动化加工技术》 北大核心 2024年第2期160-163,168,共5页
针对传统机器视觉检测方法中,由于陶瓷轴承滚动体表面曲率大、对比度低,表面成像模糊导致后续缺陷检测精度低的问题,提出一种基于Transformer的超分辨率残差网络。首先,网络使用残差学习策略,通过预测模糊图像与清晰图像之间的差值,实... 针对传统机器视觉检测方法中,由于陶瓷轴承滚动体表面曲率大、对比度低,表面成像模糊导致后续缺陷检测精度低的问题,提出一种基于Transformer的超分辨率残差网络。首先,网络使用残差学习策略,通过预测模糊图像与清晰图像之间的差值,实现超分辨率任务;其次,在网络上前端插入通道注意力模块和空间注意力模块并改进L2多头自注意力模块,以增强图像纹理、改善梯度爆炸问题;最后,针对超分辨率重建任务,提出一种两阶段训练策略优化训练过程。自建陶瓷轴承表面缺陷数据集上的大量实验结果表明,所提出网络模型在客观指标与主观评价上均优于MSESRGAN、VSDR等超分辨率算法,重建图像SSIM为0.939,PSNR为36.51 dB。 展开更多
关键词 Si_(3)N_(4)陶瓷轴承 超分辨率重建 TRANSFORMER 图像恢复 图像增强
下载PDF
基于概率稀疏自注意力的航空发动机剩余寿命预测 被引量:1
12
作者 王欣 黄佳琪 许雅玺 《科学技术与工程》 北大核心 2024年第6期2424-2433,共10页
航空发动机剩余寿命预测对其健康管理具有重要意义,针对长序列、多维度的航空发动机监测参数,提出一种基于概率稀疏自注意力(ProbSparse Self-Attention)的Transformer模型以实现航空发动机剩余寿命的准确预测。用ProbSparse Self-Atten... 航空发动机剩余寿命预测对其健康管理具有重要意义,针对长序列、多维度的航空发动机监测参数,提出一种基于概率稀疏自注意力(ProbSparse Self-Attention)的Transformer模型以实现航空发动机剩余寿命的准确预测。用ProbSparse Self-Attention取代原始Transformer中的常规自注意力机制,使得模型更关注时间序列中重要的时间节点,大幅缩减时间维度,减小了时间和空间复杂度;通过注意力层整合后的信息,进一步通过前馈神经网络层和卷积层,提取传感器的空间特征,编码层之间通过扩张因果卷积相连接,扩大了感受野,提高了模型对长序列信息的捕获能力。在新公开的N-CMAPSS数据集上验证算法,实验结果表明,相比于实验中的对比模型,所提模型的RMSE和Score值均有提升,推理速度也优于其他模型。 展开更多
关键词 概率稀疏自注意力 剩余寿命预测 航空发动机 TRANSFORMER 深度学习
下载PDF
基于遥感多参数和CNN-Transformer的冬小麦单产估测 被引量:2
13
作者 王鹏新 杜江莉 +3 位作者 张悦 刘峻明 李红梅 王春梅 《农业机械学报》 EI CAS CSCD 北大核心 2024年第3期173-182,共10页
为了提高冬小麦单产估测精度,改善估产模型存在的高产低估和低产高估等现象,以陕西省关中平原为研究区域,选取旬尺度条件植被温度指数(VTCI)、叶面积指数(LAI)和光合有效辐射吸收比率(FPAR)为遥感特征参数,结合卷积神经网络(CNN)局部特... 为了提高冬小麦单产估测精度,改善估产模型存在的高产低估和低产高估等现象,以陕西省关中平原为研究区域,选取旬尺度条件植被温度指数(VTCI)、叶面积指数(LAI)和光合有效辐射吸收比率(FPAR)为遥感特征参数,结合卷积神经网络(CNN)局部特征提取能力和基于自注意力机制的Transformer网络的全局信息提取能力,构建CNN-Transformer深度学习模型,用于估测关中平原冬小麦产量。与Transformer模型(R^(2)为0.64,RMSE为465.40 kg/hm^(2),MAPE为8.04%)相比,CNN-Transformer模型具有更高的冬小麦单产估测精度(R^(2)为0.70,RMSE为420.39 kg/hm^(2),MAPE为7.65%),能够从遥感多参数中提取更多与产量相关的信息,且对于Transformer模型存在的高产低估和低产高估现象均有所改善。基于5折交叉验证法和留一法进一步验证了CNN-Transformer模型的鲁棒性和泛化能力。此外,基于CNN-Transformer模型捕获冬小麦生长过程的累积效应,分析逐步累积旬尺度输入参数对产量估测的影响,评估模型对于冬小麦不同生长阶段的累积过程的表征能力。结果表明,模型能有效捕捉冬小麦生长的关键时期,3月下旬至5月上旬是冬小麦生长的关键时期。 展开更多
关键词 冬小麦 作物估产 遥感多参数 卷积神经网络 Transformer模型
下载PDF
ConvFormer:基于Transformer的视觉主干网络 被引量:1
14
作者 胡杰 昌敏杰 +1 位作者 徐博远 徐文才 《电子学报》 EI CAS CSCD 北大核心 2024年第1期46-57,共12页
针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvFormer. ConvFormer通过所设计的多... 针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvFormer. ConvFormer通过所设计的多尺度混洗自注意力模块(Channel-Shuffle and Multi-Scale attention,CSMS)和动态相对位置编码模块(Dynamic Relative Position Coding,DRPC)来聚合多尺度像素块间的语义信息,并在前馈网络中引入深度卷积提高网络的局部建模能力.在公开数据集ImageNet-1K,COCO 2017和ADE20K上分别进行图像分类、目标检测和语义分割实验,ConvFormer-Tiny与不同视觉任务中同量级最优网络RetNetY-4G,Swin-Tiny和ResNet50对比,精度分别提高0.3%,1.4%和0.5%. 展开更多
关键词 机器视觉 自注意力 主干网络 TRANSFORMER
下载PDF
基于Transformer的多尺度遥感语义分割网络 被引量:1
15
作者 邵凯 王明政 王光宇 《智能系统学报》 CSCD 北大核心 2024年第4期920-929,共10页
为了提升遥感图像语义分割效果,本文针对分割目标类间方差小、类内方差大的特点,从全局上下文信息和多尺度语义特征2个关键点提出一种基于Transformer的多尺度遥感语义分割网络(muliti-scale Transformer network,MSTNet)。其由编码器... 为了提升遥感图像语义分割效果,本文针对分割目标类间方差小、类内方差大的特点,从全局上下文信息和多尺度语义特征2个关键点提出一种基于Transformer的多尺度遥感语义分割网络(muliti-scale Transformer network,MSTNet)。其由编码器和解码器2个部分组成,编码器包含基于Transformer改进的视觉注意网络(visual attention network,VAN)主干和基于空洞空间金字塔池化(atrous spatial pyramid pooling, ASPP)结构改进的多尺度语义特征提取模块(multi-scale semantic feature extraction module, MSFEM)。解码器采用轻量级多层感知器(multi-layer perception,MLP)配合编码器设计,充分分析所提取的包含全局上下文信息和多尺度表示的语义特征。MSTNet在2个高分辨率遥感语义分割数据集ISPRS Potsdam和LoveDA上进行验证,平均交并比(mIoU)分别达到79.50%和54.12%,平均F1-score(m F1)分别达到87.46%和69.34%,实验结果验证了本文所提方法有效提升了遥感图像语义分割的效果。 展开更多
关键词 遥感图像 语义分割 卷积神经网络 TRANSFORMER 全局上下文信息 多尺度感受野 编码器 解码器
下载PDF
基于多尺度特征信息融合的时间序列异常检测 被引量:2
16
作者 衡红军 喻龙威 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第3期203-214,共12页
目前大多数的时间序列都缺少相应的异常标签,且现有基于重构的异常检测算法不能很好地捕获到多维数据间复杂的潜在相关性和时间依赖性,为了构建特征丰富的时间序列,提出一种多尺度特征信息融合的异常检测模型。该模型首先通过卷积神经... 目前大多数的时间序列都缺少相应的异常标签,且现有基于重构的异常检测算法不能很好地捕获到多维数据间复杂的潜在相关性和时间依赖性,为了构建特征丰富的时间序列,提出一种多尺度特征信息融合的异常检测模型。该模型首先通过卷积神经网络对滑动窗口内的不同序列进行特征卷积来获取不同尺度下的局部上下文信息。然后,利用Transformer中的位置编码对卷积后的时间序列窗口进行位置嵌入,增强滑动窗口中每一个时间序列和邻近序列之间的位置联系,并引入时间注意力获取数据在时间维度上的自相关性,并进一步通过多头自注意力自适应地为窗口内不同时间序列分配不同的权重。最后,对反卷积过程中上采样得到的窗口数据与不同尺度下得到的局部特征和时间上下文信息进行逐步融合,从而准确重构原始时间序列,并将重构误差作为最终的异常得分进行异常判定。实验结果表明,所构建模型在SWaT和SMD数据集上与基线模型相比F1分数均有所提升。在数据维度高且均衡性较差的WADI数据集上与GDN模型相比F1分数降低了1.66%。 展开更多
关键词 异常检测 多尺度信息融合 卷积神经网络 TRANSFORMER 多维时间序列 自编码器
下载PDF
引入轻量级Transformer的无人机视觉跟踪 被引量:1
17
作者 谌海云 王海川 +1 位作者 黄忠义 余鸿皓 《计算机工程与应用》 CSCD 北大核心 2024年第2期244-253,共10页
随着无人机在军事和民用领域的广泛运用,对于高精度、低功耗智能无人机跟踪系统的需求日益增加。针对目标跟踪算法在无人机跟踪场景下很难平衡跟踪精度和跟踪速度的问题,提出一种引入轻量级Transformer的孪生网络无人机目标跟踪算法Sia... 随着无人机在军事和民用领域的广泛运用,对于高精度、低功耗智能无人机跟踪系统的需求日益增加。针对目标跟踪算法在无人机跟踪场景下很难平衡跟踪精度和跟踪速度的问题,提出一种引入轻量级Transformer的孪生网络无人机目标跟踪算法SiamLT。使用Transformer对AlexNet网络进行改进,在增加最小计算量的情况下捕获全局特征信息。在目标模板与搜索区域匹配方面,联合Transformer和深度互相关运算提出一种二元相关模块,同时捕获目标模板与搜索区域之间的局部相关性和全局依赖关系。在分类回归网络中引入距离交并比,并采用多监督策略训练网络,以获取更准确的目标位置。在UAV123和UAV20L跟踪基准上的实验结果表明,SiamLT算法优于主流的目标跟踪算法,更有效地平衡了跟踪精度和跟踪速度。 展开更多
关键词 无人机 目标跟踪 TRANSFORMER 孪生网络 多头注意力
下载PDF
BEVTrack:基于难例挖掘训练的端到端三维多目标跟踪方法 被引量:1
18
作者 张弘 万家旭 +2 位作者 陈海波 张健 李旭亮 《信号处理》 CSCD 北大核心 2024年第1期152-165,共14页
多目标跟踪已经成为自动驾驶系统中的一个关键组成部分,其目的是在连续的视频流与点云流中识别、定位并标识所有感兴趣的目标。目前三维多目标跟踪方法多依赖人工多阶段调参以保证整体跟踪性能,难以对复杂遮挡或运动进行有效建模。而现... 多目标跟踪已经成为自动驾驶系统中的一个关键组成部分,其目的是在连续的视频流与点云流中识别、定位并标识所有感兴趣的目标。目前三维多目标跟踪方法多依赖人工多阶段调参以保证整体跟踪性能,难以对复杂遮挡或运动进行有效建模。而现有的三维端到端多目标跟踪方法,如MUTR等,精度普遍较低。其核心原因为三维空间中的特征聚合和感知相对于二维图像更具挑战性,简单的网络难以实现复杂的三维特征聚合,并大量的噪声信息与难例信息干扰严重,影响模型的特征提取能力。针对以上问题,本文提出了一种基于难例挖掘训练的端到端多目标跟踪框架BEVTrack。针对三维特征关联问题,本文设计了基于鸟瞰图(BEV)位置编码的三维跟踪查询。通过基于BEV特征的三维跟踪查询,本文方法能够更好地将跟踪查询与实际三维特征进行有效关联,从而大幅度提升了跟踪精度。同时,模型依靠BEV数据进行特征关联,仅需轻量化的网络便可以实现快速有效的跟踪。针对数据噪声问题,本文提出了面向多目标跟踪的难例挖掘训练,通过针对检测难例与跟踪难例分别处理,训练模型去除检测错误噪声与跟踪匹配的能力,从而提升在真实场景下模型处理噪声信息与难例干扰的能力。在实验结果方面,基于Nuscenes数据集,我们进行了大量的对比实验与模型消融实验,实验结果证明本文的方法在该数据集上取得了领先的性能。 展开更多
关键词 多目标跟踪 端到端 难例挖掘 TRANSFORMER
下载PDF
改进的YOLOv5s遥感影像机场场面飞机小目标识别 被引量:1
19
作者 张新君 赵春霖 《电光与控制》 CSCD 北大核心 2024年第7期104-111,共8页
遥感影像具有地物拍摄模糊以及背景环境复杂等特点,导致大面积地面物体识别准确率较低。针对此问题,提出了一种基于YOLOv5s改进网络模型。该模型对YOLOv5s中的骨干提取网络和颈部多尺度特征融合网络进行优化,引入Swin Transformer以获... 遥感影像具有地物拍摄模糊以及背景环境复杂等特点,导致大面积地面物体识别准确率较低。针对此问题,提出了一种基于YOLOv5s改进网络模型。该模型对YOLOv5s中的骨干提取网络和颈部多尺度特征融合网络进行优化,引入Swin Transformer以获得更多关于目标物体的特征信息;同时对骨干网络中的模块做了修剪;此外,模型中还添加了坐标注意力机制来提升特征提取和融合效果。对于遥感数据集进行了小目标检测识别测试实验,改进后的YOLOv5s网络的mAP值为0.8375,比YOLOv5s网络模型提高了0.0225。实验结果表明,改进后的YOLOv5s网络模型对比YOLO系列网络和EfficientDet模型有效地提高了识别准确率、召回率以及mAP值,并且在训练时间上也比YOLOv5s减少了1/12。 展开更多
关键词 遥感影像 YOLOv5s Swin Transformer 坐标注意力机制 小目标检测
下载PDF
结合坐标Transformer的轻量级人体姿态估计算法 被引量:1
20
作者 黄友文 林志钦 +1 位作者 章劲 陈俊宽 《图学学报》 CSCD 北大核心 2024年第3期516-527,共12页
针对现有的大多数自底向上人体姿态估计算法存在模型规模大、计算成本高及对边缘设备不友好等问题,提出了一种基于YOLOv5s6-Pose的轻量级多人姿态估计网络模型YOLOv5s6-Pose-CT。该模型在颈部网络中引入空间和通道重建卷积,以减少空间... 针对现有的大多数自底向上人体姿态估计算法存在模型规模大、计算成本高及对边缘设备不友好等问题,提出了一种基于YOLOv5s6-Pose的轻量级多人姿态估计网络模型YOLOv5s6-Pose-CT。该模型在颈部网络中引入空间和通道重建卷积,以减少空间和通道维度上的特征冗余。同时,提出了一种坐标Transformer嵌入于主干网络中,使模型专注于长距离依赖和拥有高效的局部特征提取能力。其次,通过使用无偏特征位置对齐来解决多尺度融合过程中出现的特征错位问题。最后,使用损失函数MPDIoU对边界框的回归损失重新定义。在COCO 2017数据集上的实验结果表明,本文优化的网络模型与主流的轻量级网络EfficientHRNet-H1模型相比,在保持相同精度的同时,参数量和计算量分别减少16.2%和66.1%。相比于基准模型YOLOv5s6-Pose,参数量减少11.2%,计算量降低5.8%,平均检测精度和平均召回率分别提升2.5%和2.6%。 展开更多
关键词 人体姿态估计 轻量级 坐标Transformer 无偏特征位置对齐 损失函数
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部