期刊文献+
共找到1,853,319篇文章
< 1 2 250 >
每页显示 20 50 100
基于Transformer结构的深度学习模型用于外周血白细胞检测 被引量:2
1
作者 冷冰 冷敏 +2 位作者 常智敏 葛明锋 董文飞 《仪器仪表学报》 EI CAS CSCD 北大核心 2023年第5期113-120,共8页
虽然血细胞分析仪已广泛应用于医院中,但人工镜检仍是白细胞检测的“金标准”。本文提出了一种基于DETR的Transformer结构的深度学习模型T-DETR用于外周血白细胞的检测,旨在缓解人工镜检的压力。首先,使用PVTv2作为DETR的骨干提取多尺... 虽然血细胞分析仪已广泛应用于医院中,但人工镜检仍是白细胞检测的“金标准”。本文提出了一种基于DETR的Transformer结构的深度学习模型T-DETR用于外周血白细胞的检测,旨在缓解人工镜检的压力。首先,使用PVTv2作为DETR的骨干提取多尺度特征图来提高检测精度。然后,将可变形注意力模块引入到DETR模型中,减少计算复杂度以加快模型收敛。最后,为了得到最优权重,在筛选后的公共白细胞数据集上使用了迁移学习的训练方式。实验结果表明,T-DETR在COCO数据集上mAP为0.476,在白细胞数据集上的mAP为0.954,优于DETR和经典CNN模型,验证了Transformer结构的模型在医学图像检测中应用的可行性。 展开更多
关键词 白细胞 目标检测 深度学习 transformer DETR
下载PDF
基于Transformer结构的高精度湍流波前重构
2
作者 冯佳濠 胡启立 +4 位作者 姜律 杨燕燕 华晟骁 吴晶晶 胡立发 《液晶与显示》 CAS CSCD 北大核心 2023年第6期798-808,共11页
动态变化的大气湍流和观测目标的亮度的降低严重影响了夏克-哈特曼波前传感器(SHWFS)探测波前的精度。针对这两种复杂的观测条件,本文提出了一种以Transformer结构为基础的神经网络模型,它具有很好的全局建模能力,可以高精度地从SHWFS... 动态变化的大气湍流和观测目标的亮度的降低严重影响了夏克-哈特曼波前传感器(SHWFS)探测波前的精度。针对这两种复杂的观测条件,本文提出了一种以Transformer结构为基础的神经网络模型,它具有很好的全局建模能力,可以高精度地从SHWFS光斑阵列图像中重建波前。通过在动态变化的典型大气湍流相干长度r_(0)下进行仿真模拟,所提出的网络模型的残余波前RMS误差值稳定在0.010~0.024μm之间。与已有的方法相比,本文方法能够更准确地重构波前像差。此外,本文方法的重构精度受导星或观测目标的亮度变化影响很小。因此,本文方法的重构精度对两种观测条件变化均具有较强的稳定性,为大口径天文光学望远镜的高分辨率成像提供了一种有前景的方法。 展开更多
关键词 自适应光学 深度学习 Shack-Hartmann波前传感器 transformer 波前重构
下载PDF
基于Transformer结构的多目标追踪算法研究综述 被引量:1
3
作者 曾文献 李伟光 +1 位作者 马月 李岳松 《河北省科学院学报》 CAS 2022年第3期1-8,共8页
Transformer是一种基于编码器-解码器、完全使用自注意力机制的深度神经网络结构,目前已经成功应用于多目标追踪,性能得到大幅提升。本文首先分析了Transformer网络整体结构,归纳Transformer结构具有的优势。然后根据查询方式将基于Tran... Transformer是一种基于编码器-解码器、完全使用自注意力机制的深度神经网络结构,目前已经成功应用于多目标追踪,性能得到大幅提升。本文首先分析了Transformer网络整体结构,归纳Transformer结构具有的优势。然后根据查询方式将基于Transformer结构的多目标追踪方法分为:基于稀疏查询的方法和基于密集查询的方法,对相关模型分析总结。最后介绍常用数据集,对比分析模型性能,指出基于Transformer结构的多目标追踪面临的挑战与未来研究方向。 展开更多
关键词 多目标追踪 transformer 自注意力机制 编码器-解码器
下载PDF
融合Transformer结构的高分辨率遥感影像变化检测网络 被引量:2
4
作者 冯炜明 张新长 +3 位作者 孙颖 姜明 甘巧 侯幸幸 《测绘通报》 CSCD 北大核心 2022年第8期36-40,92,共6页
为解决遥感影像变化检测全局上下文信息捕获的问题,本文提出了基于孪生结构、跳跃连接结构及Transformer结构的TSU-Net。该模型编码器采用混合CNN-Transformers结构,借助自注意力机制捕获遥感影像的全局上下文信息,增强了模型对于像素... 为解决遥感影像变化检测全局上下文信息捕获的问题,本文提出了基于孪生结构、跳跃连接结构及Transformer结构的TSU-Net。该模型编码器采用混合CNN-Transformers结构,借助自注意力机制捕获遥感影像的全局上下文信息,增强了模型对于像素级遥感影像变化检测任务的长距离上下文建模能力。该模型在LEVIR-CD数据集和CDD数据集进行测试,F1得分分别为90.73和93.14,优于各对比模型。 展开更多
关键词 深度学习 遥感影像变化检测 transformer TSU-Net
下载PDF
基于双流Transformer结构的多能计算机断层扫描成像投影数据去噪方法
5
作者 欧阳顺馨 史再峰 +2 位作者 孔凡宁 张丽丽 曹清洁 《激光与光电子学进展》 CSCD 北大核心 2024年第8期399-408,共10页
多能计算机断层扫描(Computed tomography,CT)技术可以更加精确地分辨出人体组织对不同能量X射线光子的吸收情况,是医学成像领域的重要发展方向。为了解决因量子噪声等非理想效应加重导致重建图像质量急剧退化的问题,提出了一种基于移... 多能计算机断层扫描(Computed tomography,CT)技术可以更加精确地分辨出人体组织对不同能量X射线光子的吸收情况,是医学成像领域的重要发展方向。为了解决因量子噪声等非理想效应加重导致重建图像质量急剧退化的问题,提出了一种基于移位窗口多头自注意力机制的双流Transformer网络结构。该结构利用移位窗口Transformer和局部增强窗口Transformer分别提取投影数据的全局和局部特征,充分利用投影数据的非局部自相似性以保留投影数据的内部结构;然后通过残差卷积融合提取的特征;最后使用带有非局部全变分的混合损失函数来监督网络模型的训练,提升该网络模型对投影数据内部细节的敏感程度。实验结果表明,所提方法处理后的重建图像峰值信噪比(PSNR)值、结构相似性(SSIM)值和特征相似度(FSIM)值分别达到37.7301 dB、0.9944和0.9961。与目前先进的多能CT去噪方法相比,所提方法在去除低剂量多能CT投影数据噪声的同时,可保留更多的细节特征,有利于后续的精确诊断。 展开更多
关键词 图像处理 计算机断层扫描成像 低剂量 卷积神经网络 transformer网络
原文传递
基于RoBERTa和图增强Transformer的序列推荐方法 被引量:1
6
作者 王明虎 石智奎 +1 位作者 苏佳 张新生 《计算机工程》 CAS CSCD 北大核心 2024年第4期121-131,共11页
自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明... 自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明显劣势。为了更好地挖掘用户与商品之间的深层潜在特征,进一步提高推荐质量,提出一种基于Ro BERTa和图增强Transformer的序列推荐(RGT)模型。引入评论文本数据,首先利用预训练的Ro BERTa模型捕获评论文本中的字词语义特征,初步建模用户的个性化兴趣,然后根据用户与商品的历史交互信息,构建具有时序特性的商品关联图注意力机制网络模型,通过图增强Transformer的方法将图模型学习到的各个商品的特征表示以序列的形式输入Transformer编码层,最后将得到的输出向量与之前捕获的语义表征以及计算得到的商品关联图的全图表征输入全连接层,以捕获用户全局的兴趣偏好,实现用户对商品的预测评分。在3组真实亚马逊公开数据集上的实验结果表明,与Deep FM、Conv MF等经典文本推荐模型相比,RGT模型在均方根误差(RMSE)和平均绝对误差(MAE)2种指标上有显著提升,相较于最优对比模型最高分别提升4.7%和5.3%。 展开更多
关键词 推荐算法 评论文本 RoBERTa模型 图注意力机制 transformer机制
下载PDF
基于Transformer的多子空间多模态情感分析
7
作者 田昌宁 贺昱政 +2 位作者 王笛 万波 郭栩彤 《西北大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第2期156-167,共12页
多模态情感分析是指通过文本、视觉和声学信息识别视频中人物表达出的情感。现有方法大多通过设计复杂的融合方案学习多模态一致性信息,而忽略了模态间和模态内的差异化信息,导致缺少对多模态融合表示的信息补充。为此提出了一种基于Tra... 多模态情感分析是指通过文本、视觉和声学信息识别视频中人物表达出的情感。现有方法大多通过设计复杂的融合方案学习多模态一致性信息,而忽略了模态间和模态内的差异化信息,导致缺少对多模态融合表示的信息补充。为此提出了一种基于Transformer的多子空间多模态情感分析(multi-subspace Transformer fusion network for multimodal sentiment analysis,MSTFN)方法。该方法将不同模态映射到私有和共享子空间,获得不同模态的私有表示和共享表示,学习每种模态的差异化信息和统一信息。首先,将每种模态的初始特征表示分别映射到各自的私有和共享子空间,学习每种模态中包含独特信息的私有表示与包含统一信息的共享表示。其次,在加强文本模态和音频模态作用的前提下,设计二元协同注意力跨模态Transformer模块,得到基于文本和音频的三模态表示。然后,使用模态私有表示和共享表示生成每种模态的最终表示,并两两融合得到双模态表示,以进一步补充多模态融合表示的信息。最后,将单模态表示、双模态表示和三模态表示拼接作为最终的多模态特征进行情感预测。在2个基准多模态情感分析数据集上的实验结果表明,该方法与最好的基准方法相比,在二分类准确率指标上分别提升了0.0256/0.0143和0.0007/0.0023。 展开更多
关键词 多模态情感分析 transformer结构 多子空间 多头注意力机制
下载PDF
基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法
8
作者 田子建 吴佳奇 +4 位作者 张文琪 陈伟 周涛 杨伟 王帅 《煤炭科学技术》 EI CAS CSCD 北大核心 2024年第1期297-310,共14页
高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低... 高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法。基于生成对抗思想搭建生成对抗式主体模型框架,使用目标图像域而非单一参考图像驱动判别器监督生成器的训练,实现对低照度图像的充分增强;基于特征表示学习理论搭建特征编码器,将图像解耦为亮度分量和反射分量,避免图像增强过程中亮度与颜色特征相互影响从而导致颜色失真问题;设计CEM-Transformer Encoder通过捕获全局上下文关系和提取局部区域特征,能够充分提升整体图像亮度并消除局部区域照度不均;在反射分量增强过程中,使用结合CEM-Cross-Transformer Encoder的跳跃连接将低级特征与深层网络处特征进行自适应融合,能够有效避免细节特征丢失,并在编码网络中添加ECA-Net,提高浅层网络的特征提取效率。制作矿井低照度图像数据集为矿井低照度图像增强任务提供数据资源。试验显示,在矿井低照度图像数据集和公共数据集中,与5种先进的低照度图像增强算法相比,该算法增强图像的质量指标PSNR、SSIM、VIF平均提高了16.564%,10.998%,16.226%和14.438%,10.888%,14.948%,证明该算法能够有效提升整体图像亮度,消除照度不均,避免颜色失真和细节丢失,实现矿井低照度图像增强。 展开更多
关键词 图像增强 图像识别 生成对抗网络 特征解耦 transformer
下载PDF
基于Depth-wise卷积和视觉Transformer的图像分类模型
9
作者 张峰 黄仕鑫 +1 位作者 花强 董春茹 《计算机科学》 CSCD 北大核心 2024年第2期196-204,共9页
图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关... 图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关系进行建模,一些研究者将Transformer应用于图像分类任务,但为了满足Transformer的序列化和并行化要求,需要将图像分割成大小相等、互不重叠的图像块,破坏了相邻图像数据块之间的局部信息。此外,由于Transformer具有较少的先验知识,模型往往需要在大规模数据集上进行预训练,因此计算复杂度较高。为了同时建模图像相邻块之间的局部信息并充分利用图像的全局信息,提出了一种基于Depth-wise卷积的视觉Transformer(Efficient Pyramid Vision Transformer,EPVT)模型。EPVT模型可以实现以较低的计算成本提取相邻图像块之间的局部和全局信息。EPVT模型主要包含3个关键组件:局部感知模块(Local Perceptron Module,LPM)、空间信息融合模块(Spatial Information Fusion,SIF)和“+卷积前馈神经网络(Convolution Feed-forward Network,CFFN)。LPM模块用于捕获图像的局部相关性;SIF模块用于融合相邻图像块之间的局部信息,并利用不同图像块之间的远距离依赖关系,提升模型的特征表达能力,使模型学习到输出特征在不同维度下的语义信息;CFFN模块用于编码位置信息和重塑张量。在图像分类数据集ImageNet-1K上,所提模型优于现有的同等规模的视觉Transformer分类模型,取得了82.6%的分类准确度,证明了该模型在大规模数据集上具有竞争力。 展开更多
关键词 深度学习 图像分类 Depth-wise卷积 视觉transformer 注意力机制
下载PDF
Dual-Path Vision Transformer用于急性缺血性脑卒中辅助诊断
10
作者 张桃红 郭学强 +4 位作者 郑瀚 罗继昌 王韬 焦力群 唐安莹 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期307-314,共8页
急性缺血性脑卒中是由于脑组织血液供应障碍导致的脑功能障碍,数字减影脑血管造影(DSA)是诊断脑血管疾病的金标准。基于患者的正面和侧面DSA图像,对急性缺血性脑卒中的治疗效果进行分级评估,构建基于Vision Transformer的双路径图像分... 急性缺血性脑卒中是由于脑组织血液供应障碍导致的脑功能障碍,数字减影脑血管造影(DSA)是诊断脑血管疾病的金标准。基于患者的正面和侧面DSA图像,对急性缺血性脑卒中的治疗效果进行分级评估,构建基于Vision Transformer的双路径图像分类智能模型DPVF。为了提高辅助诊断速度,基于EdgeViT的轻量化设计思想进行了模型的构建;为了使模型保持轻量化的同时具有较高的精度,提出空间-通道自注意力模块,促进Transformer模型捕获更全面的特征信息,提高模型的表达能力;此外,对于DPVF的两分支的特征融合,构建交叉注意力模块对两分支输出进行交叉融合,促使模型提取更丰富的特征,从而提高模型表现。实验结果显示DPVF在测试集上的准确率达98.5%,满足实际需求。 展开更多
关键词 急性缺血性脑卒中 视觉transformer 双分支网络 特征融合
下载PDF
基于多模态掩码Transformer网络的社会事件分类
11
作者 陈宏 钱胜胜 +2 位作者 李章明 方全 徐常胜 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期579-587,共9页
多模态社会事件分类的关键是充分且准确地利用图像和文字2种模态的特征。然而,现有的大多数方法存在以下局限性:简单地将事件的图像特征和文本特征连接起来,不同模态之间存在不相关的上下文信息导致相互干扰。因此,仅仅考虑多模态数据... 多模态社会事件分类的关键是充分且准确地利用图像和文字2种模态的特征。然而,现有的大多数方法存在以下局限性:简单地将事件的图像特征和文本特征连接起来,不同模态之间存在不相关的上下文信息导致相互干扰。因此,仅仅考虑多模态数据模态间的关系是不够的,还要考虑模态之间不相关的上下文信息(即区域或单词)。为克服这些局限性,提出一种新颖的基于多模态掩码Transformer网络(MMTN)模型的社会事件分类方法。通过图-文编码网络来学习文本和图像的更好的表示。将获得的图像和文本表示输入多模态掩码Transformer网络来融合多模态信息,并通过计算多模态信息之间的相似性,对多模态信息的模态间的关系进行建模,掩盖模态之间的不相关上下文。在2个基准数据集上的大量实验表明:所提模型达到了最先进的性能。 展开更多
关键词 多模态 社会事件分类 社交媒体 表示学习 多模态transformer网络
下载PDF
CNN-Transformer特征融合多目标跟踪算法
12
作者 张英俊 白小辉 谢斌红 《计算机工程与应用》 CSCD 北大核心 2024年第2期180-190,共11页
在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特... 在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特征提取和融合的多目标跟踪算法CTMOT(CNN-transformer multi-object tracking)。使用基于CNN和Transformer双分支并行的主干网络分别提取图像的局部和全局特征。使用双向桥接模块(two-way braidge module,TBM)对两种特征进行充分融合。将融合后的特征输入两组并行的解码器进行处理。将解码器输出的检测框和跟踪框进行匹配,完成多目标跟踪任务。在多目标跟踪数据集MOT17、MOT20、KITTI以及UADETRAC上进行评估,CTMOT算法的MOTP和IDs指标在四个数据集上均达到了SOTA效果,MOTA指标分别达到了76.4%、66.3%、92.36%和88.57%,在MOT数据集上与SOTA方法效果相当,在KITTI数据集上达到SOTA效果。由于同时完成目标检测和关联,能够端到端进行目标跟踪,跟踪速度可达35 FPS,表明CTMOT算法在跟踪的实时性和准确性上达到了较好的平衡,具有较大潜力。 展开更多
关键词 多目标跟踪 transformer 特征融合
下载PDF
基于Transformer复杂运动辨识的机动星凸形扩展目标跟踪方法
13
作者 陈辉 边斌超 +1 位作者 连峰 韩崇昭 《雷达学报(中英文)》 EI CSCD 北大核心 2024年第3期629-645,共17页
针对复杂的机动扩展目标跟踪问题,利用Transformer网络设计了一种有效的星凸不规则形状机动扩展目标跟踪方法。首先,该文研究利用alpha-shape算法建立了星凸形状的变化模型,实现了静态场景下的星凸形扩展目标的形状估计。然后,通过对目... 针对复杂的机动扩展目标跟踪问题,利用Transformer网络设计了一种有效的星凸不规则形状机动扩展目标跟踪方法。首先,该文研究利用alpha-shape算法建立了星凸形状的变化模型,实现了静态场景下的星凸形扩展目标的形状估计。然后,通过对目标状态转移矩阵进行重新设计,结合Transformer网络对机动扩展目标运动状态转移矩阵进行实时估计,实现了对复杂机动目标运动过程的精准跟踪。进一步地,将估计得到的形状轮廓与运动状态进行融合,最终实现了对星凸形机动扩展目标的实时跟踪。最后,通过构造复杂的机动扩展目标跟踪场景,利用多重性能指标测试算法对形状和运动状态的综合估计性能,验证了算法的有效性。 展开更多
关键词 扩展目标跟踪 机动目标 transformer 星凸形 弗雷歇距离-面积误差
下载PDF
基于残差U-Net和自注意力Transformer编码器的磁场预测方法
14
作者 金亮 尹振豪 +2 位作者 刘璐 宋居恒 刘元凯 《电工技术学报》 EI CSCD 北大核心 2024年第10期2937-2952,共16页
利用有限元方法对几何结构复杂的电机和变压器进行磁场分析,存在仿真时间长且无法复用的问题。因此,该文提出一种基于残差U-Net和自注意力Transformer编码器的磁场预测方法。首先建立永磁同步电机(PMSM)和非晶合金变压器(AMT)有限元模型... 利用有限元方法对几何结构复杂的电机和变压器进行磁场分析,存在仿真时间长且无法复用的问题。因此,该文提出一种基于残差U-Net和自注意力Transformer编码器的磁场预测方法。首先建立永磁同步电机(PMSM)和非晶合金变压器(AMT)有限元模型,得到深度学习训练所需的数据集;然后将Transformer模块与U-Net模型结合,并引入短残差机制建立ResUnet-Transformer模型,通过预测图像的像素实现磁场预测;最后通过Targeted Dropout算法和动态学习率调整策略对模型进行优化,解决拟合问题并提高预测精度。计算实例证明,ResUnet-Transformer模型在PMSM和AMT数据集上测试集的平均绝对百分比误差(MAPE)均小于1%,且仅需500组样本。该文提出的磁场预测方法能减少实际工况和多工况下精细模拟和拓扑优化的时间和资源消耗,亦是虚拟传感器乃至数字孪生的关键实现方法之一。 展开更多
关键词 有限元方法 电磁场 深度学习 U-Net transformer
下载PDF
基于差分非平稳Transformer的液压支架立柱压力预测
15
作者 杨艺 Aimen Malik +1 位作者 袁瑞甫 王科平 《电子测量技术》 北大核心 2024年第6期41-49,共9页
液压支架立柱压力预测是回采工艺决策的重要依据,也是确保围岩稳定的基础信息之一。然而,液压支架立柱压力虽然具有一定的规律性,却无法用简单的数学模型进行预测;且在回采过程中,支架不接顶、顶板破碎、传感器检测误差等带来大量的随... 液压支架立柱压力预测是回采工艺决策的重要依据,也是确保围岩稳定的基础信息之一。然而,液压支架立柱压力虽然具有一定的规律性,却无法用简单的数学模型进行预测;且在回采过程中,支架不接顶、顶板破碎、传感器检测误差等带来大量的随机噪声,使得压力数据劣化为非平稳时间序列,给压力的预测带来的很大的困难。本文在Transformer基础上,提出一种差分非平稳Transformer模型,在Transformer的编码器和解码器中分别引入差分归一化和反归一化操作,以提升序列的平稳性。同时,在Transformer中采用去平稳注意力机制,计算序列元素之间的关联关系,以增强模型的预测能力。在真实的煤矿支架立柱数据集上的对比实验表明,本文提出的差分非平稳Transformer的预测效果达到0.674,表现明显优于LSTM、Transformer和非平稳Transformer模型。 展开更多
关键词 煤矿安全 工作面 液压支架 压力预测 非平稳transformer 差分
下载PDF
多尺度卷积结合Transformer的抑郁脑电分类研究
16
作者 翟凤文 孙芳林 金静 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期182-195,共14页
在通过深度学习模型进行抑郁症类脑电信号分析时,针对单一尺度的卷积存在特征提取不充分的问题和卷积神经网络在感知脑电信号全局依赖性方面的局限性,分别设计了多尺度动态卷积网络模块和门控Transformer编码器模块,并与时间卷积网络相... 在通过深度学习模型进行抑郁症类脑电信号分析时,针对单一尺度的卷积存在特征提取不充分的问题和卷积神经网络在感知脑电信号全局依赖性方面的局限性,分别设计了多尺度动态卷积网络模块和门控Transformer编码器模块,并与时间卷积网络相结合,提出了混合网络模型(MGTTCNet)进行抑郁症患者和健康对照组的脑电信号分类。该模型首先通过多尺度动态卷积从空间域和频率域捕捉脑电信号的多尺度时频信息。其次通过门控Transformer编码器学习脑电信号中的全局依赖关系,其利用多头注意力机制有效增强网络表达相关脑电信号特征的能力。之后利用时间卷积网络提取脑电信号可用的时间特征,最后将提取的抽象特征输入到分类模块进行分类。在公开数据集MODMA上用留出法和十折交叉验证法对提出模型进行实验验证,分别取得了约98.51%和98.53%的分类准确率,相较于基线单尺度模型EEGNet,分类准确率分别提升了约1.89%和1.93%,F1值分别提升了约2.05%和2.08%,kappa系数值分别提高了约0.038 1和0.038 5;同时消融实验验证了文中设计的各个模块的有效性。 展开更多
关键词 脑电信号 抑郁分类 深度学习 transformer 时间卷积网络
下载PDF
利用Transformer的多模态目标跟踪算法
17
作者 刘万军 梁林林 曲海成 《计算机工程与应用》 CSCD 北大核心 2024年第11期84-94,共11页
目前目标跟踪方法大多通过融合不同模态信息进行定位决策,存在信息提取不充分、融合方法简单、弱光场景无法准确跟踪目标的问题。为此,提出一种基于Transformer的多模态目标跟踪算法(Trans-RGBT):利用伪孪生网络对可见光图像和红外图像... 目前目标跟踪方法大多通过融合不同模态信息进行定位决策,存在信息提取不充分、融合方法简单、弱光场景无法准确跟踪目标的问题。为此,提出一种基于Transformer的多模态目标跟踪算法(Trans-RGBT):利用伪孪生网络对可见光图像和红外图像分别进行特征提取,并在特征层面充分融合;将首帧目标信息调制到待跟踪帧的特征向量中,得到一个专用跟踪器;应用Transformer的方法对视野中的目标进行编解码,通过空间位置预测分支预测目标在视野中的空间位置,并结合历史信息滤除干扰目标,得到目标的准确位置;使用矩形框回归网络预测目标的外接矩形框,从而实现目标准确跟踪。在最新的大规模数据集VTUAV、RGBT234上进行了实验,与孪生网络(Siambased)、滤波(filter-based)算法相比,Trans-RGBT精度更高、鲁棒性更好、速度接近实时,达22 FPS。 展开更多
关键词 多模态融合 可见光图像 红外图像 transformer 目标跟踪
下载PDF
HRformer:基于多级回归Transformer网络的红外小目标检测
18
作者 杜妮妮 单凯东 王建超 《红外技术》 CSCD 北大核心 2024年第2期199-207,共9页
红外小目标检测是指从低信噪比、复杂背景的红外图像中对小目标进行检测,在海上救援、交通管理等应用中具有重要实际意义。然而,由于图像分辨率低、目标尺寸小以及特征不突出等因素,导致红外目标很容易淹没在包含噪声和杂波的背景中,如... 红外小目标检测是指从低信噪比、复杂背景的红外图像中对小目标进行检测,在海上救援、交通管理等应用中具有重要实际意义。然而,由于图像分辨率低、目标尺寸小以及特征不突出等因素,导致红外目标很容易淹没在包含噪声和杂波的背景中,如何精确检测红外小目标的外形信息仍然是一个挑战。针对上述问题,构建了一种基于多级回归Transformer(HRformer)网络的红外小目标检测算法。具体来说,首先为了在获得多尺度信息的同时尽可能避免原始图像信息的损失,采用像素逆重组(PixelUnShuffle)操作对原始图像下采样来获取不同层级网络的输入,同时采用一种可学习的像素重组(PixelShuffle)操作对每一层级的输出特征图进行上采样,提升了网络的灵活性;接着,为实现网络中不同层级特征之间的信息交互,本文设计了一种包含空间注意力计算分支以及通道注意力计算分支在内的交叉注意力融合(cross attention fusion,CAF)模块实现特征高效融合以及信息互补;最后,为进一步提升网络的检测性能,结合普通Transformer结构具有较大感受野以及基于窗口的Transformer结构具有较少计算复杂度的优势,提出了一种局部-全局Transformer(LGT)结构,能够在提取局部上下文信息的同时对全局依赖关系进行建模,计算成本也得到节省。实验结果表明,与目前较为先进的一些红外小目标检测算法相比,本文所提出的算法具有更高的检测精度,同时具有较少的参数量,在解决实际问题中更有意义。 展开更多
关键词 红外图像 弱小目标检测 transformer 图像分割
下载PDF
CNN-Transformer结合对比学习的高光谱与LiDAR数据协同分类
19
作者 吴海滨 戴诗语 +2 位作者 王爱丽 岩堀祐之 于效宇 《光学精密工程》 EI CAS CSCD 北大核心 2024年第7期1087-1100,共14页
针对高光谱图像(hyperspectral images,HSI)与LiDAR数据多模态分类任务中的跨模态信息表达和特征对齐等问题,提出一种基于对比学习CNN-Transformer高光谱和LiDAR数据协同分类网络(Contrastive Learning based CNNTransformer Network,CL... 针对高光谱图像(hyperspectral images,HSI)与LiDAR数据多模态分类任务中的跨模态信息表达和特征对齐等问题,提出一种基于对比学习CNN-Transformer高光谱和LiDAR数据协同分类网络(Contrastive Learning based CNNTransformer Network,CLCT-Net)。CLCT-Net通过由ConvNeXt V2 Block构成的共有特征提取模块,获得不同模态间的共性特征,解决异构传感器数据之间语义对齐的问题。构建了包含空间-通道分支和光谱上下文分支的双分支HSI编码器,以及结合频域自注意力机制的LiDAR编码器,以获取更丰富的特征表示。利用集成对比学习进行分类,进一步提升多模态数据协同分类的精度。在Houston 2013和Trento数据集上的实验结果表明,相较于其他高光谱图像和Li‐DAR数据分类模型,本文所提模型获得了更高的地物分类精度,分别达到了92.01%和98.90%,实现了跨模态数据特征的深度挖掘和协同提取。 展开更多
关键词 高光谱图像 激光雷达数据 transformer 卷积神经网络 对比学习
下载PDF
基于Transformer和CNN交错混合的肺结节分割网络
20
作者 吴骏 侯宪哲 +2 位作者 王健 肖志涛 王雯 《天津工业大学学报》 CAS 北大核心 2024年第1期74-81,共8页
针对肺结节尺寸多样、形状异质化高等问题,提出基于Transformer和卷积神经网络(CNN)交错混合(IMTC)的肺结节分割网络,该网络是一个对称的层次连接网络,具有很强的多尺度特征提取能力。该网络通过集成2种方案分别解决肺结节多尺寸与形状... 针对肺结节尺寸多样、形状异质化高等问题,提出基于Transformer和卷积神经网络(CNN)交错混合(IMTC)的肺结节分割网络,该网络是一个对称的层次连接网络,具有很强的多尺度特征提取能力。该网络通过集成2种方案分别解决肺结节多尺寸与形状异质化问题:(1)采用感知注意力模块(inception attention module,IAM),通过并联多个不同大小的卷积核来增加浅层网络的感受野组合,以此捕获更为丰富的浅层特征;(2)为获取更具表示能力的高级语义特征,利用由Transformer和CNN组成的基本骨干网络交错提取结节特征,使得全局特征与局部特征充分融合,从而提高结节特征表示的泛化能力和鲁棒性。实验结果表明:本文模型可以准确分割直径较小以及边缘复杂的肺结节,在LUNA16公开数据集上分割性能良好,Dice和IOU分别达到86.15%和76.10%。 展开更多
关键词 肺结节 transformer 卷积神经网络(CNN) 感知注意力模块(IAM) 交错混合
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部