期刊文献+
共找到230,041篇文章
< 1 2 250 >
每页显示 20 50 100
基于RoBERTa和图增强Transformer的序列推荐方法 被引量:1
1
作者 王明虎 石智奎 +1 位作者 苏佳 张新生 《计算机工程》 CAS CSCD 北大核心 2024年第4期121-131,共11页
自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明... 自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明显劣势。为了更好地挖掘用户与商品之间的深层潜在特征,进一步提高推荐质量,提出一种基于Ro BERTa和图增强Transformer的序列推荐(RGT)模型。引入评论文本数据,首先利用预训练的Ro BERTa模型捕获评论文本中的字词语义特征,初步建模用户的个性化兴趣,然后根据用户与商品的历史交互信息,构建具有时序特性的商品关联图注意力机制网络模型,通过图增强Transformer的方法将图模型学习到的各个商品的特征表示以序列的形式输入Transformer编码层,最后将得到的输出向量与之前捕获的语义表征以及计算得到的商品关联图的全图表征输入全连接层,以捕获用户全局的兴趣偏好,实现用户对商品的预测评分。在3组真实亚马逊公开数据集上的实验结果表明,与Deep FM、Conv MF等经典文本推荐模型相比,RGT模型在均方根误差(RMSE)和平均绝对误差(MAE)2种指标上有显著提升,相较于最优对比模型最高分别提升4.7%和5.3%。 展开更多
关键词 推荐算法 评论文本 RoBERTa模型 图注意力机制 Transformer机制
下载PDF
基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法
2
作者 田子建 吴佳奇 +4 位作者 张文琪 陈伟 周涛 杨伟 王帅 《煤炭科学技术》 EI CAS CSCD 北大核心 2024年第1期297-310,共14页
高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低... 高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法。基于生成对抗思想搭建生成对抗式主体模型框架,使用目标图像域而非单一参考图像驱动判别器监督生成器的训练,实现对低照度图像的充分增强;基于特征表示学习理论搭建特征编码器,将图像解耦为亮度分量和反射分量,避免图像增强过程中亮度与颜色特征相互影响从而导致颜色失真问题;设计CEM-Transformer Encoder通过捕获全局上下文关系和提取局部区域特征,能够充分提升整体图像亮度并消除局部区域照度不均;在反射分量增强过程中,使用结合CEM-Cross-Transformer Encoder的跳跃连接将低级特征与深层网络处特征进行自适应融合,能够有效避免细节特征丢失,并在编码网络中添加ECA-Net,提高浅层网络的特征提取效率。制作矿井低照度图像数据集为矿井低照度图像增强任务提供数据资源。试验显示,在矿井低照度图像数据集和公共数据集中,与5种先进的低照度图像增强算法相比,该算法增强图像的质量指标PSNR、SSIM、VIF平均提高了16.564%,10.998%,16.226%和14.438%,10.888%,14.948%,证明该算法能够有效提升整体图像亮度,消除照度不均,避免颜色失真和细节丢失,实现矿井低照度图像增强。 展开更多
关键词 图像增强 图像识别 生成对抗网络 特征解耦 TRANSFORMER
下载PDF
基于轨道板振动加速度的钢轨振动加速度反演估计与现场验证
3
作者 何庆 曾楚琦 +3 位作者 王启航 付彬 吴军 王平 《北京交通大学学报》 CAS CSCD 北大核心 2024年第1期74-86,共13页
为研究高速铁路轨道板与钢轨之间的时空关联规律,提出变分模态-转换器(Variational Mode Decomposition-Transformer, VMD-T)反演模型,该模型通过分解轨道板振动加速度来反演估计钢轨振动加速度.首先,对数据进行预处理并利用双门限法检... 为研究高速铁路轨道板与钢轨之间的时空关联规律,提出变分模态-转换器(Variational Mode Decomposition-Transformer, VMD-T)反演模型,该模型通过分解轨道板振动加速度来反演估计钢轨振动加速度.首先,对数据进行预处理并利用双门限法检测振动端点,分离振动信号与静默信号、干扰信号,再将提取后的振动信号整合输入到VMD-T模型.其次,利用VMD模型将轨道板振动加速度数据分解成一系列不同的子模态,并网格遍历搜索与钢轨振动加速度相关系数最大的子模态,以降低原始数据的复杂度以及非平稳性,提升Transformer模型的特征抽取能力.然后,通过Transformer模型对搜索出的轨道板振动加速度子模态与钢轨振动加速度数据进行反演估计训练.最后,将该模型应用于某城际高速铁路轨道板与钢轨实测振动加速度数据反演估计试验.现场高铁试验结果表明:与单一Transformer模型相比,VMD-T模型均方根误差(RootMean Squared Error, RMSE)、绝对平均误差(Mean Absolute Error, MAE)及决定系数(R2_score)分别提升近20%、11%及48.1%,特征学习能力更强,反演估计效果更佳,初步实现钢轨垂向振动加速度幅值非接触式监测估计. 展开更多
关键词 高速铁路 变分模态分解 Transformer模型 轨道板 钢轨 振动加速度
下载PDF
基于Depth-wise卷积和视觉Transformer的图像分类模型
4
作者 张峰 黄仕鑫 +1 位作者 花强 董春茹 《计算机科学》 CSCD 北大核心 2024年第2期196-204,共9页
图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关... 图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关系进行建模,一些研究者将Transformer应用于图像分类任务,但为了满足Transformer的序列化和并行化要求,需要将图像分割成大小相等、互不重叠的图像块,破坏了相邻图像数据块之间的局部信息。此外,由于Transformer具有较少的先验知识,模型往往需要在大规模数据集上进行预训练,因此计算复杂度较高。为了同时建模图像相邻块之间的局部信息并充分利用图像的全局信息,提出了一种基于Depth-wise卷积的视觉Transformer(Efficient Pyramid Vision Transformer,EPVT)模型。EPVT模型可以实现以较低的计算成本提取相邻图像块之间的局部和全局信息。EPVT模型主要包含3个关键组件:局部感知模块(Local Perceptron Module,LPM)、空间信息融合模块(Spatial Information Fusion,SIF)和“+卷积前馈神经网络(Convolution Feed-forward Network,CFFN)。LPM模块用于捕获图像的局部相关性;SIF模块用于融合相邻图像块之间的局部信息,并利用不同图像块之间的远距离依赖关系,提升模型的特征表达能力,使模型学习到输出特征在不同维度下的语义信息;CFFN模块用于编码位置信息和重塑张量。在图像分类数据集ImageNet-1K上,所提模型优于现有的同等规模的视觉Transformer分类模型,取得了82.6%的分类准确度,证明了该模型在大规模数据集上具有竞争力。 展开更多
关键词 深度学习 图像分类 Depth-wise卷积 视觉Transformer 注意力机制
下载PDF
Dual-Path Vision Transformer用于急性缺血性脑卒中辅助诊断
5
作者 张桃红 郭学强 +4 位作者 郑瀚 罗继昌 王韬 焦力群 唐安莹 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期307-314,共8页
急性缺血性脑卒中是由于脑组织血液供应障碍导致的脑功能障碍,数字减影脑血管造影(DSA)是诊断脑血管疾病的金标准。基于患者的正面和侧面DSA图像,对急性缺血性脑卒中的治疗效果进行分级评估,构建基于Vision Transformer的双路径图像分... 急性缺血性脑卒中是由于脑组织血液供应障碍导致的脑功能障碍,数字减影脑血管造影(DSA)是诊断脑血管疾病的金标准。基于患者的正面和侧面DSA图像,对急性缺血性脑卒中的治疗效果进行分级评估,构建基于Vision Transformer的双路径图像分类智能模型DPVF。为了提高辅助诊断速度,基于EdgeViT的轻量化设计思想进行了模型的构建;为了使模型保持轻量化的同时具有较高的精度,提出空间-通道自注意力模块,促进Transformer模型捕获更全面的特征信息,提高模型的表达能力;此外,对于DPVF的两分支的特征融合,构建交叉注意力模块对两分支输出进行交叉融合,促使模型提取更丰富的特征,从而提高模型表现。实验结果显示DPVF在测试集上的准确率达98.5%,满足实际需求。 展开更多
关键词 急性缺血性脑卒中 视觉Transformer 双分支网络 特征融合
下载PDF
基于多模态掩码Transformer网络的社会事件分类
6
作者 陈宏 钱胜胜 +2 位作者 李章明 方全 徐常胜 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期579-587,共9页
多模态社会事件分类的关键是充分且准确地利用图像和文字2种模态的特征。然而,现有的大多数方法存在以下局限性:简单地将事件的图像特征和文本特征连接起来,不同模态之间存在不相关的上下文信息导致相互干扰。因此,仅仅考虑多模态数据... 多模态社会事件分类的关键是充分且准确地利用图像和文字2种模态的特征。然而,现有的大多数方法存在以下局限性:简单地将事件的图像特征和文本特征连接起来,不同模态之间存在不相关的上下文信息导致相互干扰。因此,仅仅考虑多模态数据模态间的关系是不够的,还要考虑模态之间不相关的上下文信息(即区域或单词)。为克服这些局限性,提出一种新颖的基于多模态掩码Transformer网络(MMTN)模型的社会事件分类方法。通过图-文编码网络来学习文本和图像的更好的表示。将获得的图像和文本表示输入多模态掩码Transformer网络来融合多模态信息,并通过计算多模态信息之间的相似性,对多模态信息的模态间的关系进行建模,掩盖模态之间的不相关上下文。在2个基准数据集上的大量实验表明:所提模型达到了最先进的性能。 展开更多
关键词 多模态 社会事件分类 社交媒体 表示学习 多模态Transformer网络
下载PDF
CNN-Transformer特征融合多目标跟踪算法
7
作者 张英俊 白小辉 谢斌红 《计算机工程与应用》 CSCD 北大核心 2024年第2期180-190,共11页
在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特... 在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特征提取和融合的多目标跟踪算法CTMOT(CNN-transformer multi-object tracking)。使用基于CNN和Transformer双分支并行的主干网络分别提取图像的局部和全局特征。使用双向桥接模块(two-way braidge module,TBM)对两种特征进行充分融合。将融合后的特征输入两组并行的解码器进行处理。将解码器输出的检测框和跟踪框进行匹配,完成多目标跟踪任务。在多目标跟踪数据集MOT17、MOT20、KITTI以及UADETRAC上进行评估,CTMOT算法的MOTP和IDs指标在四个数据集上均达到了SOTA效果,MOTA指标分别达到了76.4%、66.3%、92.36%和88.57%,在MOT数据集上与SOTA方法效果相当,在KITTI数据集上达到SOTA效果。由于同时完成目标检测和关联,能够端到端进行目标跟踪,跟踪速度可达35 FPS,表明CTMOT算法在跟踪的实时性和准确性上达到了较好的平衡,具有较大潜力。 展开更多
关键词 多目标跟踪 TRANSFORMER 特征融合
下载PDF
基于Transformer复杂运动辨识的机动星凸形扩展目标跟踪方法
8
作者 陈辉 边斌超 +1 位作者 连峰 韩崇昭 《雷达学报(中英文)》 EI CSCD 北大核心 2024年第3期629-645,共17页
针对复杂的机动扩展目标跟踪问题,利用Transformer网络设计了一种有效的星凸不规则形状机动扩展目标跟踪方法。首先,该文研究利用alpha-shape算法建立了星凸形状的变化模型,实现了静态场景下的星凸形扩展目标的形状估计。然后,通过对目... 针对复杂的机动扩展目标跟踪问题,利用Transformer网络设计了一种有效的星凸不规则形状机动扩展目标跟踪方法。首先,该文研究利用alpha-shape算法建立了星凸形状的变化模型,实现了静态场景下的星凸形扩展目标的形状估计。然后,通过对目标状态转移矩阵进行重新设计,结合Transformer网络对机动扩展目标运动状态转移矩阵进行实时估计,实现了对复杂机动目标运动过程的精准跟踪。进一步地,将估计得到的形状轮廓与运动状态进行融合,最终实现了对星凸形机动扩展目标的实时跟踪。最后,通过构造复杂的机动扩展目标跟踪场景,利用多重性能指标测试算法对形状和运动状态的综合估计性能,验证了算法的有效性。 展开更多
关键词 扩展目标跟踪 机动目标 TRANSFORMER 星凸形 弗雷歇距离-面积误差
下载PDF
基于残差U-Net和自注意力Transformer编码器的磁场预测方法
9
作者 金亮 尹振豪 +2 位作者 刘璐 宋居恒 刘元凯 《电工技术学报》 EI CSCD 北大核心 2024年第10期2937-2952,共16页
利用有限元方法对几何结构复杂的电机和变压器进行磁场分析,存在仿真时间长且无法复用的问题。因此,该文提出一种基于残差U-Net和自注意力Transformer编码器的磁场预测方法。首先建立永磁同步电机(PMSM)和非晶合金变压器(AMT)有限元模型... 利用有限元方法对几何结构复杂的电机和变压器进行磁场分析,存在仿真时间长且无法复用的问题。因此,该文提出一种基于残差U-Net和自注意力Transformer编码器的磁场预测方法。首先建立永磁同步电机(PMSM)和非晶合金变压器(AMT)有限元模型,得到深度学习训练所需的数据集;然后将Transformer模块与U-Net模型结合,并引入短残差机制建立ResUnet-Transformer模型,通过预测图像的像素实现磁场预测;最后通过Targeted Dropout算法和动态学习率调整策略对模型进行优化,解决拟合问题并提高预测精度。计算实例证明,ResUnet-Transformer模型在PMSM和AMT数据集上测试集的平均绝对百分比误差(MAPE)均小于1%,且仅需500组样本。该文提出的磁场预测方法能减少实际工况和多工况下精细模拟和拓扑优化的时间和资源消耗,亦是虚拟传感器乃至数字孪生的关键实现方法之一。 展开更多
关键词 有限元方法 电磁场 深度学习 U-Net TRANSFORMER
下载PDF
面向肺炎CT图像识别的DL-CTNet模型
10
作者 王威 黄文迪 +1 位作者 王新 王珑润 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2024年第1期122-132,共11页
肺炎常缺乏明显呼吸系症状,症状多不典型,易发生漏诊、错诊.利用深度学习技术辅助医务人员安全、高效地检测感染者是一种有效途径.针对COVID-19感染者CT图像的磨玻璃影、铺路石征、血管扩张等特点,提出一种可有效地提取CT图像中的局部... 肺炎常缺乏明显呼吸系症状,症状多不典型,易发生漏诊、错诊.利用深度学习技术辅助医务人员安全、高效地检测感染者是一种有效途径.针对COVID-19感染者CT图像的磨玻璃影、铺路石征、血管扩张等特点,提出一种可有效地提取CT图像中的局部与全局特征的轻量级模型——DL-CTNet.输入预处理的CT图像后,首先采用空洞卷积和动态双路径多尺度特征融合(D-DMFF)模块的2个支路提取浅层特征;然后使用局部与全局特征拼接模块(LGFC)中的D-DMFF模块提取局部特征、Swin Transformer提取全局特征,并通过拼接获得深层特征;最后经过全连接层输出分类标签.实验结果表明,在2个CT图像数据集上,验证了LGFC模块以及DL-CTNet的低复杂度与有效性;DL-CTNet的分类准确率高达98.613%,与其他方法相比,其能更准确地识别肺炎的CT图像. 展开更多
关键词 肺炎 胸部CT图像 卷积神经网络 TRANSFORMER
下载PDF
基于差分非平稳Transformer的液压支架立柱压力预测
11
作者 杨艺 Aimen Malik +1 位作者 袁瑞甫 王科平 《电子测量技术》 北大核心 2024年第6期41-49,共9页
液压支架立柱压力预测是回采工艺决策的重要依据,也是确保围岩稳定的基础信息之一。然而,液压支架立柱压力虽然具有一定的规律性,却无法用简单的数学模型进行预测;且在回采过程中,支架不接顶、顶板破碎、传感器检测误差等带来大量的随... 液压支架立柱压力预测是回采工艺决策的重要依据,也是确保围岩稳定的基础信息之一。然而,液压支架立柱压力虽然具有一定的规律性,却无法用简单的数学模型进行预测;且在回采过程中,支架不接顶、顶板破碎、传感器检测误差等带来大量的随机噪声,使得压力数据劣化为非平稳时间序列,给压力的预测带来的很大的困难。本文在Transformer基础上,提出一种差分非平稳Transformer模型,在Transformer的编码器和解码器中分别引入差分归一化和反归一化操作,以提升序列的平稳性。同时,在Transformer中采用去平稳注意力机制,计算序列元素之间的关联关系,以增强模型的预测能力。在真实的煤矿支架立柱数据集上的对比实验表明,本文提出的差分非平稳Transformer的预测效果达到0.674,表现明显优于LSTM、Transformer和非平稳Transformer模型。 展开更多
关键词 煤矿安全 工作面 液压支架 压力预测 非平稳Transformer 差分
下载PDF
多尺度卷积结合Transformer的抑郁脑电分类研究
12
作者 翟凤文 孙芳林 金静 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期182-195,共14页
在通过深度学习模型进行抑郁症类脑电信号分析时,针对单一尺度的卷积存在特征提取不充分的问题和卷积神经网络在感知脑电信号全局依赖性方面的局限性,分别设计了多尺度动态卷积网络模块和门控Transformer编码器模块,并与时间卷积网络相... 在通过深度学习模型进行抑郁症类脑电信号分析时,针对单一尺度的卷积存在特征提取不充分的问题和卷积神经网络在感知脑电信号全局依赖性方面的局限性,分别设计了多尺度动态卷积网络模块和门控Transformer编码器模块,并与时间卷积网络相结合,提出了混合网络模型(MGTTCNet)进行抑郁症患者和健康对照组的脑电信号分类。该模型首先通过多尺度动态卷积从空间域和频率域捕捉脑电信号的多尺度时频信息。其次通过门控Transformer编码器学习脑电信号中的全局依赖关系,其利用多头注意力机制有效增强网络表达相关脑电信号特征的能力。之后利用时间卷积网络提取脑电信号可用的时间特征,最后将提取的抽象特征输入到分类模块进行分类。在公开数据集MODMA上用留出法和十折交叉验证法对提出模型进行实验验证,分别取得了约98.51%和98.53%的分类准确率,相较于基线单尺度模型EEGNet,分类准确率分别提升了约1.89%和1.93%,F1值分别提升了约2.05%和2.08%,kappa系数值分别提高了约0.038 1和0.038 5;同时消融实验验证了文中设计的各个模块的有效性。 展开更多
关键词 脑电信号 抑郁分类 深度学习 TRANSFORMER 时间卷积网络
下载PDF
利用Transformer的多模态目标跟踪算法
13
作者 刘万军 梁林林 曲海成 《计算机工程与应用》 CSCD 北大核心 2024年第11期84-94,共11页
目前目标跟踪方法大多通过融合不同模态信息进行定位决策,存在信息提取不充分、融合方法简单、弱光场景无法准确跟踪目标的问题。为此,提出一种基于Transformer的多模态目标跟踪算法(Trans-RGBT):利用伪孪生网络对可见光图像和红外图像... 目前目标跟踪方法大多通过融合不同模态信息进行定位决策,存在信息提取不充分、融合方法简单、弱光场景无法准确跟踪目标的问题。为此,提出一种基于Transformer的多模态目标跟踪算法(Trans-RGBT):利用伪孪生网络对可见光图像和红外图像分别进行特征提取,并在特征层面充分融合;将首帧目标信息调制到待跟踪帧的特征向量中,得到一个专用跟踪器;应用Transformer的方法对视野中的目标进行编解码,通过空间位置预测分支预测目标在视野中的空间位置,并结合历史信息滤除干扰目标,得到目标的准确位置;使用矩形框回归网络预测目标的外接矩形框,从而实现目标准确跟踪。在最新的大规模数据集VTUAV、RGBT234上进行了实验,与孪生网络(Siambased)、滤波(filter-based)算法相比,Trans-RGBT精度更高、鲁棒性更好、速度接近实时,达22 FPS。 展开更多
关键词 多模态融合 可见光图像 红外图像 TRANSFORMER 目标跟踪
下载PDF
基于SwinT-YOLOX模型的自动扶梯行人安全检测算法
14
作者 侯颖 杨林 +3 位作者 胡鑫 贺顺 宋婉莹 赵谦 《计算机工程》 CAS CSCD 北大核心 2024年第3期277-289,共13页
自动扶梯被广泛应用在公共场合,乘客摔倒事故如果不能被及时发现并处理,会造成严重的人身伤害,因此实现自动扶梯智能化监控管理势在必行。受自动扶梯运行环境复杂、行人多以及局部遮挡情况的影响,传统的人体姿态特征摔倒检测模型效果不... 自动扶梯被广泛应用在公共场合,乘客摔倒事故如果不能被及时发现并处理,会造成严重的人身伤害,因此实现自动扶梯智能化监控管理势在必行。受自动扶梯运行环境复杂、行人多以及局部遮挡情况的影响,传统的人体姿态特征摔倒检测模型效果不佳且检测速度减慢。融合Swin Transformer和YOLOX目标检测算法的优秀策略,提出一种基于SwinT-YOLOX网络模型的自动扶梯行人摔倒检测算法。采用Swin Transformer模型作为骨干网络,颈部网络使用添加注意力机制的YOLOX模型,进一步提升特征图的多样性和表达能力。此外,利用漏斗修正线性单元视觉激活函数构建CBF模块,改进颈部网络和Head网络结构,从而获得更优的特征检测性能。实验结果表明,针对自建扶梯行人摔倒数据库和网络采集实际扶梯行人摔倒事故,与AlphaPose、OpenPose、YOLOv5等算法相比,该算法检测性能明显提高,行人摔倒平均检测精度可以达到95.92%,检测帧率为24.08帧/s,能够快速、精准地检测到乘客摔倒事故发生,监控管理平台立刻采取安全急停措施以保证乘客安全。 展开更多
关键词 自动扶梯 摔倒检测 深度学习 YOLOX模型 Swin Transformer模型 漏斗修正线性单元视觉激活函数
下载PDF
HRformer:基于多级回归Transformer网络的红外小目标检测
15
作者 杜妮妮 单凯东 王建超 《红外技术》 CSCD 北大核心 2024年第2期199-207,共9页
红外小目标检测是指从低信噪比、复杂背景的红外图像中对小目标进行检测,在海上救援、交通管理等应用中具有重要实际意义。然而,由于图像分辨率低、目标尺寸小以及特征不突出等因素,导致红外目标很容易淹没在包含噪声和杂波的背景中,如... 红外小目标检测是指从低信噪比、复杂背景的红外图像中对小目标进行检测,在海上救援、交通管理等应用中具有重要实际意义。然而,由于图像分辨率低、目标尺寸小以及特征不突出等因素,导致红外目标很容易淹没在包含噪声和杂波的背景中,如何精确检测红外小目标的外形信息仍然是一个挑战。针对上述问题,构建了一种基于多级回归Transformer(HRformer)网络的红外小目标检测算法。具体来说,首先为了在获得多尺度信息的同时尽可能避免原始图像信息的损失,采用像素逆重组(PixelUnShuffle)操作对原始图像下采样来获取不同层级网络的输入,同时采用一种可学习的像素重组(PixelShuffle)操作对每一层级的输出特征图进行上采样,提升了网络的灵活性;接着,为实现网络中不同层级特征之间的信息交互,本文设计了一种包含空间注意力计算分支以及通道注意力计算分支在内的交叉注意力融合(cross attention fusion,CAF)模块实现特征高效融合以及信息互补;最后,为进一步提升网络的检测性能,结合普通Transformer结构具有较大感受野以及基于窗口的Transformer结构具有较少计算复杂度的优势,提出了一种局部-全局Transformer(LGT)结构,能够在提取局部上下文信息的同时对全局依赖关系进行建模,计算成本也得到节省。实验结果表明,与目前较为先进的一些红外小目标检测算法相比,本文所提出的算法具有更高的检测精度,同时具有较少的参数量,在解决实际问题中更有意义。 展开更多
关键词 红外图像 弱小目标检测 TRANSFORMER 图像分割
下载PDF
适用于不同款式的无监督服装动画预测
16
作者 石敏 禚心如 +2 位作者 孙碧莲 韩国庆 朱登明 《图学学报》 CSCD 北大核心 2024年第3期539-547,共9页
虚拟角色着装动画生成是三维动画的关键技术,着装变形作为其核心一直是该领域的研究热点。现有着装变形方法大多基于单一服装款式进行研究,一旦款式变化则需要重新训练,耗费时间和增加计算成本。同时现有方法大多基于有监督的方法进行... 虚拟角色着装动画生成是三维动画的关键技术,着装变形作为其核心一直是该领域的研究热点。现有着装变形方法大多基于单一服装款式进行研究,一旦款式变化则需要重新训练,耗费时间和增加计算成本。同时现有方法大多基于有监督的方法进行网络训练,需要大量的数据准备和训练成本。基于此,提出一种适用于不同款式的无监督着装动画生成方法。首先,提出一个可学习的款式特征表示方式,学习款式约束的运动隐空间概率分布模型;其次,基于编解码结构搭建款式约束的无监督服装变形预测网络,进一步引入Transformer编解码层对时序运动特征进行提取;最后,进行多款式动画生成实验,并与现有方法基于视觉效果和定量指标进行对比分析。实验结果表明,相较于现有方法,本文方法可以生成款式可调的、视觉合理的着装动画,在预测精度以及穿透损失等方面具有明显的优越性。 展开更多
关键词 着装动画 无监督 计算机图形学 服装变形 TRANSFORMER
下载PDF
CNN-Transformer结合对比学习的高光谱与LiDAR数据协同分类
17
作者 吴海滨 戴诗语 +2 位作者 王爱丽 岩堀祐之 于效宇 《光学精密工程》 EI CAS CSCD 北大核心 2024年第7期1087-1100,共14页
针对高光谱图像(hyperspectral images,HSI)与LiDAR数据多模态分类任务中的跨模态信息表达和特征对齐等问题,提出一种基于对比学习CNN-Transformer高光谱和LiDAR数据协同分类网络(Contrastive Learning based CNNTransformer Network,CL... 针对高光谱图像(hyperspectral images,HSI)与LiDAR数据多模态分类任务中的跨模态信息表达和特征对齐等问题,提出一种基于对比学习CNN-Transformer高光谱和LiDAR数据协同分类网络(Contrastive Learning based CNNTransformer Network,CLCT-Net)。CLCT-Net通过由ConvNeXt V2 Block构成的共有特征提取模块,获得不同模态间的共性特征,解决异构传感器数据之间语义对齐的问题。构建了包含空间-通道分支和光谱上下文分支的双分支HSI编码器,以及结合频域自注意力机制的LiDAR编码器,以获取更丰富的特征表示。利用集成对比学习进行分类,进一步提升多模态数据协同分类的精度。在Houston 2013和Trento数据集上的实验结果表明,相较于其他高光谱图像和Li‐DAR数据分类模型,本文所提模型获得了更高的地物分类精度,分别达到了92.01%和98.90%,实现了跨模态数据特征的深度挖掘和协同提取。 展开更多
关键词 高光谱图像 激光雷达数据 TRANSFORMER 卷积神经网络 对比学习
下载PDF
基于Transformer和CNN交错混合的肺结节分割网络
18
作者 吴骏 侯宪哲 +2 位作者 王健 肖志涛 王雯 《天津工业大学学报》 CAS 北大核心 2024年第1期74-81,共8页
针对肺结节尺寸多样、形状异质化高等问题,提出基于Transformer和卷积神经网络(CNN)交错混合(IMTC)的肺结节分割网络,该网络是一个对称的层次连接网络,具有很强的多尺度特征提取能力。该网络通过集成2种方案分别解决肺结节多尺寸与形状... 针对肺结节尺寸多样、形状异质化高等问题,提出基于Transformer和卷积神经网络(CNN)交错混合(IMTC)的肺结节分割网络,该网络是一个对称的层次连接网络,具有很强的多尺度特征提取能力。该网络通过集成2种方案分别解决肺结节多尺寸与形状异质化问题:(1)采用感知注意力模块(inception attention module,IAM),通过并联多个不同大小的卷积核来增加浅层网络的感受野组合,以此捕获更为丰富的浅层特征;(2)为获取更具表示能力的高级语义特征,利用由Transformer和CNN组成的基本骨干网络交错提取结节特征,使得全局特征与局部特征充分融合,从而提高结节特征表示的泛化能力和鲁棒性。实验结果表明:本文模型可以准确分割直径较小以及边缘复杂的肺结节,在LUNA16公开数据集上分割性能良好,Dice和IOU分别达到86.15%和76.10%。 展开更多
关键词 肺结节 TRANSFORMER 卷积神经网络(CNN) 感知注意力模块(IAM) 交错混合
下载PDF
基于改进的Transformer细粒度图像识别算法研究
19
作者 李冰锋 刘帅 杨艺 《电子测量技术》 北大核心 2024年第2期114-120,共7页
针对细粒度图像识别存在类间差异小、难以区分等问题,本文通过提升网络对图像细节特征的表达能力,来改善这一问题。为此,设计了一种基于改进的Transformer细粒度识别算法。首先,可变形卷积令牌嵌入通过自适应调整采样点的位置,来改变卷... 针对细粒度图像识别存在类间差异小、难以区分等问题,本文通过提升网络对图像细节特征的表达能力,来改善这一问题。为此,设计了一种基于改进的Transformer细粒度识别算法。首先,可变形卷积令牌嵌入通过自适应调整采样点的位置,来改变卷积操作范围及其卷积核的形状,从而增强网络模型对空间信息的感知能力,以获取更为精准的空间信息;其次,高效相关通道注意力机制通过对通道的自动选择,将通道注意力的计算从通道相邻转换成语义相似,来捕获语义相似的通道信息。而精准的空间信息和语义相似的通道信息将有效提升网络模型局部特征感知能力。实验结果表明,与基线算法相比,本文方法在CUB-200-2011、StanfordCars和StanfordDogs三个数据集上的识别结果分别提升了1.5%、2.4%、1.5%。结果表明,本文提出的方法通过提升细粒度图像细节特征的表达能力,从而有效提高了细粒度图像识别的有效性。 展开更多
关键词 细粒度图像识别 TRANSFORMER 可变形卷积
下载PDF
融合卷积注意力和Transformer架构的行人重识别方法
20
作者 王静 李沛橦 +2 位作者 赵容锋 张云 马振玲 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期466-476,共11页
行人重识别技术是智能安防系统中的重要方法之一,为构建一个适用各种复杂场景的行人重识别模型,基于现有的卷积神经网络和Transformer模型,提出一种融合卷积注意力和Transformer(FCAT)架构的方法,以增强Transformer对局部细节信息的关... 行人重识别技术是智能安防系统中的重要方法之一,为构建一个适用各种复杂场景的行人重识别模型,基于现有的卷积神经网络和Transformer模型,提出一种融合卷积注意力和Transformer(FCAT)架构的方法,以增强Transformer对局部细节信息的关注。所提方法主要将卷积空间注意力和通道注意力嵌入Transformer架构中,分别加强对图像中重要区域的关注和对重要通道特征的关注,以进一步提高Transformer架构对局部细节特征的提取能力。在3个公开行人重识别数据集上的对比消融实验证明,所提方法在非遮挡数据集上取得了与现有方法相当的结果,在遮挡数据集上的性能得到显著提升。所提方法更加轻量化,在不增加额外计算量和模型参数的情况下,推理速度得到了提升。 展开更多
关键词 行人重识别 深度学习 卷积神经网络 TRANSFORMER 注意力机制
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部