期刊文献+
共找到585,806篇文章
< 1 2 250 >
每页显示 20 50 100
基于特征融合Transformer的EfficientNet v2网络对马铃薯叶片病害的识别
1
作者 孙剑明 毕振宇 牛连丁 《江苏农业科学》 北大核心 2024年第8期166-176,共11页
马铃薯叶片病害是影响马铃薯质量和产量的主要因素,为了能够快速准确地识别马铃薯叶片病害并采取对应的防控和救治措施,本研究提出一种新型马铃薯叶片病害识别方法。该方法利用EfficientNet v2网络提取图像特征,通过4个不同尺度的网络... 马铃薯叶片病害是影响马铃薯质量和产量的主要因素,为了能够快速准确地识别马铃薯叶片病害并采取对应的防控和救治措施,本研究提出一种新型马铃薯叶片病害识别方法。该方法利用EfficientNet v2网络提取图像特征,通过4个不同尺度的网络层进行金字塔融合,从而捕捉不同尺度下的图像细节和上下文信息,并在金字塔融合中的每个下采样环节都添加1个CBAM注意力机制模块,且每个CBAM模块后都加入Vision Transformer的Encoder模块进行特征增强,帮助提升所提取特征的丰富性和抽象能力,最后使用softmax进行分类。研究提出的模型识别准确率达到98.26%,相比改进之前提升3.47百分点,且其loss收敛更快,宏平均值与加权平均值都有明显提升。消融试验表明,该模型在各项指标上的表现最优,超过基线模型和融合模型,大幅提高图像分类识别任务模型的性能表现。该方法可有效提高病害区域的识别能力和检测准确率,且能在强干扰的环境下做到高精度识别,具有良好的鲁棒性和适应性,同时能解决病害识别中泛化能力弱、精度低、计算效率低等问题。 展开更多
关键词 农业 马铃薯叶片病害 图像识别 卷积神经网络 特征融合 transformer模型
下载PDF
融合Transformer和卷积LSTM的轨迹分类网络
2
作者 夏英 陈航 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2024年第1期29-38,共10页
为了减少原始轨迹数据的噪声,充分提取轨迹的时空特征,提高基于轨迹数据的交通模式分类精度,提出一种融合堆叠降噪自编码器、Transformer和卷积长短期记忆网络的轨迹分类网络(networks fusing stacked denoising auto-encoder, Transfor... 为了减少原始轨迹数据的噪声,充分提取轨迹的时空特征,提高基于轨迹数据的交通模式分类精度,提出一种融合堆叠降噪自编码器、Transformer和卷积长短期记忆网络的轨迹分类网络(networks fusing stacked denoising auto-encoder, Transformer and ConvLSTM,SDAETC)。通过堆叠降噪自编码器减少原始轨迹数据中的噪声;利用结合了Transformer的递归图自编码器,提取到更为丰富的时间特征,同时利用特征图自编码器提取空间特征;改进卷积长短期记忆网络,充分提取轨迹中的时空特征,并与提取到的时间特征和空间特征相融合,从而实现交通模式分类。实验结果表明,提出的SDAETC与基线模型相比,在GeoLife和SHL数据集上的准确率分别提升了1.8%和2%。此外,消融实验结果和模型训练时间分析表明,引入堆叠降噪自编码器、Transfomer和ConvLSTM虽然增加了时间消耗,但是对分类精度有积极贡献。 展开更多
关键词 轨迹数据 交通方式分类 时空特征 堆叠降噪自编码器 transformer 卷积长短期记忆网络
下载PDF
融合Transformer和卷积的结直肠息肉分割算法
3
作者 刘宏滨 顾德 《中国医学物理学杂志》 CSCD 2024年第3期316-322,共7页
结直肠息肉大小不一、形态各异,特别是边界模糊导致难以准确定位,小尺寸息肉容易漏检,使得息肉分割存在较大的挑战。针对以上问题,提出一种融合Transformer和卷积的息肉分割算法。首先使用Transformer提取图像全局特征,保证网络全局建... 结直肠息肉大小不一、形态各异,特别是边界模糊导致难以准确定位,小尺寸息肉容易漏检,使得息肉分割存在较大的挑战。针对以上问题,提出一种融合Transformer和卷积的息肉分割算法。首先使用Transformer提取图像全局特征,保证网络全局建模的能力,提高息肉主体区域和模糊边界的定位能力。然后,引入卷积加强网络对息肉细节的处理能力,细化边界分割效果,提高小尺寸息肉捕获能力。最后,将Transformer和卷积提取的特征进行深度融合,实现特征互补。将该算法在CVC-ClinicDB和Kvasir-SEG数据集上进行实验,其相似性系数分别为95.4%和93.2%,平均交并比分别为91.3%和88.6%。进一步在CVC-ColonDB、CVC-T和ETIS数据集上测试泛化能力,其相似性系数分别为81.3%、90.9%和80.1%。结果表明,所提算法在息肉分割的准确度上有较大的提升。 展开更多
关键词 息肉分割 特征融合 transformer 卷积
下载PDF
融合Transformer与多阶段学习框架的点云上采样网络
4
作者 李泽锴 柏正尧 +2 位作者 肖霄 张奕涵 尤逸琳 《计算机科学》 CSCD 北大核心 2024年第6期231-238,共8页
借鉴Transformer在自然语言和计算机视觉领域强大的特征编码能力,同时受多阶段学习框架的启发,设计了一种融合Transformer与多阶段学习框架的点云上采样网络——MSPUiT。该网络采用二阶段网络模型,第一阶段是密集点生成网络,利用多层Tra... 借鉴Transformer在自然语言和计算机视觉领域强大的特征编码能力,同时受多阶段学习框架的启发,设计了一种融合Transformer与多阶段学习框架的点云上采样网络——MSPUiT。该网络采用二阶段网络模型,第一阶段是密集点生成网络,利用多层Transformer编码器逐步实现从输入点云的局部几何信息、局部特征信息到点云高级语义特征的转换,特征扩充模块在特征空间中,对点云特征上采样,坐标回归模块将点云从特征空间重新映射回欧氏空间中初步生成密集点云M′;第二阶段是逐点优化网络,使用Transformer编码器对密集点云M′中潜藏的语义特征进行编码,联合上一阶段语义特征得到点云完整的语义特征,特征精炼单元从M′的几何信息和语义特征中提取点的误差信息特征,误差回归模块从误差信息特征中计算得到欧氏空间中点的坐标偏移量,实现对点云M′的逐点优化,使得点云上点的分布更加均匀,并且更加贴近真实物体表面。在大型合成数据集PU1K上进行了大量实验,MSPUiT生成的高分辨率点云在倒角距离(CD)、豪斯多夫距离(HD)、生成点云到原始点云块的距离(P2F)上的指标分别降至0.501×10^(-3),5.958×10^(-3),1.756×10^(-3)。实验结果表明,MSPUiT上采样后的点云表面更加光滑,噪声点更少,生成的点云质量高于当前主流的点云上采样网络。 展开更多
关键词 transformer编码器 多阶段学习框架 特征转换 点云上采样 深度学习
下载PDF
基于DRSN融合Transformer编码器的轴承故障诊断方法研究
5
作者 陈松 陈文华 张文广 《自动化与仪表》 2024年第5期103-108,共6页
针对轴承故障在复杂工况环境中诊断准确率低和泛化性能弱的问题,提出了一种基于深度残差收缩网络(deep residual shrinkage network,DRSN)融合Transformer编码器的轴承故障诊断方法。首先,采用DRSN通过软阈值模块自动去掉振动信号中的... 针对轴承故障在复杂工况环境中诊断准确率低和泛化性能弱的问题,提出了一种基于深度残差收缩网络(deep residual shrinkage network,DRSN)融合Transformer编码器的轴承故障诊断方法。首先,采用DRSN通过软阈值模块自动去掉振动信号中的噪声信息,并使用注意力机制增强提取到的特征;然后,采用Transformer编码器来进一步解决振动信号中的长期依赖性问题;最后,利用Softmax函数实现多故障模式识别。在凯斯西储大学轴承数据集上通过不同噪声等级对提出的模型进行测试,实验结果表明,该方法实现了对轴承故障分类,强噪声环境下准确率更高,训练时间更快。 展开更多
关键词 故障诊断 轴承 深度残差收缩网络 transformer编码器
下载PDF
基于U-Net融合Transformer的肺结节分割方法研究
6
作者 李晓东 丁鹏 《中国医疗设备》 2024年第5期31-36,98,共7页
目的提出肺结节分割模型,实现肺结节分割。方法在U-Net神经网络中加入编码器、空洞卷积以及Swin Transformer模块,提出一个将空洞卷积、编码器和注意力机制相结合的模型,并在LUNA16公共数据集上验证模型性能。结果改进的模型在LUNA16公... 目的提出肺结节分割模型,实现肺结节分割。方法在U-Net神经网络中加入编码器、空洞卷积以及Swin Transformer模块,提出一个将空洞卷积、编码器和注意力机制相结合的模型,并在LUNA16公共数据集上验证模型性能。结果改进的模型在LUNA16公共数据集上进行肺结节分割的准确度(Accuracy,ACC)、特异性(Specificity,SP)、交并比(Intersection Over Union,IOU)和Dice系数(Dice Similarity Coefficient,DSC)分别为0.9651、0.9572、0.8354、0.8971。结论该分割模型在ACC、SP、IOU和DSC方面表现优异,可辅助医生诊断,在临床肺结节分割方面具有一定的参考价值。 展开更多
关键词 肺结节 肺结节分割 U-Net神经网络 Swin transformer模块
下载PDF
融合Transformer和语义图卷积的三维人体姿态估计方法
7
作者 李功浩 贾振堂 《国外电子测量技术》 2024年第3期10-17,共8页
为了进一步提升从单目二维人体姿态预测三维人体姿态的方法性能,提出一种融合Transformer和语义图卷积的三维人体姿态估计模型,模型由4个部分组成,Transformer编码网络、语义图卷积编码网络、姿态坐标预测模块和姿态坐标错误回归模块。... 为了进一步提升从单目二维人体姿态预测三维人体姿态的方法性能,提出一种融合Transformer和语义图卷积的三维人体姿态估计模型,模型由4个部分组成,Transformer编码网络、语义图卷积编码网络、姿态坐标预测模块和姿态坐标错误回归模块。首先,Transformer编码网络对关节特征进行全局特征编码,以增强人体姿态的全局关联性。其次,语义图卷积编码网络专注于局部关节特征提取,以加强局部关节特征之间的关联性。接下来,姿态坐标预测模块和姿态坐标错误回归模块将关节全局和局部编码特征融合,以增强对三维姿态的准确建模能力。通过在Human3.6M数据集上进行实验表明,方法在估计性能方面取得了较好的改进,以真实的二维人体姿态作为输入,在MPJPE和PA-MPJPE值分别为32.7和25.9 mm,与实验对照方法相比,性能分别提升了3.82%和1.14%。 展开更多
关键词 三维人体姿态 语义图卷积 transformer
下载PDF
融合Transformer与残差通道注意力的恶劣场景水位智能检测方法 被引量:3
8
作者 李欣宇 孙传猛 +3 位作者 魏宇 原玥 武志博 李勇 《电子测量与仪器学报》 CSCD 北大核心 2023年第1期59-69,共11页
精准感知水位信息变化是实现精细水务管控和洪涝灾害的关键环节之一,而低照度、雾霾、雨雪、冰冻、波浪、镜头抖动等恶劣场景给水位检测带来极大挑战。针对现有方法中难以实现水位精准检测难题,构建一种融合Transformer与残差通道注意... 精准感知水位信息变化是实现精细水务管控和洪涝灾害的关键环节之一,而低照度、雾霾、雨雪、冰冻、波浪、镜头抖动等恶劣场景给水位检测带来极大挑战。针对现有方法中难以实现水位精准检测难题,构建一种融合Transformer与残差通道注意力机制的Unet模型(TRCAM-Unet),进而提出基于TRCAM-Unet的恶劣场景水位智能检测方法。关键技术包括通过全尺度连接结构实现多层次特征融合,通过Transformer模块强化区域特征的关联性,通过残差通道注意力模块强化有用信息的表达并削弱无用信息的干扰。相关试验和实践表明,TRCAM-Unet取得了98.84%MIOU评分与99.42%的MPA评分,在约150 m距离外水位检测最大误差不超过0.08 m,水位偏差均值(MLD)仅有1.609×10^(-2)m,优于Deeplab、PSPNet等主流语义分割算法。研究结果对解决恶劣场景下水位精准检测难题及洪涝灾害预警具有重要应用价值。 展开更多
关键词 水位检测 深度学习 语义分割 transformer 注意力机制
下载PDF
融合Transformer和改进PANet的YOLOv5s交通标志检测 被引量:7
9
作者 张倩 刘紫燕 +2 位作者 陈运雷 吴应雨 郑旭晖 《传感技术学报》 CAS CSCD 北大核心 2023年第2期232-241,共10页
针对交通标志检测速度慢和目标大小与类别极度不平衡等问题,提出一种融合Transformer和改进PANet网络的YOLOv5s交通标志检测算法。首先在不增加模型复杂度的前提下,将主干网络末端与Transformer融合以提高网络特征提取能力;其次由于所... 针对交通标志检测速度慢和目标大小与类别极度不平衡等问题,提出一种融合Transformer和改进PANet网络的YOLOv5s交通标志检测算法。首先在不增加模型复杂度的前提下,将主干网络末端与Transformer融合以提高网络特征提取能力;其次由于所采用交通标志数据集的目标尺度太小,导致网络32倍大尺度检测层检测效果不佳,故不采用相关网络层,同时采用K-means算法得出适合的预测候选框;然后改进损失函数以解决正负样本极度不平衡问题。最后将所提出的改进算法在Jetson AGX Xavier平台上部署验证。实验结果表明,所提算法检测性能更佳,其准确率和召回率在原网络的基础上分别提高了2.2%和0.7%,模型参数量和计算复杂度分别减少了25.8%和10.1%。在Xavier上的检测速度达到76FPS,满足实时交通标志检测的要求且易于在实际场景部署。 展开更多
关键词 交通标志检测 Jetson AGX Xavier transformer PANet YOLOv5s
下载PDF
基于局部特征融合Transformer的牛身识别算法
10
作者 刘浩 沈雷 +1 位作者 牟家乐 郑鹏 《杭州电子科技大学学报(自然科学版)》 2023年第1期49-55,共7页
目前,牛身识别技术大多采用卷积神经网络(Convolutional Neural Networks,CNN),CNN只能处理局部邻域信息,容易丢失细节信息。为此,提出一种基于局部特征融合Transformer的牛身识别算法。首先,运用卷积将相邻空间内的牛身局部信息进行融... 目前,牛身识别技术大多采用卷积神经网络(Convolutional Neural Networks,CNN),CNN只能处理局部邻域信息,容易丢失细节信息。为此,提出一种基于局部特征融合Transformer的牛身识别算法。首先,运用卷积将相邻空间内的牛身局部信息进行融合,增强融合后局部特征信息在不同姿态下的辨别力和鲁棒性;其次,将融合后的局部信息和全局分类信息通过数个多层感知机模块进行分类训练,损失函数采用三元组和标签平滑交叉熵损失,有效提高了牛只多姿态场景下特征的提取。仿真实验结果表明,在复杂场景下,与基于CNN的牛身识别算法相比,提出的算法有效降低了拒识率,提高了Top1排序性能和AUC值。 展开更多
关键词 牛身识别 空间融合 卷积块 transformer
下载PDF
融合Transformer的带钢缺陷实时检测算法 被引量:1
11
作者 张涛源 谢新林 +1 位作者 谢刚 张林 《计算机工程与应用》 CSCD 北大核心 2023年第16期232-239,共8页
在带钢的生产过程中通常会产生影响产品质量的表面缺陷。针对带钢表面缺陷检测效率低以及小目标缺陷检测精度差的问题,提出一种融合Transformer的带钢缺陷实时检测算法TRSD-YOLO(Transformer real-time strip steel defects detection-Y... 在带钢的生产过程中通常会产生影响产品质量的表面缺陷。针对带钢表面缺陷检测效率低以及小目标缺陷检测精度差的问题,提出一种融合Transformer的带钢缺陷实时检测算法TRSD-YOLO(Transformer real-time strip steel defects detection-YOLO)。设计一种结合Transformer自注意力机制的特征提取模块BottleNeckCSPTR,通过自注意力的增强来提升模块对小目标缺陷信息的获取能力;运用BottleNeckCSPTR模块构建新的主干特征提取网络CSPDarknetTR,并将动态激活函数Meta-ACON与主干网络相融合,进一步强化网络对缺陷特征的表示能力;提出一种轻量级双向加权特征金字塔结构BiFPN-Light作为融合多尺度特征的方式,提高网络对小尺寸缺陷的检测精度。实验结果表明,提出的算法在NEU-DET数据集上mAP达到了82.2%,较原有的YOLOv4算法提高了5.3个百分点;同时检测速度达到31.3 FPS,可匹配工业场景的需求。 展开更多
关键词 带钢缺陷检测 YOLOv4 transformer 双向特征金字塔(BiFPN)
下载PDF
融合Transformer和VGG网络的高光谱图像分类
12
作者 张明慧 周浩 王先旺 《传感器与微系统》 CSCD 北大核心 2023年第12期142-145,150,共5页
在高光谱图像(HSI)光谱数据中,相邻波段间信息的相关性对光谱特征近似的不同地物的分析具有重要意义。然而在传统卷积神经网络(CNN)的HSI光谱数据处理方法中,所提取的特征忽略了不同波段间信息的关联性。提出了一种融合Transformer和VG... 在高光谱图像(HSI)光谱数据中,相邻波段间信息的相关性对光谱特征近似的不同地物的分析具有重要意义。然而在传统卷积神经网络(CNN)的HSI光谱数据处理方法中,所提取的特征忽略了不同波段间信息的关联性。提出了一种融合Transformer和VGG网络的高光谱图像分类方法(SST_Like)。采用3D卷积核的VGG网络提取空间光谱特征,基于多头自注意力(MSA)机制的Transformer网络提取连续光谱间信息,形成空谱联合特征,最终通过多层感知机(MLP)完成地物分类任务。本文提出的SST_Like网络模型在3个HSI开放数据集上的实验结果表明,与传统基于CNN的HSI分类算法相比,可以提取更加深层的、判别性的特征,具有较高的分类性能。 展开更多
关键词 VGG网络 高光谱图像分类 transformer 空谱联合特征提取
下载PDF
融合Transformer和CNN的手掌静脉识别网络 被引量:1
13
作者 吴凯 沈文忠 +1 位作者 贾丁丁 梁娟 《计算机工程与应用》 CSCD 北大核心 2023年第24期98-109,共12页
针对手掌静脉特征提取识别精度不高问题,提出了掌静脉识别网络PVCodeNet。该网络设计了改进的BasicBlock和Transformer Encoder模块结合并运用扩大决策边界的损失函数AAM-Loss(additive angular margin loss)。该网络首次将Transformer ... 针对手掌静脉特征提取识别精度不高问题,提出了掌静脉识别网络PVCodeNet。该网络设计了改进的BasicBlock和Transformer Encoder模块结合并运用扩大决策边界的损失函数AAM-Loss(additive angular margin loss)。该网络首次将Transformer Encoder模块成功用于掌静脉图像全局特征提取,改进的BasicBlock使用深度超参数化卷积Do-Conv取代传统卷积Conv进行特征提取使提取的特征更加具有区分性,该模块还加入规一化的注意力机制NAM模块,通过应用权重稀疏性惩罚项抑制不显著性特征的权值来提取图像在通道和空间域上重要的细节特征。在手掌关键点定位、ROI提取、图像增强方面作了详细描述,在特征向量维度、AAM-Loss参数设置方面做了详细实验,在PolyU数据库和自建库SEPAD-PV数据库上进行消融实验测试,EER均达到了0,成功实现了最高识别率的突破。为了验证该网络的泛化性能,还在具有相似纹理特征的掌纹数据库Tongji和指静脉数据库SDUMLA上进行验证,EER远远优于其他主流算法,充分证明了提出算法的优越性。 展开更多
关键词 手掌静脉识别 transformer编码模块 深度超参数化卷积(Do-Conv) 规一化注意力机制(NAM) 扩大决策边界的损失函数(AAM-Loss)
下载PDF
基于时域融合Transformers的可解释预测模型及其应用研究 被引量:1
14
作者 陈孝文 苏攀 +2 位作者 李夏青 张俊 王林 《武汉理工大学学报(信息与管理工程版)》 2022年第2期307-313,共7页
为提高时间序列模型预测的准确性及可解释能力,提出了变分模态分解(variational mode decomposition,VMD)和时域融合变换器(temporal fusion transformers,TFT)相结合的高效可解释预测模型,通过VMD将原始数据分解为多个模态,充分挖掘原... 为提高时间序列模型预测的准确性及可解释能力,提出了变分模态分解(variational mode decomposition,VMD)和时域融合变换器(temporal fusion transformers,TFT)相结合的高效可解释预测模型,通过VMD将原始数据分解为多个模态,充分挖掘原始数据特征,将分解结果输入到TFT预测模型中,得出可解释性的预测结果。TFT是一种新的基于注意力的深度学习模型,将高性能的多水平预测和对时间动态的可解释见解结合在一起。以白卡纸价格为研究对象,证明了所设计模型的有效性。TFT的可解释输出包括分解的白卡纸价格子序列的重要性排序,所提出的白卡纸的可解释预测方法可为从业者的相关决策提供有力的支撑。 展开更多
关键词 时间序列预测 可解释神经网络 时域融合transformers 白卡纸价格 变分模态分解 深度学习
下载PDF
浅层卷积神经网络融合Transformer的金属缺陷图像识别方法 被引量:6
15
作者 唐东林 杨洲 +3 位作者 程衡 刘铭璇 周立 丁超 《中国机械工程》 EI CAS CSCD 北大核心 2022年第19期2298-2305,2316,共9页
针对金属缺陷识别领域中传统深度学习方法存在参数量多、计算量大的问题,提出了一种浅层卷积神经网络融合Transformer模型的金属缺陷识别方法。利用浅层卷积神经网络学习图像局部信息与位置信息,通过Transformer学习图像全局信息,同时... 针对金属缺陷识别领域中传统深度学习方法存在参数量多、计算量大的问题,提出了一种浅层卷积神经网络融合Transformer模型的金属缺陷识别方法。利用浅层卷积神经网络学习图像局部信息与位置信息,通过Transformer学习图像全局信息,同时引入通道注意力模块SE关注重要特征通道,实现缺陷图像识别。通过引入公开缺陷数据集验证该方法的有效性,同时利用自建缺陷超声数据集验证所提方法的通用性。实验结果表明,在中小规模数据集上,该方法通用性较强,能够对金属缺陷图像进行有效识别。 展开更多
关键词 金属缺陷识别 深度学习 卷积神经网络 transformer模型 多头注意力
下载PDF
融合Transformer结构的高分辨率遥感影像变化检测网络 被引量:2
16
作者 冯炜明 张新长 +3 位作者 孙颖 姜明 甘巧 侯幸幸 《测绘通报》 CSCD 北大核心 2022年第8期36-40,92,共6页
为解决遥感影像变化检测全局上下文信息捕获的问题,本文提出了基于孪生结构、跳跃连接结构及Transformer结构的TSU-Net。该模型编码器采用混合CNN-Transformers结构,借助自注意力机制捕获遥感影像的全局上下文信息,增强了模型对于像素... 为解决遥感影像变化检测全局上下文信息捕获的问题,本文提出了基于孪生结构、跳跃连接结构及Transformer结构的TSU-Net。该模型编码器采用混合CNN-Transformers结构,借助自注意力机制捕获遥感影像的全局上下文信息,增强了模型对于像素级遥感影像变化检测任务的长距离上下文建模能力。该模型在LEVIR-CD数据集和CDD数据集进行测试,F1得分分别为90.73和93.14,优于各对比模型。 展开更多
关键词 深度学习 遥感影像变化检测 transformer TSU-Net
下载PDF
一种融合Transformer和CNN的印刷体数学表达式图像识别方法
17
作者 尹锋 朱跃生 周昭坤 《电子技术与软件工程》 2022年第4期191-195,共5页
本文提出了一种基于深度学习的端到端PMER方法TrCPMER(Transformer-CNNPMER),该方法融合Transformer和CNN的特点,首先使用CNN提取图像特征并生成特征图,然后使用Transformer编码器对特征图进行编码,最后使用标准的Transformer解码器生成... 本文提出了一种基于深度学习的端到端PMER方法TrCPMER(Transformer-CNNPMER),该方法融合Transformer和CNN的特点,首先使用CNN提取图像特征并生成特征图,然后使用Transformer编码器对特征图进行编码,最后使用标准的Transformer解码器生成LaTeX字符序列。该TrCPMER方法简单且有效,不仅可以捕获图像的局部特征和全局特征,而且提升了模型的训练效率和识别准确率。与现有的方法的对比实验结果表明,我们的方法在识别性能的评价指标BLEU、Edit Distance和Match上分别达到了90.40%、96.18%和86.56%,相应提升了3.04%、9.79%和11.75%。 展开更多
关键词 数学表达式识别 注意力机制 transformer CNN RNN
下载PDF
CNN-Transformer特征融合多目标跟踪算法
18
作者 张英俊 白小辉 谢斌红 《计算机工程与应用》 CSCD 北大核心 2024年第2期180-190,共11页
在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特... 在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特征提取和融合的多目标跟踪算法CTMOT(CNN-transformer multi-object tracking)。使用基于CNN和Transformer双分支并行的主干网络分别提取图像的局部和全局特征。使用双向桥接模块(two-way braidge module,TBM)对两种特征进行充分融合。将融合后的特征输入两组并行的解码器进行处理。将解码器输出的检测框和跟踪框进行匹配,完成多目标跟踪任务。在多目标跟踪数据集MOT17、MOT20、KITTI以及UADETRAC上进行评估,CTMOT算法的MOTP和IDs指标在四个数据集上均达到了SOTA效果,MOTA指标分别达到了76.4%、66.3%、92.36%和88.57%,在MOT数据集上与SOTA方法效果相当,在KITTI数据集上达到SOTA效果。由于同时完成目标检测和关联,能够端到端进行目标跟踪,跟踪速度可达35 FPS,表明CTMOT算法在跟踪的实时性和准确性上达到了较好的平衡,具有较大潜力。 展开更多
关键词 多目标跟踪 transformer 特征融合
下载PDF
基于Transformer网络多模态融合的密集视频描述方法
19
作者 李想 桑海峰 《系统仿真学报》 CAS CSCD 北大核心 2024年第5期1061-1071,共11页
针对目前的密集视频描述模型大多使用两阶段的方法存在效率较低、忽略音频及语义信息,描述结果不全面的问题。提出了一种基于Transformer网络多模态和语义信息融合的密集视频描述方法。提取自适应R(2+1)D网络提取视觉特征,设计了语义探... 针对目前的密集视频描述模型大多使用两阶段的方法存在效率较低、忽略音频及语义信息,描述结果不全面的问题。提出了一种基于Transformer网络多模态和语义信息融合的密集视频描述方法。提取自适应R(2+1)D网络提取视觉特征,设计了语义探测器生成语义信息,加入音频特征进行补充,建立了多尺度可变形注意力模块,应用并行的预测头,加快模型收敛速度,提高模型精度。实验结果表明:模型在2个基准数据集上性能均有很好的表现,评价指标BLEU4上达到了2.17。 展开更多
关键词 密集事件描述 transformer网络 语义信息 多模态融合 可变形注意力
下载PDF
基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法
20
作者 田子建 吴佳奇 +4 位作者 张文琪 陈伟 周涛 杨伟 王帅 《煤炭科学技术》 EI CAS CSCD 北大核心 2024年第1期297-310,共14页
高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低... 高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法。基于生成对抗思想搭建生成对抗式主体模型框架,使用目标图像域而非单一参考图像驱动判别器监督生成器的训练,实现对低照度图像的充分增强;基于特征表示学习理论搭建特征编码器,将图像解耦为亮度分量和反射分量,避免图像增强过程中亮度与颜色特征相互影响从而导致颜色失真问题;设计CEM-Transformer Encoder通过捕获全局上下文关系和提取局部区域特征,能够充分提升整体图像亮度并消除局部区域照度不均;在反射分量增强过程中,使用结合CEM-Cross-Transformer Encoder的跳跃连接将低级特征与深层网络处特征进行自适应融合,能够有效避免细节特征丢失,并在编码网络中添加ECA-Net,提高浅层网络的特征提取效率。制作矿井低照度图像数据集为矿井低照度图像增强任务提供数据资源。试验显示,在矿井低照度图像数据集和公共数据集中,与5种先进的低照度图像增强算法相比,该算法增强图像的质量指标PSNR、SSIM、VIF平均提高了16.564%,10.998%,16.226%和14.438%,10.888%,14.948%,证明该算法能够有效提升整体图像亮度,消除照度不均,避免颜色失真和细节丢失,实现矿井低照度图像增强。 展开更多
关键词 图像增强 图像识别 生成对抗网络 特征解耦 transformer
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部