期刊文献+
共找到418,775篇文章
< 1 2 250 >
每页显示 20 50 100
基于Depth-wise卷积和视觉Transformer的图像分类模型 被引量:3
1
作者 张峰 黄仕鑫 +1 位作者 花强 董春茹 《计算机科学》 CSCD 北大核心 2024年第2期196-204,共9页
图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关... 图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关系进行建模,一些研究者将Transformer应用于图像分类任务,但为了满足Transformer的序列化和并行化要求,需要将图像分割成大小相等、互不重叠的图像块,破坏了相邻图像数据块之间的局部信息。此外,由于Transformer具有较少的先验知识,模型往往需要在大规模数据集上进行预训练,因此计算复杂度较高。为了同时建模图像相邻块之间的局部信息并充分利用图像的全局信息,提出了一种基于Depth-wise卷积的视觉Transformer(Efficient Pyramid Vision Transformer,EPVT)模型。EPVT模型可以实现以较低的计算成本提取相邻图像块之间的局部和全局信息。EPVT模型主要包含3个关键组件:局部感知模块(Local Perceptron Module,LPM)、空间信息融合模块(Spatial Information Fusion,SIF)和“+卷积前馈神经网络(Convolution Feed-forward Network,CFFN)。LPM模块用于捕获图像的局部相关性;SIF模块用于融合相邻图像块之间的局部信息,并利用不同图像块之间的远距离依赖关系,提升模型的特征表达能力,使模型学习到输出特征在不同维度下的语义信息;CFFN模块用于编码位置信息和重塑张量。在图像分类数据集ImageNet-1K上,所提模型优于现有的同等规模的视觉Transformer分类模型,取得了82.6%的分类准确度,证明了该模型在大规模数据集上具有竞争力。 展开更多
关键词 深度学习 图像分类 depth-wise卷积 视觉transformer 注意力机制
下载PDF
FMA-DETR:一种无编码器的Transformer目标检测方法 被引量:1
2
作者 周全 倪英豪 +2 位作者 莫玉玮 康彬 张索非 《信号处理》 CSCD 北大核心 2024年第6期1160-1170,共11页
DETR是第一个将Transformer应用于目标检测的视觉模型。在DETR结构中,Transformer编码器对已高度编码的图像特征进行再编码,这在一定程度上导致了网络功能的重复。此外,由于Transformer编码器具有多层深度堆叠的结构和巨大的参数量,导... DETR是第一个将Transformer应用于目标检测的视觉模型。在DETR结构中,Transformer编码器对已高度编码的图像特征进行再编码,这在一定程度上导致了网络功能的重复。此外,由于Transformer编码器具有多层深度堆叠的结构和巨大的参数量,导致网络优化变得困难,模型收敛速度缓慢。本文设计了一种无编码器的Transformer目标检测网络模型。由于不需要引入Transformer编码器,本文的模型比DETR参数量更小、计算量更低、模型收敛速度更快。但是,直接去除Transformer编码器将降低网络的表达能力,导致Transformer解码器无法从数量庞大的图像特征中关注到包含目标的图像特征,从而使检测性能大幅降低。为了缓解这个问题,本文提出了一种混合特征注意力(fusion-feature mixing attention,FMA)机制,它通过自适应特征混合和通道交叉注意力弥补检测网络特征表达能力的下降,将其应用于Transformer解码器可以减轻由于去除Transformer编码器带来的性能降低。在MS-COCO数据集上,本文网络模型(称为FMA-DETR)实现了与DETR相近的性能表现,同时本文的模型拥有更快的收敛速度、更小的参数量以及更低的计算量。本文还进行了大量消融实验来验证所提出方法的有效性。 展开更多
关键词 目标检测 transformer 编码器 dETR 混合注意力
下载PDF
基于Transformer和动态3D卷积的多源遥感图像分类 被引量:1
3
作者 高峰 孟德森 +2 位作者 解正源 亓林 董军宇 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期606-614,共9页
多源遥感数据具有互补性和协同性,近年来,基于深度学习的方法已经在多源遥感图像分类中取得了一定进展,但当前方法仍面临关键难题,如多源遥感图像特征表达不一致,融合困难,基于静态推理范式的神经网络缺乏对不同类别地物的适应性。为解... 多源遥感数据具有互补性和协同性,近年来,基于深度学习的方法已经在多源遥感图像分类中取得了一定进展,但当前方法仍面临关键难题,如多源遥感图像特征表达不一致,融合困难,基于静态推理范式的神经网络缺乏对不同类别地物的适应性。为解决上述问题,提出了基于跨模态Transformer和多尺度动态3D卷积的多源遥感图像分类模型。为提高多源特征表达的一致性,设计了基于Transformer的融合模块,借助其强大的注意力建模能力挖掘高光谱和LiDAR数据特征之间的相互作用;为提高特征提取方法对不同地物类别的适应性,设计了多尺度动态3D卷积模块,将输入特征的多尺度信息融入卷积核的调制,提高卷积操作对不同地物的适应性。采用多源遥感数据集Houston和Trento对所提方法进行验证,实验结果表明:所提方法在Houston和Trento数据集上总体准确率分别达到94.60%和98.21%,相比MGA-MFN等主流方法,总体准确率分别至少提升0.97%和0.25%,验证了所提方法可有效提升多源遥感图像分类的准确率。 展开更多
关键词 高光谱图像 激光雷达 transformer 多源特征融合 动态卷积
下载PDF
基于Contextual Transformer的自动驾驶单目3D目标检测
4
作者 厍向阳 颜唯佳 董立红 《计算机工程与应用》 CSCD 北大核心 2024年第19期178-189,共12页
针对当前单目3D目标检测中存在的漏检和多尺度目标检测效果不佳的问题,提出了一种基于Contextual Transformer的自动驾驶单目3D目标检测算法(CM-RTM3D)。在ResNet-50网络中引入Contextual Transformer(CoT),构建ResNet-Transformer架构... 针对当前单目3D目标检测中存在的漏检和多尺度目标检测效果不佳的问题,提出了一种基于Contextual Transformer的自动驾驶单目3D目标检测算法(CM-RTM3D)。在ResNet-50网络中引入Contextual Transformer(CoT),构建ResNet-Transformer架构以提取特征。设计多尺度空间感知模块(MSP),通过尺度空间响应操作改善浅层特征的丢失情况,嵌入沿水平和竖直两个空间方向的坐标注意力机制(CA),使用softmax函数生成各尺度的重要性软权重。在偏移损失中采用Huber损失函数代替L1损失函数。实验结果表明:在KITTI自动驾驶数据集上,相较于RTM3D算法,该算法在简单、中等、困难三个难度级别下,AP3D分别提升了4.84、3.82、5.36个百分点,APBEV分别提升了4.75、6.26、3.56个百分点。 展开更多
关键词 自动驾驶 单目3d目标检测 Contextual transformer 多尺度感知 坐标注意力机制
下载PDF
基于Transformer改进的YOLOv5+DeepSORT的车辆跟踪算法
5
作者 何水龙 张靖佳 +1 位作者 张林俊 莫德赟 《汽车技术》 CSCD 北大核心 2024年第7期9-16,共8页
针对传统目标检测跟踪算法检测精度低、全局感知能力差、对遮挡和小目标物体的识别能力差等问题,提出了一种基于轻量化Transformer改进的YOLOv5和DeepSORT算法的车辆跟踪方法。首先,利用EfficientFormerV2模型改进YOLOv5算法模型,增强... 针对传统目标检测跟踪算法检测精度低、全局感知能力差、对遮挡和小目标物体的识别能力差等问题,提出了一种基于轻量化Transformer改进的YOLOv5和DeepSORT算法的车辆跟踪方法。首先,利用EfficientFormerV2模型改进YOLOv5算法模型,增强车辆的目标检测能力;然后,利用移位窗口(Swin)模型的优点改进DeepSORT多目标跟踪算法中的重识别(Re-Identification)模块,提高车辆的跟踪能力和精度;最后,通过数据集KITTI和VeRi开展对比试验和消融实验。结果表明,在复杂工况下,该方法的性能在车辆遮挡和小目标识别方面显著提高,平均准确度达到96.7%,目标跟踪准确度提高了9.547%,编号(ID)切换总次数减少了26.4%。 展开更多
关键词 YOLOv5 车辆检测 deepSORT transformer
下载PDF
Dual-Path Vision Transformer用于急性缺血性脑卒中辅助诊断
6
作者 张桃红 郭学强 +4 位作者 郑瀚 罗继昌 王韬 焦力群 唐安莹 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期307-314,共8页
急性缺血性脑卒中是由于脑组织血液供应障碍导致的脑功能障碍,数字减影脑血管造影(DSA)是诊断脑血管疾病的金标准。基于患者的正面和侧面DSA图像,对急性缺血性脑卒中的治疗效果进行分级评估,构建基于Vision Transformer的双路径图像分... 急性缺血性脑卒中是由于脑组织血液供应障碍导致的脑功能障碍,数字减影脑血管造影(DSA)是诊断脑血管疾病的金标准。基于患者的正面和侧面DSA图像,对急性缺血性脑卒中的治疗效果进行分级评估,构建基于Vision Transformer的双路径图像分类智能模型DPVF。为了提高辅助诊断速度,基于EdgeViT的轻量化设计思想进行了模型的构建;为了使模型保持轻量化的同时具有较高的精度,提出空间-通道自注意力模块,促进Transformer模型捕获更全面的特征信息,提高模型的表达能力;此外,对于DPVF的两分支的特征融合,构建交叉注意力模块对两分支输出进行交叉融合,促使模型提取更丰富的特征,从而提高模型表现。实验结果显示DPVF在测试集上的准确率达98.5%,满足实际需求。 展开更多
关键词 急性缺血性脑卒中 视觉transformer 双分支网络 特征融合
下载PDF
SVMD-PE-BP-Transformer短期光伏功率预测
7
作者 王瑞 靳鑫鑫 逯静 《电网与清洁能源》 CSCD 北大核心 2024年第8期141-150,共10页
考虑到光伏功率受气象因素变化影响而波动性大难以预测的问题,将逐次变分模态分解SVMD-排列熵PE与BPTransformer相结合,给出了一种组合预测方法,以下简称SPBT模型。在去除非相关因子的基础上,利用SOM聚类方法,对全年光伏数据进行3种类... 考虑到光伏功率受气象因素变化影响而波动性大难以预测的问题,将逐次变分模态分解SVMD-排列熵PE与BPTransformer相结合,给出了一种组合预测方法,以下简称SPBT模型。在去除非相关因子的基础上,利用SOM聚类方法,对全年光伏数据进行3种类型的分类;针对光伏发电初始时序中所蕴含的重要信息,利用SVMD自适应K值的方法,对其进行分解。再利用PE方法计算各个子序列的熵值,即序列的起伏复杂程度,根据熵的大小,对频率接近的成分进行重构,将其分为两个区间:复杂度低的部分和复杂度高的部分。最后利用BP网络与Transformer分别对其进行预测,并对预测输出进行综合处理。该文以江苏省一光伏电站观测的气象与功率数据为例,通过比较试验验证了该模型的优势,该模型具有较低的预测误差,有助于提高预测精度。 展开更多
关键词 逐次变分模态分解 排列熵 transformer 功率预测
下载PDF
CNN-Transformer结合对比学习的高光谱与LiDAR数据协同分类
8
作者 吴海滨 戴诗语 +2 位作者 王爱丽 岩堀祐之 于效宇 《光学精密工程》 EI CAS CSCD 北大核心 2024年第7期1087-1100,共14页
针对高光谱图像(hyperspectral images,HSI)与LiDAR数据多模态分类任务中的跨模态信息表达和特征对齐等问题,提出一种基于对比学习CNN-Transformer高光谱和LiDAR数据协同分类网络(Contrastive Learning based CNNTransformer Network,CL... 针对高光谱图像(hyperspectral images,HSI)与LiDAR数据多模态分类任务中的跨模态信息表达和特征对齐等问题,提出一种基于对比学习CNN-Transformer高光谱和LiDAR数据协同分类网络(Contrastive Learning based CNNTransformer Network,CLCT-Net)。CLCT-Net通过由ConvNeXt V2 Block构成的共有特征提取模块,获得不同模态间的共性特征,解决异构传感器数据之间语义对齐的问题。构建了包含空间-通道分支和光谱上下文分支的双分支HSI编码器,以及结合频域自注意力机制的LiDAR编码器,以获取更丰富的特征表示。利用集成对比学习进行分类,进一步提升多模态数据协同分类的精度。在Houston 2013和Trento数据集上的实验结果表明,相较于其他高光谱图像和Li‐DAR数据分类模型,本文所提模型获得了更高的地物分类精度,分别达到了92.01%和98.90%,实现了跨模态数据特征的深度挖掘和协同提取。 展开更多
关键词 高光谱图像 激光雷达数据 transformer 卷积神经网络 对比学习
下载PDF
基于Transformer-GRU网络的4D航迹预测 被引量:1
9
作者 翟文鹏 宋一峤 张兆宁 《重庆交通大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第6期94-101,共8页
航空器的4D航迹预测作为基于航迹运行(TBO)的关键技术之一具有非常重要的意义。基于Transformer-GRU(T-GRU)网络,提出了一种新的航迹预测方法,结合Adamax优化器实现了4D航迹预测。利用Transformer网络的自注意力机制对输入序列进行建模... 航空器的4D航迹预测作为基于航迹运行(TBO)的关键技术之一具有非常重要的意义。基于Transformer-GRU(T-GRU)网络,提出了一种新的航迹预测方法,结合Adamax优化器实现了4D航迹预测。利用Transformer网络的自注意力机制对输入序列进行建模,通过GRU网络获取时序数据的特征;对原始航迹数据进行重采样插值和中值滤波等预处理,以便消除数据缺失和异常值等对预测的影响;通过E E、E AT、E CT、E A等误差指标对实验结果进行评价,并与其他常用的航迹预测方法进行对比。研究结果表明:与传统深度学习方法相比,基于T-GRU网络的4D航迹预测模型在航迹预测中具有更高的准确性和鲁棒性。 展开更多
关键词 交通工程 空中交通管理 TBO 4d航迹预测 深度学习
下载PDF
基于改进Detection Transformer的棉花幼苗与杂草检测模型研究
10
作者 冯向萍 杜晨 +3 位作者 李永可 张世豪 舒芹 赵昀杰 《计算机与数字工程》 2024年第7期2176-2182,共7页
基于深度学习的目标检测技术在棉花幼苗与杂草检测领域已取得一定进展。论文提出了基于改进Detection Transformer的棉花幼苗与杂草检测模型,以提高杂草目标检测的准确率和效率。首先,引入了可变形注意力模块替代原始模型中的Transforme... 基于深度学习的目标检测技术在棉花幼苗与杂草检测领域已取得一定进展。论文提出了基于改进Detection Transformer的棉花幼苗与杂草检测模型,以提高杂草目标检测的准确率和效率。首先,引入了可变形注意力模块替代原始模型中的Transformer注意力模块,提高模型对特征图目标形变的处理能力。提出新的降噪训练机制,解决了二分图匹配不稳定问题。提出混合查询选择策略,提高解码器对目标类别和位置信息的利用效率。使用Swin Transformer作为网络主干,提高模型特征提取能力。通过对比原网络,论文提出的模型方法在训练过程中表现出更快的收敛速度,并且在准确率方面提高了6.7%。 展开更多
关键词 目标检测 detection transformer 棉花幼苗 杂草检测
下载PDF
基于TF-IDF和多头注意力Transformer模型的文本情感分析 被引量:9
11
作者 高佳希 黄海燕 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第1期129-136,共8页
文本情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,是自然语言处理中一项重要任务。针对现有的计算方法不能充分处理复杂度和混淆度较高的文本数据集的问题,提出了一种基于TF-IDF(Term Frequency-Inverse Documen... 文本情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,是自然语言处理中一项重要任务。针对现有的计算方法不能充分处理复杂度和混淆度较高的文本数据集的问题,提出了一种基于TF-IDF(Term Frequency-Inverse Document Frequency)和多头注意力Transformer模型的文本情感分析模型。在文本预处理阶段,利用TF-IDF算法对影响文本情感倾向较大的词语进行初步筛选,舍去常见的停用词及其他文本所属邻域对文本情感倾向影响较小的专有名词。然后,利用多头注意力Transformer模型编码器进行特征提取,抓取文本内部重要的语义信息,提高模型对语义的分析和泛化能力。该模型在多领域、多类型评论语料库数据集上取得了98.17%的准确率。 展开更多
关键词 文本情感分析 自然语言处理 多头注意力机制 TF-IdF算法 transformer模型
下载PDF
基于DCNv2和Transformer Decoder的隧道衬砌裂缝高效检测模型研究
12
作者 孙己龙 刘勇 +4 位作者 周黎伟 路鑫 侯小龙 王亚琼 王志丰 《图学学报》 CSCD 北大核心 2024年第5期1050-1061,共12页
为解决因衬砌裂缝性状随机、分布密集、标注框分辨率低所导致的现有模型识别精度低、检测速度慢及参数量庞大等问题,以第2版可变形卷积网络(DCNv2)和端到端变换器解码器(Transformer Decoder)为基础对YOLOv8网络框架进行改进,提出了面... 为解决因衬砌裂缝性状随机、分布密集、标注框分辨率低所导致的现有模型识别精度低、检测速度慢及参数量庞大等问题,以第2版可变形卷积网络(DCNv2)和端到端变换器解码器(Transformer Decoder)为基础对YOLOv8网络框架进行改进,提出了面向衬砌裂缝的检测模型DTD-YOLOv8。首先,通过引入DCNv2对YOLOv8主干卷积网络C2f进行融合以实现模型对裂缝形变特征的准确快速感知,同时采用Transformer Decoder对YOLOv8检测头进行替换以实现端到端框架内完整目标检测流程,从而消除因Anchor-free处理模式所带来的计算消耗。采用自建裂缝数据集对SSD,Faster-RCNN,RT-DETR,YOLOv3,YOLOv5,YOLOv8和DTD-YOLOv8的7种检测模型进行对比验证。结果表明:改进模型F1分数和mAP@50值分别为87.05%和89.58%;其中F1分数相较其他6种模型分别提高了14.16%,7.68%,1.55%,41.36%,8.20%和7.40%;mAP@50分别提高了28.84%,15.47%,1.33%,47.65%,10.14%和10.84%。改进模型参数量仅为RT-DETR的三分之一,检测单张图片的速度为16.01 ms,FPS为65.46帧每秒,对比其他模型检测速度得到提升。该模型在面向运营隧道裂缝检测任务需求时能够表现出高效的性能。 展开更多
关键词 隧道工程 目标检测 第2版可变形卷积网络 transformer decoder 衬砌裂缝
下载PDF
BMEDT:基于Transformer的双向多级边缘检测网络
13
作者 荆东东 李备备 +1 位作者 王诗宇 刘信君 《小型微型计算机系统》 CSCD 北大核心 2024年第12期3042-3049,共8页
针对现有边缘检测方法在处理复杂背景时出现的边缘丢失、线条粗糙、内容混乱等问题,本文提出一种基于Transformer的双向多级边缘检测网络.首先,网络采用Swin Transformer作为骨干网络,提取图像基本特征,并通过多尺度特征增强模块获取特... 针对现有边缘检测方法在处理复杂背景时出现的边缘丢失、线条粗糙、内容混乱等问题,本文提出一种基于Transformer的双向多级边缘检测网络.首先,网络采用Swin Transformer作为骨干网络,提取图像基本特征,并通过多尺度特征增强模块获取特征图中不同尺度的上下文信息;其次,根据特征点位置的重要性,提出边缘注意力模块,用于强化边缘与非边缘像素之间的差异性,提高重要特征的关注度;最后,为解决边缘检测任务中正负样本不均衡问题,提出一种新的损失函数,并通过分层监督的方式强化特征表示.在BSDS500和NYUDv2数据集上的实验和评估中,所提方法在边缘细节处理方面已经超过许多经典算法,并取得了最佳水平.这些结果表明,所提方法可以有效地解决边缘检测中的一些挑战,并为相关应用提供更好的支持. 展开更多
关键词 边缘检测 transformer 多尺度特征增强 边缘注意力 分层监督
下载PDF
基于Transformer的DC/DC板级验证状态识别
14
作者 于海波 李杰 +2 位作者 胡陈君 夏俊辉 张伟 《集成电路与嵌入式系统》 2024年第5期94-100,共7页
为满足航天产品的高精度、高可靠性需求,实现元器件自主可控、芯片国产化及应用适应性验证十分必要,设计一种基于FPGA的国产DC/DC板级综合测试平台。在长时间的热学环境适应性板级验证项目中,为实现DC/DC器件应用板卡工作状态的实时监测... 为满足航天产品的高精度、高可靠性需求,实现元器件自主可控、芯片国产化及应用适应性验证十分必要,设计一种基于FPGA的国产DC/DC板级综合测试平台。在长时间的热学环境适应性板级验证项目中,为实现DC/DC器件应用板卡工作状态的实时监测,提出一种基于Transformer的智能识别算法。分别使用空载、负载电流3 A、负载电流5 A、高输入电压、低输入电压、短路状态下的DC DC输出序列,输入到Transformer模型中并利用注意力机制提取各序列的全局注意力特征,并对深度学习模型进行训练。实验结果表明,对于此6种工作状态数据集,Transformer模型识别的准确率为99.2%,具备良好的分类和监测性能,具有一定的工程应用价值。 展开更多
关键词 FPGA 板级测试 状态识别 深度学习 transformer模型
下载PDF
DRT Net:面向特征增强的双残差Res-Transformer肺炎识别模型
15
作者 周涛 彭彩月 +3 位作者 杜玉虎 党培 刘凤珍 陆惠玲 《光学精密工程》 EI CAS CSCD 北大核心 2024年第5期714-726,共13页
针对肺部X射线图像的病灶区域较小、形状复杂,与正常组织间的边界模糊,使得肺炎图像中的病灶特征提取不充分的问题,提出了一个面向特征增强的双残差Res-Transformer肺炎识别模型,设计3种不同的特征增强策略对模型特征提取能力进行增强... 针对肺部X射线图像的病灶区域较小、形状复杂,与正常组织间的边界模糊,使得肺炎图像中的病灶特征提取不充分的问题,提出了一个面向特征增强的双残差Res-Transformer肺炎识别模型,设计3种不同的特征增强策略对模型特征提取能力进行增强。设计了组注意力双残差模块(GADRM),采用双残差结构进行高效的特征融合,将双残差结构与通道混洗、通道注意力、空间注意力结合,增强模型对于病灶区域特征的提取能力;在网络的高层采用全局局部特征提取模块(GLFEM),结合CNN和Transformer的优势使网络充分提取图像的全局和局部特征,获得高层语义信息的全局特征,进一步增强网络的语义特征提取能力;设计了跨层双注意力特征融合模块(CDAFFM),融合浅层网络的空间信息以及深层网络的通道信息,对网络提取到的跨层特征进行增强。为了验证本文模型的有效性,分别在COVID-19 CHEST X-RAY数据集上进行消融实验和对比实验。实验结果表明,本文所提出网络的准确率、精确率、召回率,F1值和AUC值分别为98.41%,94.42%,94.20%,94.26%和99.65%。DRT Net能够帮助放射科医生使用胸部X光片对肺炎进行诊断,具有重要的临床作用。 展开更多
关键词 肺炎识别 X射线图像 特征增强 双残差结构 transformer
下载PDF
特征注意力Transformer模块在3D唇语序列身份识别中的应用
16
作者 骈鑫洋 王瑜 张洁 《计算机工程与应用》 CSCD 北大核心 2024年第7期141-146,共6页
唇语行为是一种新兴起的生物特征识别技术,三维(three-dimensional,3D)唇语点云序列因包含真实嘴唇空间结构和运动信息,已成为个体身份识别的重要生物特征。但是,3D点云的无序与非结构化的特点导致时空特征的提取非常困难。为此,提出一... 唇语行为是一种新兴起的生物特征识别技术,三维(three-dimensional,3D)唇语点云序列因包含真实嘴唇空间结构和运动信息,已成为个体身份识别的重要生物特征。但是,3D点云的无序与非结构化的特点导致时空特征的提取非常困难。为此,提出一种深度学习网络模型,用于3D唇语序列身份识别。该网络采用四层改进的PointNet++作为网络骨干,以分层方式抽取特征,为了学习到更多包含身份信息的时空特征,设计一种动态唇特征注意力Transformer模块,连接于PointNet++网络每一层之后,可以学习到不同特征图之间的相关信息,有效捕捉视频序列不同帧的上下文信息。与其他注意力机制构建的Transformer相比,提出的Transformer模块具有较少的参数,在S3DFM-FP和S3DFM-VP数据集上进行的实验表明,提出网络模型在3D唇语点云序列的身份识别任务中效果显著,即使在不受姿态约束的S3DFM-VP数据集中也表现出良好的性能。 展开更多
关键词 说话人识别 transformer PointNet++ 三维唇语点云
下载PDF
基于DFT的频率敏感双分支Transformer多变量长时间序列预测方法
17
作者 任烈弘 黄铝文 +1 位作者 田旭 段飞 《计算机应用》 CSCD 北大核心 2024年第9期2739-2746,共8页
在进行多变量长时间序列预测时,仅利用时域分析通常无法充分捕捉长时间序列依赖,而这会导致信息利用率不足、预测精度不够高。因此,结合频域时域分析,提出一种基于离散傅里叶变换(DFT)的频率敏感双分支多变量长时间序列预测(FSDformer)... 在进行多变量长时间序列预测时,仅利用时域分析通常无法充分捕捉长时间序列依赖,而这会导致信息利用率不足、预测精度不够高。因此,结合频域时域分析,提出一种基于离散傅里叶变换(DFT)的频率敏感双分支多变量长时间序列预测(FSDformer)方法。首先,通过DFT实现时间和频率的相互转换,从而将复杂的时间序列数据分解为结构简单的低频趋势项、中频季节项和高频余项3个分量;其次,采用双分支结构,针对中高频分量预测,应用Encoder-Decoder结构,设计了周期性增强注意力机制;针对低频趋势分量预测,采用多层感知机(MLP)结构;最后将中高频分量与低频分量预测结果相加,得到多变量长时间序列的最终预测结果。在2个数据集上把FSDformer与其他5个经典算法进行了对比分析,在Electricity数据集上,当历史序列长度为96,预测序列长度为336时,相较于Autoformer等对比算法,FSDformer的平均绝对误差(MAE)下降了11.5%~29.1%,均方误差(MSE)下降了20.9%~43.7%,达到了最优预测精度。实验结果表明,FSDformer能有效捕捉长时间序列的相关依赖,在提升预测精度和计算效率的同时,增强了模型预测的稳定性。 展开更多
关键词 离散傅里叶变换 频率敏感 时间序列预测 序列分解 transformer 周期性增强注意力
下载PDF
ResoNet:Robust and Explainable ENSO Forecasts with Hybrid Convolution and Transformer Networks 被引量:1
18
作者 Pumeng LYU Tao TANG +4 位作者 Fenghua LING Jing-Jia LUO Niklas BOERS Wanli OUYANG Lei BAI 《Advances in Atmospheric Sciences》 SCIE CAS CSCD 2024年第7期1289-1298,共10页
Recent studies have shown that deep learning(DL)models can skillfully forecast El Niño–Southern Oscillation(ENSO)events more than 1.5 years in advance.However,concerns regarding the reliability of predictions ma... Recent studies have shown that deep learning(DL)models can skillfully forecast El Niño–Southern Oscillation(ENSO)events more than 1.5 years in advance.However,concerns regarding the reliability of predictions made by DL methods persist,including potential overfitting issues and lack of interpretability.Here,we propose ResoNet,a DL model that combines CNN(convolutional neural network)and transformer architectures.This hybrid architecture enables our model to adequately capture local sea surface temperature anomalies as well as long-range inter-basin interactions across oceans.We show that ResoNet can robustly predict ENSO at lead times of 19 months,thus outperforming existing approaches in terms of the forecast horizon.According to an explainability method applied to ResoNet predictions of El Niño and La Niña from 1-to 18-month leads,we find that it predicts the Niño-3.4 index based on multiple physically reasonable mechanisms,such as the recharge oscillator concept,seasonal footprint mechanism,and Indian Ocean capacitor effect.Moreover,we demonstrate for the first time that the asymmetry between El Niño and La Niña development can be captured by ResoNet.Our results could help to alleviate skepticism about applying DL models for ENSO prediction and encourage more attempts to discover and predict climate phenomena using AI methods. 展开更多
关键词 deep learning ENSO CNN transformer
下载PDF
基于VMD-Transformer-ECM模型的空气中有害气体浓度预测
19
作者 张子煜 刘浩哲 陈娟 《北京化工大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第6期102-111,共10页
空气中有害气体的浓度序列具有较强的复杂性、非线性及波动性,为气体浓度的准确预测带来了很大挑战。针对该问题,提出了一种基于变分模态分解(VMD)和误差补偿(ECM)的Transformer预测模型(VMD-Transformer-ECM)。首先通过VMD将气体浓度... 空气中有害气体的浓度序列具有较强的复杂性、非线性及波动性,为气体浓度的准确预测带来了很大挑战。针对该问题,提出了一种基于变分模态分解(VMD)和误差补偿(ECM)的Transformer预测模型(VMD-Transformer-ECM)。首先通过VMD将气体浓度时间序列分解成不同频率的本征模态函数(IMF),以降低预测模型输入的复杂性和非平稳性;然后通过Transformer模型对分解所得的各模态分量进行预测,并对预测结果进行重构以得到初步预测值;最后通过ECM模型对误差序列进行预测,并使用误差预测值来补偿初步预测值,以进一步提高模型的预测精度。在不同数据集中对所提模型进行了验证,结果显示,与其他模型相比,VMD-Transformer-ECM模型对CO_(2)及其他有害气体浓度预测的平均绝对百分比误差(MAPE)和均方根误差(RMSE)最小,决定系数(R^(2))最大,其中在预测步长为3 h时,本模型对CO_(2)浓度预测的MAPE为4.38%,RMSE为35.44×10^(-6),R^(2)为0.94,表明所提模型的预测精度较高,预测性能较好。 展开更多
关键词 有害气体 transformer 变分模态分解(VMd) 误差补偿(ECM) 气体浓度预测
下载PDF
Point Cloud Classification Using Content-Based Transformer via Clustering in Feature Space 被引量:2
20
作者 Yahui Liu Bin Tian +2 位作者 Yisheng Lv Lingxi Li Fei-Yue Wang 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2024年第1期231-239,共9页
Recently, there have been some attempts of Transformer in 3D point cloud classification. In order to reduce computations, most existing methods focus on local spatial attention,but ignore their content and fail to est... Recently, there have been some attempts of Transformer in 3D point cloud classification. In order to reduce computations, most existing methods focus on local spatial attention,but ignore their content and fail to establish relationships between distant but relevant points. To overcome the limitation of local spatial attention, we propose a point content-based Transformer architecture, called PointConT for short. It exploits the locality of points in the feature space(content-based), which clusters the sampled points with similar features into the same class and computes the self-attention within each class, thus enabling an effective trade-off between capturing long-range dependencies and computational complexity. We further introduce an inception feature aggregator for point cloud classification, which uses parallel structures to aggregate high-frequency and low-frequency information in each branch separately. Extensive experiments show that our PointConT model achieves a remarkable performance on point cloud shape classification. Especially, our method exhibits 90.3% Top-1 accuracy on the hardest setting of ScanObjectN N. Source code of this paper is available at https://github.com/yahuiliu99/PointC onT. 展开更多
关键词 Content-based transformer deep learning feature aggregator local attention point cloud classification
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部