期刊文献+
共找到12,208篇文章
< 1 2 250 >
每页显示 20 50 100
基于RoBERTa和图增强Transformer的序列推荐方法 被引量:2
1
作者 王明虎 石智奎 +1 位作者 苏佳 张新生 《计算机工程》 CAS CSCD 北大核心 2024年第4期121-131,共11页
自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明... 自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明显劣势。为了更好地挖掘用户与商品之间的深层潜在特征,进一步提高推荐质量,提出一种基于Ro BERTa和图增强Transformer的序列推荐(RGT)模型。引入评论文本数据,首先利用预训练的Ro BERTa模型捕获评论文本中的字词语义特征,初步建模用户的个性化兴趣,然后根据用户与商品的历史交互信息,构建具有时序特性的商品关联图注意力机制网络模型,通过图增强Transformer的方法将图模型学习到的各个商品的特征表示以序列的形式输入Transformer编码层,最后将得到的输出向量与之前捕获的语义表征以及计算得到的商品关联图的全图表征输入全连接层,以捕获用户全局的兴趣偏好,实现用户对商品的预测评分。在3组真实亚马逊公开数据集上的实验结果表明,与Deep FM、Conv MF等经典文本推荐模型相比,RGT模型在均方根误差(RMSE)和平均绝对误差(MAE)2种指标上有显著提升,相较于最优对比模型最高分别提升4.7%和5.3%。 展开更多
关键词 推荐算法 评论文本 RoBERTa模型 图注意力机制 Transformer机制
下载PDF
基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法 被引量:1
2
作者 田子建 吴佳奇 +4 位作者 张文琪 陈伟 周涛 杨伟 王帅 《煤炭科学技术》 EI CAS CSCD 北大核心 2024年第1期297-310,共14页
高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低... 高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法。基于生成对抗思想搭建生成对抗式主体模型框架,使用目标图像域而非单一参考图像驱动判别器监督生成器的训练,实现对低照度图像的充分增强;基于特征表示学习理论搭建特征编码器,将图像解耦为亮度分量和反射分量,避免图像增强过程中亮度与颜色特征相互影响从而导致颜色失真问题;设计CEM-Transformer Encoder通过捕获全局上下文关系和提取局部区域特征,能够充分提升整体图像亮度并消除局部区域照度不均;在反射分量增强过程中,使用结合CEM-Cross-Transformer Encoder的跳跃连接将低级特征与深层网络处特征进行自适应融合,能够有效避免细节特征丢失,并在编码网络中添加ECA-Net,提高浅层网络的特征提取效率。制作矿井低照度图像数据集为矿井低照度图像增强任务提供数据资源。试验显示,在矿井低照度图像数据集和公共数据集中,与5种先进的低照度图像增强算法相比,该算法增强图像的质量指标PSNR、SSIM、VIF平均提高了16.564%,10.998%,16.226%和14.438%,10.888%,14.948%,证明该算法能够有效提升整体图像亮度,消除照度不均,避免颜色失真和细节丢失,实现矿井低照度图像增强。 展开更多
关键词 图像增强 图像识别 生成对抗网络 特征解耦 TRANSFORMER
下载PDF
CNN-Transformer特征融合多目标跟踪算法 被引量:1
3
作者 张英俊 白小辉 谢斌红 《计算机工程与应用》 CSCD 北大核心 2024年第2期180-190,共11页
在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特... 在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特征提取和融合的多目标跟踪算法CTMOT(CNN-transformer multi-object tracking)。使用基于CNN和Transformer双分支并行的主干网络分别提取图像的局部和全局特征。使用双向桥接模块(two-way braidge module,TBM)对两种特征进行充分融合。将融合后的特征输入两组并行的解码器进行处理。将解码器输出的检测框和跟踪框进行匹配,完成多目标跟踪任务。在多目标跟踪数据集MOT17、MOT20、KITTI以及UADETRAC上进行评估,CTMOT算法的MOTP和IDs指标在四个数据集上均达到了SOTA效果,MOTA指标分别达到了76.4%、66.3%、92.36%和88.57%,在MOT数据集上与SOTA方法效果相当,在KITTI数据集上达到SOTA效果。由于同时完成目标检测和关联,能够端到端进行目标跟踪,跟踪速度可达35 FPS,表明CTMOT算法在跟踪的实时性和准确性上达到了较好的平衡,具有较大潜力。 展开更多
关键词 多目标跟踪 TRANSFORMER 特征融合
下载PDF
基于多尺度注意力特征融合的场景文本检测 被引量:1
4
作者 厍向阳 刘哲 董立红 《计算机工程与应用》 CSCD 北大核心 2024年第1期198-206,共9页
针对目前文本检测中小尺度文本和长文本检测精度低的问题,提出了一种基于多尺度注意力特征融合的场景文本检测算法。该方法以Mask R-CNN为基线模型,引入Swin_Transformer作为骨干网络提取底层特征。在特征金字塔(feature pyramid networ... 针对目前文本检测中小尺度文本和长文本检测精度低的问题,提出了一种基于多尺度注意力特征融合的场景文本检测算法。该方法以Mask R-CNN为基线模型,引入Swin_Transformer作为骨干网络提取底层特征。在特征金字塔(feature pyramid networks,FPN)中,通过将多尺度注意力热图与底层特征通过横向连接相融合,使检测器的不同层级专注于特定尺度的目标,并利用相邻层注意力热图之间的关系实现了FPN结构中的纵向特征共享,避免了不同层之间梯度计算的不一致性问题。实验结果表明:在ICDAR2015数据集上,该方法的准确率、召回率和F值分别达到了88.3%、83.07%和85.61%,在CTW1500和Total-Text弯曲文本数据集上相较现有方法均有良好表现。 展开更多
关键词 场景文本检测 Mask R-CNN Swin Transformer 注意力机制 多尺度特征融合
下载PDF
融合卷积注意力和Transformer架构的行人重识别方法 被引量:1
5
作者 王静 李沛橦 +2 位作者 赵容锋 张云 马振玲 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期466-476,共11页
行人重识别技术是智能安防系统中的重要方法之一,为构建一个适用各种复杂场景的行人重识别模型,基于现有的卷积神经网络和Transformer模型,提出一种融合卷积注意力和Transformer(FCAT)架构的方法,以增强Transformer对局部细节信息的关... 行人重识别技术是智能安防系统中的重要方法之一,为构建一个适用各种复杂场景的行人重识别模型,基于现有的卷积神经网络和Transformer模型,提出一种融合卷积注意力和Transformer(FCAT)架构的方法,以增强Transformer对局部细节信息的关注。所提方法主要将卷积空间注意力和通道注意力嵌入Transformer架构中,分别加强对图像中重要区域的关注和对重要通道特征的关注,以进一步提高Transformer架构对局部细节特征的提取能力。在3个公开行人重识别数据集上的对比消融实验证明,所提方法在非遮挡数据集上取得了与现有方法相当的结果,在遮挡数据集上的性能得到显著提升。所提方法更加轻量化,在不增加额外计算量和模型参数的情况下,推理速度得到了提升。 展开更多
关键词 行人重识别 深度学习 卷积神经网络 TRANSFORMER 注意力机制
下载PDF
基于Transformer和动态3D卷积的多源遥感图像分类 被引量:1
6
作者 高峰 孟德森 +2 位作者 解正源 亓林 董军宇 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期606-614,共9页
多源遥感数据具有互补性和协同性,近年来,基于深度学习的方法已经在多源遥感图像分类中取得了一定进展,但当前方法仍面临关键难题,如多源遥感图像特征表达不一致,融合困难,基于静态推理范式的神经网络缺乏对不同类别地物的适应性。为解... 多源遥感数据具有互补性和协同性,近年来,基于深度学习的方法已经在多源遥感图像分类中取得了一定进展,但当前方法仍面临关键难题,如多源遥感图像特征表达不一致,融合困难,基于静态推理范式的神经网络缺乏对不同类别地物的适应性。为解决上述问题,提出了基于跨模态Transformer和多尺度动态3D卷积的多源遥感图像分类模型。为提高多源特征表达的一致性,设计了基于Transformer的融合模块,借助其强大的注意力建模能力挖掘高光谱和LiDAR数据特征之间的相互作用;为提高特征提取方法对不同地物类别的适应性,设计了多尺度动态3D卷积模块,将输入特征的多尺度信息融入卷积核的调制,提高卷积操作对不同地物的适应性。采用多源遥感数据集Houston和Trento对所提方法进行验证,实验结果表明:所提方法在Houston和Trento数据集上总体准确率分别达到94.60%和98.21%,相比MGA-MFN等主流方法,总体准确率分别至少提升0.97%和0.25%,验证了所提方法可有效提升多源遥感图像分类的准确率。 展开更多
关键词 高光谱图像 激光雷达 TRANSFORMER 多源特征融合 动态卷积
下载PDF
基于概率稀疏自注意力的航空发动机剩余寿命预测 被引量:1
7
作者 王欣 黄佳琪 许雅玺 《科学技术与工程》 北大核心 2024年第6期2424-2433,共10页
航空发动机剩余寿命预测对其健康管理具有重要意义,针对长序列、多维度的航空发动机监测参数,提出一种基于概率稀疏自注意力(ProbSparse Self-Attention)的Transformer模型以实现航空发动机剩余寿命的准确预测。用ProbSparse Self-Atten... 航空发动机剩余寿命预测对其健康管理具有重要意义,针对长序列、多维度的航空发动机监测参数,提出一种基于概率稀疏自注意力(ProbSparse Self-Attention)的Transformer模型以实现航空发动机剩余寿命的准确预测。用ProbSparse Self-Attention取代原始Transformer中的常规自注意力机制,使得模型更关注时间序列中重要的时间节点,大幅缩减时间维度,减小了时间和空间复杂度;通过注意力层整合后的信息,进一步通过前馈神经网络层和卷积层,提取传感器的空间特征,编码层之间通过扩张因果卷积相连接,扩大了感受野,提高了模型对长序列信息的捕获能力。在新公开的N-CMAPSS数据集上验证算法,实验结果表明,相比于实验中的对比模型,所提模型的RMSE和Score值均有提升,推理速度也优于其他模型。 展开更多
关键词 概率稀疏自注意力 剩余寿命预测 航空发动机 TRANSFORMER 深度学习
下载PDF
考虑特征重组与改进Transformer的风电功率短期日前预测方法 被引量:2
8
作者 李练兵 高国强 +3 位作者 吴伟强 魏玉憧 卢盛欣 梁纪峰 《电网技术》 EI CSCD 北大核心 2024年第4期1466-1476,I0025,I0027-I0029,共15页
短期日前风电功率预测对电力系统调度计划制定有重要意义,该文为提高风电功率预测的准确性,提出了一种基于Transformer的预测模型Powerformer。模型通过因果注意力机制挖掘序列的时序依赖;通过去平稳化模块优化因果注意力以提高数据本... 短期日前风电功率预测对电力系统调度计划制定有重要意义,该文为提高风电功率预测的准确性,提出了一种基于Transformer的预测模型Powerformer。模型通过因果注意力机制挖掘序列的时序依赖;通过去平稳化模块优化因果注意力以提高数据本身的可预测性;通过设计趋势增强和周期增强模块提高模型的预测能力;通过改进解码器的多头注意力层,使模型提取周期特征和趋势特征。该文首先对风电数据进行预处理,采用完全自适应噪声集合经验模态分解(complete ensemble empirical mode decomposition with adaptive noise,CEEMDAN)将风电数据序列分解为不同频率的本征模态函数并计算其样本熵,使得风电功率序列重组为周期序列和趋势序列,然后将序列输入到Powerformer模型,实现对风电功率短期日前准确预测。结果表明,虽然训练时间长于已有预测模型,但Poweformer模型预测精度得到提升;同时,消融实验结果验证了模型各模块的必要性和有效性,具有一定的应用价值。 展开更多
关键词 风电功率预测 特征重组 Transformer模型 注意力机制 周期趋势增强
下载PDF
引入轻量级Transformer的无人机视觉跟踪 被引量:1
9
作者 谌海云 王海川 +1 位作者 黄忠义 余鸿皓 《计算机工程与应用》 CSCD 北大核心 2024年第2期244-253,共10页
随着无人机在军事和民用领域的广泛运用,对于高精度、低功耗智能无人机跟踪系统的需求日益增加。针对目标跟踪算法在无人机跟踪场景下很难平衡跟踪精度和跟踪速度的问题,提出一种引入轻量级Transformer的孪生网络无人机目标跟踪算法Sia... 随着无人机在军事和民用领域的广泛运用,对于高精度、低功耗智能无人机跟踪系统的需求日益增加。针对目标跟踪算法在无人机跟踪场景下很难平衡跟踪精度和跟踪速度的问题,提出一种引入轻量级Transformer的孪生网络无人机目标跟踪算法SiamLT。使用Transformer对AlexNet网络进行改进,在增加最小计算量的情况下捕获全局特征信息。在目标模板与搜索区域匹配方面,联合Transformer和深度互相关运算提出一种二元相关模块,同时捕获目标模板与搜索区域之间的局部相关性和全局依赖关系。在分类回归网络中引入距离交并比,并采用多监督策略训练网络,以获取更准确的目标位置。在UAV123和UAV20L跟踪基准上的实验结果表明,SiamLT算法优于主流的目标跟踪算法,更有效地平衡了跟踪精度和跟踪速度。 展开更多
关键词 无人机 目标跟踪 TRANSFORMER 孪生网络 多头注意力
下载PDF
BEVTrack:基于难例挖掘训练的端到端三维多目标跟踪方法 被引量:1
10
作者 张弘 万家旭 +2 位作者 陈海波 张健 李旭亮 《信号处理》 CSCD 北大核心 2024年第1期152-165,共14页
多目标跟踪已经成为自动驾驶系统中的一个关键组成部分,其目的是在连续的视频流与点云流中识别、定位并标识所有感兴趣的目标。目前三维多目标跟踪方法多依赖人工多阶段调参以保证整体跟踪性能,难以对复杂遮挡或运动进行有效建模。而现... 多目标跟踪已经成为自动驾驶系统中的一个关键组成部分,其目的是在连续的视频流与点云流中识别、定位并标识所有感兴趣的目标。目前三维多目标跟踪方法多依赖人工多阶段调参以保证整体跟踪性能,难以对复杂遮挡或运动进行有效建模。而现有的三维端到端多目标跟踪方法,如MUTR等,精度普遍较低。其核心原因为三维空间中的特征聚合和感知相对于二维图像更具挑战性,简单的网络难以实现复杂的三维特征聚合,并大量的噪声信息与难例信息干扰严重,影响模型的特征提取能力。针对以上问题,本文提出了一种基于难例挖掘训练的端到端多目标跟踪框架BEVTrack。针对三维特征关联问题,本文设计了基于鸟瞰图(BEV)位置编码的三维跟踪查询。通过基于BEV特征的三维跟踪查询,本文方法能够更好地将跟踪查询与实际三维特征进行有效关联,从而大幅度提升了跟踪精度。同时,模型依靠BEV数据进行特征关联,仅需轻量化的网络便可以实现快速有效的跟踪。针对数据噪声问题,本文提出了面向多目标跟踪的难例挖掘训练,通过针对检测难例与跟踪难例分别处理,训练模型去除检测错误噪声与跟踪匹配的能力,从而提升在真实场景下模型处理噪声信息与难例干扰的能力。在实验结果方面,基于Nuscenes数据集,我们进行了大量的对比实验与模型消融实验,实验结果证明本文的方法在该数据集上取得了领先的性能。 展开更多
关键词 多目标跟踪 端到端 难例挖掘 TRANSFORMER
下载PDF
基于多尺度特征信息融合的时间序列异常检测 被引量:1
11
作者 衡红军 喻龙威 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2024年第3期203-214,共12页
目前大多数的时间序列都缺少相应的异常标签,且现有基于重构的异常检测算法不能很好地捕获到多维数据间复杂的潜在相关性和时间依赖性,为了构建特征丰富的时间序列,提出一种多尺度特征信息融合的异常检测模型。该模型首先通过卷积神经... 目前大多数的时间序列都缺少相应的异常标签,且现有基于重构的异常检测算法不能很好地捕获到多维数据间复杂的潜在相关性和时间依赖性,为了构建特征丰富的时间序列,提出一种多尺度特征信息融合的异常检测模型。该模型首先通过卷积神经网络对滑动窗口内的不同序列进行特征卷积来获取不同尺度下的局部上下文信息。然后,利用Transformer中的位置编码对卷积后的时间序列窗口进行位置嵌入,增强滑动窗口中每一个时间序列和邻近序列之间的位置联系,并引入时间注意力获取数据在时间维度上的自相关性,并进一步通过多头自注意力自适应地为窗口内不同时间序列分配不同的权重。最后,对反卷积过程中上采样得到的窗口数据与不同尺度下得到的局部特征和时间上下文信息进行逐步融合,从而准确重构原始时间序列,并将重构误差作为最终的异常得分进行异常判定。实验结果表明,所构建模型在SWaT和SMD数据集上与基线模型相比F1分数均有所提升。在数据维度高且均衡性较差的WADI数据集上与GDN模型相比F1分数降低了1.66%。 展开更多
关键词 异常检测 多尺度信息融合 卷积神经网络 TRANSFORMER 多维时间序列 自编码器
下载PDF
基于Swin Transformer的沥青路面病害分类检测研究 被引量:1
12
作者 郭晨 杨玉龙 +1 位作者 左琛 杨冰鑫 《计算机测量与控制》 2024年第2期114-121,共8页
针对传统卷积神经网络模型在沥青路面病害检测中识别长距离裂缝结构能力不足以及面临的精度局限问题,引入Swin Transformer模型进行沥青路面病害分类研究;首先对于路面检测车采集到的沥青路面扫描图像对比度低的问题,使用直方图均衡技... 针对传统卷积神经网络模型在沥青路面病害检测中识别长距离裂缝结构能力不足以及面临的精度局限问题,引入Swin Transformer模型进行沥青路面病害分类研究;首先对于路面检测车采集到的沥青路面扫描图像对比度低的问题,使用直方图均衡技术处理图像,增加图像可视化效果;其次,选取3种经典卷积神经网络模型作为对比模型,并在训练过程中采用更换损失函数,调整预训练模型等手段解决过拟合问题;并选用准确率、查全率、F1-score作为评价指标;在最终实验结果中Swin Transformer识别准确率达到了80.6%,F1-score达到了0.776,不仅在整体分类准确率上超越了传统CNN模型,并且对具有长距离特征结构的病害方面具有更高的识别准确率,同时具有良好的可靠性。 展开更多
关键词 Swin Transformer 路面病害检测 卷积神经网络 图像分类 图像处理
下载PDF
基于轨道板振动加速度的钢轨振动加速度反演估计与现场验证
13
作者 何庆 曾楚琦 +3 位作者 王启航 付彬 吴军 王平 《北京交通大学学报》 CAS CSCD 北大核心 2024年第1期74-86,共13页
为研究高速铁路轨道板与钢轨之间的时空关联规律,提出变分模态-转换器(Variational Mode Decomposition-Transformer, VMD-T)反演模型,该模型通过分解轨道板振动加速度来反演估计钢轨振动加速度.首先,对数据进行预处理并利用双门限法检... 为研究高速铁路轨道板与钢轨之间的时空关联规律,提出变分模态-转换器(Variational Mode Decomposition-Transformer, VMD-T)反演模型,该模型通过分解轨道板振动加速度来反演估计钢轨振动加速度.首先,对数据进行预处理并利用双门限法检测振动端点,分离振动信号与静默信号、干扰信号,再将提取后的振动信号整合输入到VMD-T模型.其次,利用VMD模型将轨道板振动加速度数据分解成一系列不同的子模态,并网格遍历搜索与钢轨振动加速度相关系数最大的子模态,以降低原始数据的复杂度以及非平稳性,提升Transformer模型的特征抽取能力.然后,通过Transformer模型对搜索出的轨道板振动加速度子模态与钢轨振动加速度数据进行反演估计训练.最后,将该模型应用于某城际高速铁路轨道板与钢轨实测振动加速度数据反演估计试验.现场高铁试验结果表明:与单一Transformer模型相比,VMD-T模型均方根误差(RootMean Squared Error, RMSE)、绝对平均误差(Mean Absolute Error, MAE)及决定系数(R2_score)分别提升近20%、11%及48.1%,特征学习能力更强,反演估计效果更佳,初步实现钢轨垂向振动加速度幅值非接触式监测估计. 展开更多
关键词 高速铁路 变分模态分解 Transformer模型 轨道板 钢轨 振动加速度
下载PDF
基于Depth-wise卷积和视觉Transformer的图像分类模型
14
作者 张峰 黄仕鑫 +1 位作者 花强 董春茹 《计算机科学》 CSCD 北大核心 2024年第2期196-204,共9页
图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关... 图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关系进行建模,一些研究者将Transformer应用于图像分类任务,但为了满足Transformer的序列化和并行化要求,需要将图像分割成大小相等、互不重叠的图像块,破坏了相邻图像数据块之间的局部信息。此外,由于Transformer具有较少的先验知识,模型往往需要在大规模数据集上进行预训练,因此计算复杂度较高。为了同时建模图像相邻块之间的局部信息并充分利用图像的全局信息,提出了一种基于Depth-wise卷积的视觉Transformer(Efficient Pyramid Vision Transformer,EPVT)模型。EPVT模型可以实现以较低的计算成本提取相邻图像块之间的局部和全局信息。EPVT模型主要包含3个关键组件:局部感知模块(Local Perceptron Module,LPM)、空间信息融合模块(Spatial Information Fusion,SIF)和“+卷积前馈神经网络(Convolution Feed-forward Network,CFFN)。LPM模块用于捕获图像的局部相关性;SIF模块用于融合相邻图像块之间的局部信息,并利用不同图像块之间的远距离依赖关系,提升模型的特征表达能力,使模型学习到输出特征在不同维度下的语义信息;CFFN模块用于编码位置信息和重塑张量。在图像分类数据集ImageNet-1K上,所提模型优于现有的同等规模的视觉Transformer分类模型,取得了82.6%的分类准确度,证明了该模型在大规模数据集上具有竞争力。 展开更多
关键词 深度学习 图像分类 Depth-wise卷积 视觉Transformer 注意力机制
下载PDF
基于多模态掩码Transformer网络的社会事件分类
15
作者 陈宏 钱胜胜 +2 位作者 李章明 方全 徐常胜 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期579-587,共9页
多模态社会事件分类的关键是充分且准确地利用图像和文字2种模态的特征。然而,现有的大多数方法存在以下局限性:简单地将事件的图像特征和文本特征连接起来,不同模态之间存在不相关的上下文信息导致相互干扰。因此,仅仅考虑多模态数据... 多模态社会事件分类的关键是充分且准确地利用图像和文字2种模态的特征。然而,现有的大多数方法存在以下局限性:简单地将事件的图像特征和文本特征连接起来,不同模态之间存在不相关的上下文信息导致相互干扰。因此,仅仅考虑多模态数据模态间的关系是不够的,还要考虑模态之间不相关的上下文信息(即区域或单词)。为克服这些局限性,提出一种新颖的基于多模态掩码Transformer网络(MMTN)模型的社会事件分类方法。通过图-文编码网络来学习文本和图像的更好的表示。将获得的图像和文本表示输入多模态掩码Transformer网络来融合多模态信息,并通过计算多模态信息之间的相似性,对多模态信息的模态间的关系进行建模,掩盖模态之间的不相关上下文。在2个基准数据集上的大量实验表明:所提模型达到了最先进的性能。 展开更多
关键词 多模态 社会事件分类 社交媒体 表示学习 多模态Transformer网络
下载PDF
基于EMDPWVD时频图像和改进ViT网络的滚动轴承智能故障诊断
16
作者 樊红卫 马宁阁 +3 位作者 马嘉腾 陈步冉 曹现刚 张旭辉 《振动与冲击》 EI CSCD 北大核心 2024年第11期246-254,共9页
滚动轴承是机械设备的关键零部件之一,其故障诊断对设备安全稳定运行至关重要。针对滚动轴承振动信号的非平稳特点,提出经验模态分解联合伪魏格纳分布(empirical mode decomposition&pseudo-Wigner-Ville distribution, EMDPWVD)时... 滚动轴承是机械设备的关键零部件之一,其故障诊断对设备安全稳定运行至关重要。针对滚动轴承振动信号的非平稳特点,提出经验模态分解联合伪魏格纳分布(empirical mode decomposition&pseudo-Wigner-Ville distribution, EMDPWVD)时频图像联合改进Vision Transformer(ViT)网络模型的智能故障诊断新方法。首先针对实际信号研究短时傅里叶变换(short-time Fourier transform, STFT)、连续小波变换(continuous wavelet transform, CWT)和EMDPWVD三种时频分析方法,考虑STFT和CWT无法同时获得高的时间分辨率和频率分辨率,优选EMDPWVD作为智能故障诊断网络的时频图像构造方法。其次,以经典ViT作为故障诊断基础模型,将时频图像按照预定尺寸分块并线性映射为输入序列,通过自注意力机制整合图像全局信息,借助堆叠Transformer编码器完成网络传输,进而实现故障诊断。为进一步提高故障诊断准确率,将池化层作为ViT的预处理网络,获得改进的Pooling ViT(PiT)模型,实现时频图像的空间特征延展,提升模型对输入图像敏感度。结果表明,所提方法对滚动轴承不同故障类型均有高的诊断准确率,PiT较ViT的准确率提高4.40%,证明对ViT加入池化层能够实现滚动轴承故障诊断效果提升。 展开更多
关键词 滚动轴承 故障诊断 时频图像 Vision Transformer(ViT) 池化层
下载PDF
基于SwinT-YOLOX模型的自动扶梯行人安全检测算法
17
作者 侯颖 杨林 +3 位作者 胡鑫 贺顺 宋婉莹 赵谦 《计算机工程》 CAS CSCD 北大核心 2024年第3期277-289,共13页
自动扶梯被广泛应用在公共场合,乘客摔倒事故如果不能被及时发现并处理,会造成严重的人身伤害,因此实现自动扶梯智能化监控管理势在必行。受自动扶梯运行环境复杂、行人多以及局部遮挡情况的影响,传统的人体姿态特征摔倒检测模型效果不... 自动扶梯被广泛应用在公共场合,乘客摔倒事故如果不能被及时发现并处理,会造成严重的人身伤害,因此实现自动扶梯智能化监控管理势在必行。受自动扶梯运行环境复杂、行人多以及局部遮挡情况的影响,传统的人体姿态特征摔倒检测模型效果不佳且检测速度减慢。融合Swin Transformer和YOLOX目标检测算法的优秀策略,提出一种基于SwinT-YOLOX网络模型的自动扶梯行人摔倒检测算法。采用Swin Transformer模型作为骨干网络,颈部网络使用添加注意力机制的YOLOX模型,进一步提升特征图的多样性和表达能力。此外,利用漏斗修正线性单元视觉激活函数构建CBF模块,改进颈部网络和Head网络结构,从而获得更优的特征检测性能。实验结果表明,针对自建扶梯行人摔倒数据库和网络采集实际扶梯行人摔倒事故,与AlphaPose、OpenPose、YOLOv5等算法相比,该算法检测性能明显提高,行人摔倒平均检测精度可以达到95.92%,检测帧率为24.08帧/s,能够快速、精准地检测到乘客摔倒事故发生,监控管理平台立刻采取安全急停措施以保证乘客安全。 展开更多
关键词 自动扶梯 摔倒检测 深度学习 YOLOX模型 Swin Transformer模型 漏斗修正线性单元视觉激活函数
下载PDF
基于Transformer复杂运动辨识的机动星凸形扩展目标跟踪方法
18
作者 陈辉 边斌超 +1 位作者 连峰 韩崇昭 《雷达学报(中英文)》 EI CSCD 北大核心 2024年第3期629-645,共17页
针对复杂的机动扩展目标跟踪问题,利用Transformer网络设计了一种有效的星凸不规则形状机动扩展目标跟踪方法。首先,该文研究利用alpha-shape算法建立了星凸形状的变化模型,实现了静态场景下的星凸形扩展目标的形状估计。然后,通过对目... 针对复杂的机动扩展目标跟踪问题,利用Transformer网络设计了一种有效的星凸不规则形状机动扩展目标跟踪方法。首先,该文研究利用alpha-shape算法建立了星凸形状的变化模型,实现了静态场景下的星凸形扩展目标的形状估计。然后,通过对目标状态转移矩阵进行重新设计,结合Transformer网络对机动扩展目标运动状态转移矩阵进行实时估计,实现了对复杂机动目标运动过程的精准跟踪。进一步地,将估计得到的形状轮廓与运动状态进行融合,最终实现了对星凸形机动扩展目标的实时跟踪。最后,通过构造复杂的机动扩展目标跟踪场景,利用多重性能指标测试算法对形状和运动状态的综合估计性能,验证了算法的有效性。 展开更多
关键词 扩展目标跟踪 机动目标 TRANSFORMER 星凸形 弗雷歇距离-面积误差
下载PDF
Dual-Path Vision Transformer用于急性缺血性脑卒中辅助诊断
19
作者 张桃红 郭学强 +4 位作者 郑瀚 罗继昌 王韬 焦力群 唐安莹 《电子科技大学学报》 EI CAS CSCD 北大核心 2024年第2期307-314,共8页
急性缺血性脑卒中是由于脑组织血液供应障碍导致的脑功能障碍,数字减影脑血管造影(DSA)是诊断脑血管疾病的金标准。基于患者的正面和侧面DSA图像,对急性缺血性脑卒中的治疗效果进行分级评估,构建基于Vision Transformer的双路径图像分... 急性缺血性脑卒中是由于脑组织血液供应障碍导致的脑功能障碍,数字减影脑血管造影(DSA)是诊断脑血管疾病的金标准。基于患者的正面和侧面DSA图像,对急性缺血性脑卒中的治疗效果进行分级评估,构建基于Vision Transformer的双路径图像分类智能模型DPVF。为了提高辅助诊断速度,基于EdgeViT的轻量化设计思想进行了模型的构建;为了使模型保持轻量化的同时具有较高的精度,提出空间-通道自注意力模块,促进Transformer模型捕获更全面的特征信息,提高模型的表达能力;此外,对于DPVF的两分支的特征融合,构建交叉注意力模块对两分支输出进行交叉融合,促使模型提取更丰富的特征,从而提高模型表现。实验结果显示DPVF在测试集上的准确率达98.5%,满足实际需求。 展开更多
关键词 急性缺血性脑卒中 视觉Transformer 双分支网络 特征融合
下载PDF
基于差分非平稳Transformer的液压支架立柱压力预测
20
作者 杨艺 Aimen Malik +1 位作者 袁瑞甫 王科平 《电子测量技术》 北大核心 2024年第6期41-49,共9页
液压支架立柱压力预测是回采工艺决策的重要依据,也是确保围岩稳定的基础信息之一。然而,液压支架立柱压力虽然具有一定的规律性,却无法用简单的数学模型进行预测;且在回采过程中,支架不接顶、顶板破碎、传感器检测误差等带来大量的随... 液压支架立柱压力预测是回采工艺决策的重要依据,也是确保围岩稳定的基础信息之一。然而,液压支架立柱压力虽然具有一定的规律性,却无法用简单的数学模型进行预测;且在回采过程中,支架不接顶、顶板破碎、传感器检测误差等带来大量的随机噪声,使得压力数据劣化为非平稳时间序列,给压力的预测带来的很大的困难。本文在Transformer基础上,提出一种差分非平稳Transformer模型,在Transformer的编码器和解码器中分别引入差分归一化和反归一化操作,以提升序列的平稳性。同时,在Transformer中采用去平稳注意力机制,计算序列元素之间的关联关系,以增强模型的预测能力。在真实的煤矿支架立柱数据集上的对比实验表明,本文提出的差分非平稳Transformer的预测效果达到0.674,表现明显优于LSTM、Transformer和非平稳Transformer模型。 展开更多
关键词 煤矿安全 工作面 液压支架 压力预测 非平稳Transformer 差分
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部