期刊文献+

二次检索

题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息

年份

学科

机构

共找到1,844,018篇文章
< 1 2 250 >
每页显示 20 50 100
面向混叠文字检测的单向投影Transformer方法 被引量:1
1
作者 冯智达 陈黎 《计算机应用》 CSCD 北大核心 2022年第12期3686-3691,共6页
针对基于分割的文字检测方法在混叠文字场景下性能下降的问题,提出了单向投影Transformer(SDPT)用于混叠文本检测。首先,使用深度残差网络(ResNet)和特征金字塔网络(FPN)提取并融合多尺度特征;然后,利用水平投影将特征图投影成向量序列... 针对基于分割的文字检测方法在混叠文字场景下性能下降的问题,提出了单向投影Transformer(SDPT)用于混叠文本检测。首先,使用深度残差网络(ResNet)和特征金字塔网络(FPN)提取并融合多尺度特征;然后,利用水平投影将特征图投影成向量序列,并送入Transformer模块进行建模,以挖掘文本行与行之间的关系;最后,使用多目标来进行联合优化。在合成数据集BDD-SynText和真实数据集RealText上进行了大量实验,结果表明,所提SDPT在高混叠度的文字检测下取得了最优的效果,而与PSENet等文本检测算法在相同骨干网络(ResNet50)条件下相比,在BDD-SynText上F1-Score(IoU75)至少提高了21.36个百分点,在RealText上的F1-Score(IoU75)至少提高了18.11个百分点,验证了所提方法对于混叠文字检测性能改善的重要作用。 展开更多
关键词 计算机视觉 深度学习 场景文字检测 混叠文字 投影 transformer算法
下载PDF
基于Transformer模型的时序数据预测方法综述
2
作者 孟祥福 石皓源 《计算机科学与探索》 北大核心 2025年第1期45-64,共20页
时序数据预测(TSF)是指通过分析历史数据的趋势性、季节性等潜在信息,预测未来时间点或时间段的数值和趋势。时序数据由传感器生成,在金融、医疗、能源、交通、气象等众多领域都发挥着重要作用。随着物联网传感器的发展,海量的时序数据... 时序数据预测(TSF)是指通过分析历史数据的趋势性、季节性等潜在信息,预测未来时间点或时间段的数值和趋势。时序数据由传感器生成,在金融、医疗、能源、交通、气象等众多领域都发挥着重要作用。随着物联网传感器的发展,海量的时序数据难以使用传统的机器学习解决,而Transformer在自然语言处理和计算机视觉等领域的诸多任务表现优秀,学者们利用Transformer模型有效捕获长期依赖关系,使得时序数据预测任务取得了飞速发展。综述了基于Transformer模型的时序数据预测方法,按时间梳理了时序数据预测的发展进程,系统介绍了时序数据预处理过程和方法,介绍了常用的时序预测评价指标和数据集。以算法框架为研究内容系统阐述了基于Transformer的各类模型在TSF任务中的应用方法和工作原理。通过实验对比了各个模型的性能、优点和局限性,并对实验结果展开了分析与讨论。结合Transformer模型在时序数据预测任务中现有工作存在的挑战提出了该方向未来发展趋势。 展开更多
关键词 深度学习 时序数据预测 数据预处理 transformer模型
下载PDF
基于残差U-Net和自注意力Transformer编码器的磁场预测方法 被引量:2
3
作者 金亮 尹振豪 +2 位作者 刘璐 宋居恒 刘元凯 《电工技术学报》 EI CSCD 北大核心 2024年第10期2937-2952,共16页
利用有限元方法对几何结构复杂的电机和变压器进行磁场分析,存在仿真时间长且无法复用的问题。因此,该文提出一种基于残差U-Net和自注意力Transformer编码器的磁场预测方法。首先建立永磁同步电机(PMSM)和非晶合金变压器(AMT)有限元模型... 利用有限元方法对几何结构复杂的电机和变压器进行磁场分析,存在仿真时间长且无法复用的问题。因此,该文提出一种基于残差U-Net和自注意力Transformer编码器的磁场预测方法。首先建立永磁同步电机(PMSM)和非晶合金变压器(AMT)有限元模型,得到深度学习训练所需的数据集;然后将Transformer模块与U-Net模型结合,并引入短残差机制建立ResUnet-Transformer模型,通过预测图像的像素实现磁场预测;最后通过Targeted Dropout算法和动态学习率调整策略对模型进行优化,解决拟合问题并提高预测精度。计算实例证明,ResUnet-Transformer模型在PMSM和AMT数据集上测试集的平均绝对百分比误差(MAPE)均小于1%,且仅需500组样本。该文提出的磁场预测方法能减少实际工况和多工况下精细模拟和拓扑优化的时间和资源消耗,亦是虚拟传感器乃至数字孪生的关键实现方法之一。 展开更多
关键词 有限元方法 电磁场 深度学习 U-Net transformer
下载PDF
基于RoBERTa和图增强Transformer的序列推荐方法 被引量:3
4
作者 王明虎 石智奎 +1 位作者 苏佳 张新生 《计算机工程》 CAS CSCD 北大核心 2024年第4期121-131,共11页
自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明... 自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明显劣势。为了更好地挖掘用户与商品之间的深层潜在特征,进一步提高推荐质量,提出一种基于Ro BERTa和图增强Transformer的序列推荐(RGT)模型。引入评论文本数据,首先利用预训练的Ro BERTa模型捕获评论文本中的字词语义特征,初步建模用户的个性化兴趣,然后根据用户与商品的历史交互信息,构建具有时序特性的商品关联图注意力机制网络模型,通过图增强Transformer的方法将图模型学习到的各个商品的特征表示以序列的形式输入Transformer编码层,最后将得到的输出向量与之前捕获的语义表征以及计算得到的商品关联图的全图表征输入全连接层,以捕获用户全局的兴趣偏好,实现用户对商品的预测评分。在3组真实亚马逊公开数据集上的实验结果表明,与Deep FM、Conv MF等经典文本推荐模型相比,RGT模型在均方根误差(RMSE)和平均绝对误差(MAE)2种指标上有显著提升,相较于最优对比模型最高分别提升4.7%和5.3%。 展开更多
关键词 推荐算法 评论文本 RoBERTa模型 图注意力机制 transformer机制
下载PDF
基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法 被引量:2
5
作者 田子建 吴佳奇 +4 位作者 张文琪 陈伟 周涛 杨伟 王帅 《煤炭科学技术》 EI CAS CSCD 北大核心 2024年第1期297-310,共14页
高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低... 高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法。基于生成对抗思想搭建生成对抗式主体模型框架,使用目标图像域而非单一参考图像驱动判别器监督生成器的训练,实现对低照度图像的充分增强;基于特征表示学习理论搭建特征编码器,将图像解耦为亮度分量和反射分量,避免图像增强过程中亮度与颜色特征相互影响从而导致颜色失真问题;设计CEM-Transformer Encoder通过捕获全局上下文关系和提取局部区域特征,能够充分提升整体图像亮度并消除局部区域照度不均;在反射分量增强过程中,使用结合CEM-Cross-Transformer Encoder的跳跃连接将低级特征与深层网络处特征进行自适应融合,能够有效避免细节特征丢失,并在编码网络中添加ECA-Net,提高浅层网络的特征提取效率。制作矿井低照度图像数据集为矿井低照度图像增强任务提供数据资源。试验显示,在矿井低照度图像数据集和公共数据集中,与5种先进的低照度图像增强算法相比,该算法增强图像的质量指标PSNR、SSIM、VIF平均提高了16.564%,10.998%,16.226%和14.438%,10.888%,14.948%,证明该算法能够有效提升整体图像亮度,消除照度不均,避免颜色失真和细节丢失,实现矿井低照度图像增强。 展开更多
关键词 图像增强 图像识别 生成对抗网络 特征解耦 transformer
下载PDF
小数据集上基于语义的局部注意视觉Transformer方法
6
作者 冯欣 王俊杰 +1 位作者 钟声 方婷婷 《计算机应用研究》 2025年第1期314-320,共7页
在小数据集上从零开始训练时,视觉Transformer无法与同规模的卷积神经网络媲美。基于图像的局部注意力方法,可以显著提高ViT的数据效率,但是会丢失距离较远但相关的补丁之间的信息。为了解决上述问题,提出一种双向并行局部注意力视觉Tra... 在小数据集上从零开始训练时,视觉Transformer无法与同规模的卷积神经网络媲美。基于图像的局部注意力方法,可以显著提高ViT的数据效率,但是会丢失距离较远但相关的补丁之间的信息。为了解决上述问题,提出一种双向并行局部注意力视觉Transformer的方法。该方法首先在特征层面上对补丁进行分组,在组内执行局部注意力,以利用特征空间中补丁之间的关系弥补信息丢失。其次,为了有效融合补丁之间的信息,将基于语义的局部注意力和基于图像的局部注意力并行结合起来,通过双向自适应学习来增强ViT模型在小数据上的性能。实验结果表明,该方法在计算量为15.2 GFLOPs和参数量为57.2 M的情况下,分别在CIFAR-10和CIFAR-100数据集上实现了97.93%和85.80%的准确性。相比于其他方法,双向并行局部注意力视觉Transformer在增强局部引导能力的同时,保持了局部注意力所需属性的有效性。 展开更多
关键词 深度学习 图像分类 transformer 局部注意力 基于语义的局部注意
下载PDF
融合卷积注意力和Transformer架构的行人重识别方法 被引量:2
7
作者 王静 李沛橦 +2 位作者 赵容锋 张云 马振玲 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期466-476,共11页
行人重识别技术是智能安防系统中的重要方法之一,为构建一个适用各种复杂场景的行人重识别模型,基于现有的卷积神经网络和Transformer模型,提出一种融合卷积注意力和Transformer(FCAT)架构的方法,以增强Transformer对局部细节信息的关... 行人重识别技术是智能安防系统中的重要方法之一,为构建一个适用各种复杂场景的行人重识别模型,基于现有的卷积神经网络和Transformer模型,提出一种融合卷积注意力和Transformer(FCAT)架构的方法,以增强Transformer对局部细节信息的关注。所提方法主要将卷积空间注意力和通道注意力嵌入Transformer架构中,分别加强对图像中重要区域的关注和对重要通道特征的关注,以进一步提高Transformer架构对局部细节特征的提取能力。在3个公开行人重识别数据集上的对比消融实验证明,所提方法在非遮挡数据集上取得了与现有方法相当的结果,在遮挡数据集上的性能得到显著提升。所提方法更加轻量化,在不增加额外计算量和模型参数的情况下,推理速度得到了提升。 展开更多
关键词 行人重识别 深度学习 卷积神经网络 transformer 注意力机制
下载PDF
基于门控循环单元和Transformer的车辆轨迹预测方法 被引量:2
8
作者 王庆荣 谭小泽 +1 位作者 朱昌锋 李裕杰 《汽车技术》 CSCD 北大核心 2024年第7期1-8,共8页
为增强自动驾驶车辆对动态环境的理解能力及其道路行驶安全性,提出基于门控循环单元(GRU)和Transformer的车辆轨迹预测模型STGTF,使用GRU提取车辆的历史轨迹特征,通过双层多头注意力(MHA)机制提取车辆的时空交互特征,生成预测轨迹。试... 为增强自动驾驶车辆对动态环境的理解能力及其道路行驶安全性,提出基于门控循环单元(GRU)和Transformer的车辆轨迹预测模型STGTF,使用GRU提取车辆的历史轨迹特征,通过双层多头注意力(MHA)机制提取车辆的时空交互特征,生成预测轨迹。试验结果表明,预测结果的均方根误差(RMSE)平均降低7.3%,STGTF在短期预测和长期预测方面均有不同程度的提升,验证了模型的有效性。 展开更多
关键词 车辆轨迹预测 门控循环单元 transformer 车辆交互 多头注意力机制
下载PDF
FMA-DETR:一种无编码器的Transformer目标检测方法 被引量:1
9
作者 周全 倪英豪 +2 位作者 莫玉玮 康彬 张索非 《信号处理》 CSCD 北大核心 2024年第6期1160-1170,共11页
DETR是第一个将Transformer应用于目标检测的视觉模型。在DETR结构中,Transformer编码器对已高度编码的图像特征进行再编码,这在一定程度上导致了网络功能的重复。此外,由于Transformer编码器具有多层深度堆叠的结构和巨大的参数量,导... DETR是第一个将Transformer应用于目标检测的视觉模型。在DETR结构中,Transformer编码器对已高度编码的图像特征进行再编码,这在一定程度上导致了网络功能的重复。此外,由于Transformer编码器具有多层深度堆叠的结构和巨大的参数量,导致网络优化变得困难,模型收敛速度缓慢。本文设计了一种无编码器的Transformer目标检测网络模型。由于不需要引入Transformer编码器,本文的模型比DETR参数量更小、计算量更低、模型收敛速度更快。但是,直接去除Transformer编码器将降低网络的表达能力,导致Transformer解码器无法从数量庞大的图像特征中关注到包含目标的图像特征,从而使检测性能大幅降低。为了缓解这个问题,本文提出了一种混合特征注意力(fusion-feature mixing attention,FMA)机制,它通过自适应特征混合和通道交叉注意力弥补检测网络特征表达能力的下降,将其应用于Transformer解码器可以减轻由于去除Transformer编码器带来的性能降低。在MS-COCO数据集上,本文网络模型(称为FMA-DETR)实现了与DETR相近的性能表现,同时本文的模型拥有更快的收敛速度、更小的参数量以及更低的计算量。本文还进行了大量消融实验来验证所提出方法的有效性。 展开更多
关键词 目标检测 transformer 编码器 DETR 混合注意力
下载PDF
考虑特征重组与改进Transformer的风电功率短期日前预测方法 被引量:5
10
作者 李练兵 高国强 +3 位作者 吴伟强 魏玉憧 卢盛欣 梁纪峰 《电网技术》 EI CSCD 北大核心 2024年第4期1466-1476,I0025,I0027-I0029,共15页
短期日前风电功率预测对电力系统调度计划制定有重要意义,该文为提高风电功率预测的准确性,提出了一种基于Transformer的预测模型Powerformer。模型通过因果注意力机制挖掘序列的时序依赖;通过去平稳化模块优化因果注意力以提高数据本... 短期日前风电功率预测对电力系统调度计划制定有重要意义,该文为提高风电功率预测的准确性,提出了一种基于Transformer的预测模型Powerformer。模型通过因果注意力机制挖掘序列的时序依赖;通过去平稳化模块优化因果注意力以提高数据本身的可预测性;通过设计趋势增强和周期增强模块提高模型的预测能力;通过改进解码器的多头注意力层,使模型提取周期特征和趋势特征。该文首先对风电数据进行预处理,采用完全自适应噪声集合经验模态分解(complete ensemble empirical mode decomposition with adaptive noise,CEEMDAN)将风电数据序列分解为不同频率的本征模态函数并计算其样本熵,使得风电功率序列重组为周期序列和趋势序列,然后将序列输入到Powerformer模型,实现对风电功率短期日前准确预测。结果表明,虽然训练时间长于已有预测模型,但Poweformer模型预测精度得到提升;同时,消融实验结果验证了模型各模块的必要性和有效性,具有一定的应用价值。 展开更多
关键词 风电功率预测 特征重组 transformer模型 注意力机制 周期趋势增强
下载PDF
基于Transformer的陶瓷轴承表面缺陷检测方法 被引量:1
11
作者 安冬 胡荣华 +3 位作者 王丽艳 邵萌 李新然 刘则通 《组合机床与自动化加工技术》 北大核心 2024年第2期160-163,168,共5页
针对传统机器视觉检测方法中,由于陶瓷轴承滚动体表面曲率大、对比度低,表面成像模糊导致后续缺陷检测精度低的问题,提出一种基于Transformer的超分辨率残差网络。首先,网络使用残差学习策略,通过预测模糊图像与清晰图像之间的差值,实... 针对传统机器视觉检测方法中,由于陶瓷轴承滚动体表面曲率大、对比度低,表面成像模糊导致后续缺陷检测精度低的问题,提出一种基于Transformer的超分辨率残差网络。首先,网络使用残差学习策略,通过预测模糊图像与清晰图像之间的差值,实现超分辨率任务;其次,在网络上前端插入通道注意力模块和空间注意力模块并改进L2多头自注意力模块,以增强图像纹理、改善梯度爆炸问题;最后,针对超分辨率重建任务,提出一种两阶段训练策略优化训练过程。自建陶瓷轴承表面缺陷数据集上的大量实验结果表明,所提出网络模型在客观指标与主观评价上均优于MSESRGAN、VSDR等超分辨率算法,重建图像SSIM为0.939,PSNR为36.51 dB。 展开更多
关键词 Si_(3)N_(4)陶瓷轴承 超分辨率重建 transformer 图像恢复 图像增强
下载PDF
基于LSTM与Transformer的地面沉降智能预测方法研究——以上海市为例 被引量:3
12
作者 彭文祥 张德英 《时空信息学报》 2024年第1期94-103,共10页
受地面沉降严重威胁到生命财产安全的人口已达19%,开展地面沉降模拟预测对防灾减灾具有非常重要的现实意义。针对现有地面沉降预测在模型参数难以获取、单一深度学习方法在预测精度低等方面的局限性,本文提出了集成大模型核心技术的地... 受地面沉降严重威胁到生命财产安全的人口已达19%,开展地面沉降模拟预测对防灾减灾具有非常重要的现实意义。针对现有地面沉降预测在模型参数难以获取、单一深度学习方法在预测精度低等方面的局限性,本文提出了集成大模型核心技术的地面沉降预测方法。首先,从地面沉降模拟预测的顶层设计,提出了基于深度学习的地面沉降预测包括算力层、数据层、模型层、评估层与应用层的总体架构;其次,基于LSTM与Transformer提出了地面沉降预测的实用方法;最后,利用上海的地面沉降数据进行了实验研究。结果表明:深度学习技术可以在地面沉降模拟预测中取得较好的结果,多模型法对地面沉降变化不大、回弹、变化较大均可进行预测,iTransformer模型对地面沉降变化较小的情况预测效果较好;在微量地面沉降时代,利用大模型的核心技术Transformer可以取得较高的精度。 展开更多
关键词 地面沉降 深度学习 时间序列预测 长短期记忆 transformer 大模型
下载PDF
空间可分离注意力的跨尺度编码Transformer遥感图像道路提取方法
13
作者 田青 张瑶 +1 位作者 张正 吕其修 《计算机工程与应用》 CSCD 北大核心 2024年第23期219-228,共10页
遥感图像的道路分割任务是遥感应用领域的一个研究热点,一直受到广泛的关注。由于遥感图像天然具备背景复杂、目标密集等特性,全局语义信息的构建对于准确提取遥感图像中道路是至关重要的。因此,基于Transformer模型进行优化,提出了基... 遥感图像的道路分割任务是遥感应用领域的一个研究热点,一直受到广泛的关注。由于遥感图像天然具备背景复杂、目标密集等特性,全局语义信息的构建对于准确提取遥感图像中道路是至关重要的。因此,基于Transformer模型进行优化,提出了基于空间可分离注意力的跨尺度令牌嵌入Transformer遥感道路提取模型Cross-RoadFormer。具体而言,针对图像中道路尺度不统一的问题,设计了跨尺度编码层,将不同尺度的特征编码作为一个令牌嵌入整体,作为Transformer的输入,解决了Transformer跨尺度交互的问题;此外,提出了一种空间可分离注意力,其中,局部分组注意力获取细粒度、短距离信息,全局采样注意力捕获长距离、全局上下文信息,在保证道路提取准确度的前提下,降低了模型的计算量。在Massachusetts数据集和DeepGlobe数据集上的实验表明,提出的Cross-RoadFormer都实现了更高的IoU(intersection over union),分别为68.40%和58.04%,展现了该方法的优越性。 展开更多
关键词 道路提取 遥感图像 transformer 注意力机制
下载PDF
基于Point Transformer方法的鱼类三维点云模型分类
14
作者 胡少秋 段瑞 +3 位作者 张东旭 鲍江辉 吕华飞 段明 《水生生物学报》 2025年第2期146-155,共10页
为实现对不同鱼类的精准分类,研究共采集110尾真实鱼类的三维模型,对获取的3D模型进行基于预处理、旋转增强和下采样等操作后,获取了1650尾实验样本。然后基于Point Transformer网络和2个三维分类的对比网络进行数据集的分类训练和验证... 为实现对不同鱼类的精准分类,研究共采集110尾真实鱼类的三维模型,对获取的3D模型进行基于预处理、旋转增强和下采样等操作后,获取了1650尾实验样本。然后基于Point Transformer网络和2个三维分类的对比网络进行数据集的分类训练和验证。结果表明,利用本实验的目标方法Point Transformer获得了比2个对比网络更好的分类结果,整体的分类准确率能够达到91.9%。同时对所使用的三维分类网络进行有效性评估,3个模型对于5种真实鱼类模型的分类是有意义的,其中Point Transformer的模型ROC曲线准确率最高,AUC面积最大,对于三维鱼类数据集的分类最为有效。研究提供了一种可以实现对鱼类三维模型进行精准分类的方法,为以后的智能化渔业资源监测提供一种新的技术手段。 展开更多
关键词 点云处理 Point transformer 三维模型 鱼类分类
下载PDF
基于Transformer复杂运动辨识的机动星凸形扩展目标跟踪方法
15
作者 陈辉 边斌超 +1 位作者 连峰 韩崇昭 《雷达学报(中英文)》 EI CSCD 北大核心 2024年第3期629-645,共17页
针对复杂的机动扩展目标跟踪问题,利用Transformer网络设计了一种有效的星凸不规则形状机动扩展目标跟踪方法。首先,该文研究利用alpha-shape算法建立了星凸形状的变化模型,实现了静态场景下的星凸形扩展目标的形状估计。然后,通过对目... 针对复杂的机动扩展目标跟踪问题,利用Transformer网络设计了一种有效的星凸不规则形状机动扩展目标跟踪方法。首先,该文研究利用alpha-shape算法建立了星凸形状的变化模型,实现了静态场景下的星凸形扩展目标的形状估计。然后,通过对目标状态转移矩阵进行重新设计,结合Transformer网络对机动扩展目标运动状态转移矩阵进行实时估计,实现了对复杂机动目标运动过程的精准跟踪。进一步地,将估计得到的形状轮廓与运动状态进行融合,最终实现了对星凸形机动扩展目标的实时跟踪。最后,通过构造复杂的机动扩展目标跟踪场景,利用多重性能指标测试算法对形状和运动状态的综合估计性能,验证了算法的有效性。 展开更多
关键词 扩展目标跟踪 机动目标 transformer 星凸形 弗雷歇距离-面积误差
下载PDF
基于多层级视频Transformer的视觉自动定位方法
16
作者 邹琦萍 李博涛 +2 位作者 陈赛安 郭茜 张桃红 《工程科学与技术》 EI CAS CSCD 北大核心 2024年第6期34-43,共10页
工业自动化产线中,设备的异常检测直接决定加工质量,由机械臂和搭载于机械臂前端的工业相机构成的视觉系统可以有效监测此类异常。本文使用六轴机械臂搭载工业相机对工件表面进行成像,获取由模糊到清晰再到模糊的视频序列,以此选出最清... 工业自动化产线中,设备的异常检测直接决定加工质量,由机械臂和搭载于机械臂前端的工业相机构成的视觉系统可以有效监测此类异常。本文使用六轴机械臂搭载工业相机对工件表面进行成像,获取由模糊到清晰再到模糊的视频序列,以此选出最清晰的视频帧作为自动加工中有聚焦要求的距离指导,以进行聚焦异常修正,从而实现自动定位。提出一种基于多层级视频Transformer的视频分类模型多级视频Transformer(MLVT)用于高语义级别的视频表征学习,并用于选出视频序列中成像最清晰的帧。首先,提出一种具有多种感受野的token划分方法多级标记(MLT),能够将原始视频数据按2D图像补丁、3D图像补丁、帧和片段这4个层级划分成token序列,并在加入位置编码之后送入多级编码器(MLE)方法进行注意力的计算。为了缓解多层级的tokens带来的计算代价和收敛速度慢的问题,MLE引入一种逐层的可变形注意力机制逐层可变形注意力机制(LWLA),以一种可学习的方式代替全局注意力进行特征相似性的计算。最终,该方法3个版本的模型在本文的视频数据集上分别取得了87.2%、88.6%、88.9%的分类准确率,在与同参数量级的主流视频Transformer实验对比中均表现了最优的性能,有效地完成了从视频序列中选择出最清晰帧的任务,能够为下游视觉任务的性能提供强有力保障。 展开更多
关键词 视频transformer 视频分类 视觉自动定位 可变形注意力
下载PDF
基于CNN和Transformer的组织病理图像分割方法
17
作者 丁维龙 宗泽永 +1 位作者 朱红波 徐利锋 《浙江工业大学学报》 CAS 北大核心 2024年第6期591-600,共10页
在数字组织病理诊断中的肿瘤细胞精确分割研究中,病理图像具有复杂的背景以及组织形态变化的多样性,且经常面临样本数量不足和类别不均衡的挑战。为了改善现有方法中存在的分割精度不佳、分割边缘失真等问题,提出了一种混合架构的编解... 在数字组织病理诊断中的肿瘤细胞精确分割研究中,病理图像具有复杂的背景以及组织形态变化的多样性,且经常面临样本数量不足和类别不均衡的挑战。为了改善现有方法中存在的分割精度不佳、分割边缘失真等问题,提出了一种混合架构的编解码器语义分割网络模型(MixU-Net)。首先,在编码器中引入Swin-Transformer模块,增强模型对于全局信息的建模能力;然后,在编解码器之间设计了多尺度特征融合模块,使全局特征和局部细粒度特征能够得到深度融合;最后,采用加权Dice Loss作为损失函数以增强模型对小目标的关注。通过在组织病理图像数据集Pannuke上进行消融和对比实验,不仅达到了67.33%的平均交并比(mIoU)和95.05%的像素准确率(aAcc),与传统的基于CNN特征提取方法的U-Net相比分别提升了7.23%和1.70%,而且在性能上超过了其他基于深度学习的图像分割方法。 展开更多
关键词 图像分割 深度学习 组织病理图像 transformer 卷积神经网络
下载PDF
基于Transformer的司法文书命名实体识别方法
18
作者 王颖洁 张程烨 +1 位作者 白凤波 汪祖民 《计算机科学》 CSCD 北大核心 2024年第S01期113-121,共9页
命名实体识别是自然语言处理领域的关键任务之一,是实现下游任务的基础。目前针对司法领域的相关研究相对较少,司法系统的信息化和智能化转型仍有许多问题亟需解决。相比其他领域的文本,司法文书存在专业性强、语料资源少等局限,导致现... 命名实体识别是自然语言处理领域的关键任务之一,是实现下游任务的基础。目前针对司法领域的相关研究相对较少,司法系统的信息化和智能化转型仍有许多问题亟需解决。相比其他领域的文本,司法文书存在专业性强、语料资源少等局限,导致现有的司法文书识别结果较低。因此,从以下3方面开展研究:首先,提出了一种多标签层级迭代的文本标注方式,可以对原始司法文书文本进行自动化标注,同时有效地提升司法文书命名实体识别任务的实体识别效果;其次,提出了一种交融式的Transformer神经网络模型,对汉字固有属性的深层特征进行了充分利用,用于对司法文书进行命名实体识别;最后,对所提出的标注方法和模型与其他神经网络模型进行了对比实验。所提出的文本标注方式可以较为准确地实现司法文书的标注任务;同时,所提出的模型在通用数据集中相对于对照模型有较大的提高,并在司法领域数据集中取得了良好的效果。 展开更多
关键词 自然语言处理 数据标注 transformer模型 深度学习 司法信息化
下载PDF
基于Transformer网络多模态融合的密集视频描述方法
19
作者 李想 桑海峰 《系统仿真学报》 CAS CSCD 北大核心 2024年第5期1061-1071,共11页
针对目前的密集视频描述模型大多使用两阶段的方法存在效率较低、忽略音频及语义信息,描述结果不全面的问题。提出了一种基于Transformer网络多模态和语义信息融合的密集视频描述方法。提取自适应R(2+1)D网络提取视觉特征,设计了语义探... 针对目前的密集视频描述模型大多使用两阶段的方法存在效率较低、忽略音频及语义信息,描述结果不全面的问题。提出了一种基于Transformer网络多模态和语义信息融合的密集视频描述方法。提取自适应R(2+1)D网络提取视觉特征,设计了语义探测器生成语义信息,加入音频特征进行补充,建立了多尺度可变形注意力模块,应用并行的预测头,加快模型收敛速度,提高模型精度。实验结果表明:模型在2个基准数据集上性能均有很好的表现,评价指标BLEU4上达到了2.17。 展开更多
关键词 密集事件描述 transformer网络 语义信息 多模态融合 可变形注意力
下载PDF
基于改进Transformer的滚动轴承剩余寿命预测方法
20
作者 温江涛 张哲 《燕山大学学报》 CAS 北大核心 2024年第4期312-321,共10页
针对现有的滚动轴承剩余使用寿命预测方法存在预测准确度不足、训练效率不高等问题,提出一种时频分析结合改进Transformer的轴承剩余使用寿命预测方法。首先用短时傅里叶变换提取轴承的时频特征,为了改善Transformer的特征提取能力,研... 针对现有的滚动轴承剩余使用寿命预测方法存在预测准确度不足、训练效率不高等问题,提出一种时频分析结合改进Transformer的轴承剩余使用寿命预测方法。首先用短时傅里叶变换提取轴承的时频特征,为了改善Transformer的特征提取能力,研究了基于膨胀因果卷积的可变长度数据分析结构,并设计了自适应位置编码模块替代Transformer的传统编码方式,改进的模型增强了对时频数据的分析能力,实现了高效、准确的端到端的滚动轴承剩余寿命预测。在PHM2012轴承数据集上的实验结果表明提出的方法的效率比LSTM高20%,同时预测精度相比于多种现有传统方法均具有16%以上的提升。 展开更多
关键词 剩余寿命预测 transformer 膨胀因果卷积 自适应位置编码
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部