期刊文献+
共找到1,531,295篇文章
< 1 2 250 >
每页显示 20 50 100
基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法 被引量:1
1
作者 田子建 吴佳奇 +4 位作者 张文琪 陈伟 周涛 杨伟 王帅 《煤炭科学技术》 EI CAS CSCD 北大核心 2024年第1期297-310,共14页
高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低... 高质量矿井影像为矿山安全生产提供保障,也有利于提高后续图像分析技术的性能。矿井影像受低照度环境的影响,易出现亮度低,照度不均,颜色失真,细节信息丢失严重等问题。针对上述问题,提出一种基于Transformer和自适应特征融合的矿井低照度图像亮度提升和细节增强方法。基于生成对抗思想搭建生成对抗式主体模型框架,使用目标图像域而非单一参考图像驱动判别器监督生成器的训练,实现对低照度图像的充分增强;基于特征表示学习理论搭建特征编码器,将图像解耦为亮度分量和反射分量,避免图像增强过程中亮度与颜色特征相互影响从而导致颜色失真问题;设计CEM-Transformer Encoder通过捕获全局上下文关系和提取局部区域特征,能够充分提升整体图像亮度并消除局部区域照度不均;在反射分量增强过程中,使用结合CEM-Cross-Transformer Encoder的跳跃连接将低级特征与深层网络处特征进行自适应融合,能够有效避免细节特征丢失,并在编码网络中添加ECA-Net,提高浅层网络的特征提取效率。制作矿井低照度图像数据集为矿井低照度图像增强任务提供数据资源。试验显示,在矿井低照度图像数据集和公共数据集中,与5种先进的低照度图像增强算法相比,该算法增强图像的质量指标PSNR、SSIM、VIF平均提高了16.564%,10.998%,16.226%和14.438%,10.888%,14.948%,证明该算法能够有效提升整体图像亮度,消除照度不均,避免颜色失真和细节丢失,实现矿井低照度图像增强。 展开更多
关键词 图像增强 图像识别 生成对抗网络 特征解耦 transformer
下载PDF
基于RoBERTa和图增强Transformer的序列推荐方法 被引量:1
2
作者 王明虎 石智奎 +1 位作者 苏佳 张新生 《计算机工程》 CAS CSCD 北大核心 2024年第4期121-131,共11页
自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明... 自推荐系统出现以来,有限的数据信息就一直制约着推荐算法的进一步发展。为降低数据稀疏性的影响,增强非评分数据的利用率,基于神经网络的文本推荐模型相继被提出,但主流的卷积或循环神经网络在文本语义理解和长距离关系捕捉方面存在明显劣势。为了更好地挖掘用户与商品之间的深层潜在特征,进一步提高推荐质量,提出一种基于Ro BERTa和图增强Transformer的序列推荐(RGT)模型。引入评论文本数据,首先利用预训练的Ro BERTa模型捕获评论文本中的字词语义特征,初步建模用户的个性化兴趣,然后根据用户与商品的历史交互信息,构建具有时序特性的商品关联图注意力机制网络模型,通过图增强Transformer的方法将图模型学习到的各个商品的特征表示以序列的形式输入Transformer编码层,最后将得到的输出向量与之前捕获的语义表征以及计算得到的商品关联图的全图表征输入全连接层,以捕获用户全局的兴趣偏好,实现用户对商品的预测评分。在3组真实亚马逊公开数据集上的实验结果表明,与Deep FM、Conv MF等经典文本推荐模型相比,RGT模型在均方根误差(RMSE)和平均绝对误差(MAE)2种指标上有显著提升,相较于最优对比模型最高分别提升4.7%和5.3%。 展开更多
关键词 推荐算 评论文本 RoBERTa模型 图注意力机制 transformer机制
下载PDF
考虑特征重组与改进Transformer的风电功率短期日前预测方法 被引量:1
3
作者 李练兵 高国强 +3 位作者 吴伟强 魏玉憧 卢盛欣 梁纪峰 《电网技术》 EI CSCD 北大核心 2024年第4期1466-1476,I0025,I0027-I0029,共15页
短期日前风电功率预测对电力系统调度计划制定有重要意义,该文为提高风电功率预测的准确性,提出了一种基于Transformer的预测模型Powerformer。模型通过因果注意力机制挖掘序列的时序依赖;通过去平稳化模块优化因果注意力以提高数据本... 短期日前风电功率预测对电力系统调度计划制定有重要意义,该文为提高风电功率预测的准确性,提出了一种基于Transformer的预测模型Powerformer。模型通过因果注意力机制挖掘序列的时序依赖;通过去平稳化模块优化因果注意力以提高数据本身的可预测性;通过设计趋势增强和周期增强模块提高模型的预测能力;通过改进解码器的多头注意力层,使模型提取周期特征和趋势特征。该文首先对风电数据进行预处理,采用完全自适应噪声集合经验模态分解(complete ensemble empirical mode decomposition with adaptive noise,CEEMDAN)将风电数据序列分解为不同频率的本征模态函数并计算其样本熵,使得风电功率序列重组为周期序列和趋势序列,然后将序列输入到Powerformer模型,实现对风电功率短期日前准确预测。结果表明,虽然训练时间长于已有预测模型,但Poweformer模型预测精度得到提升;同时,消融实验结果验证了模型各模块的必要性和有效性,具有一定的应用价值。 展开更多
关键词 风电功率预测 特征重组 transformer模型 注意力机制 周期趋势增强
下载PDF
基于Transformer改进的YOLOv5+DeepSORT的车辆跟踪算法
4
作者 何水龙 张靖佳 +1 位作者 张林俊 莫德赟 《汽车技术》 CSCD 北大核心 2024年第7期9-16,共8页
针对传统目标检测跟踪算法检测精度低、全局感知能力差、对遮挡和小目标物体的识别能力差等问题,提出了一种基于轻量化Transformer改进的YOLOv5和DeepSORT算法的车辆跟踪方法。首先,利用EfficientFormerV2模型改进YOLOv5算法模型,增强... 针对传统目标检测跟踪算法检测精度低、全局感知能力差、对遮挡和小目标物体的识别能力差等问题,提出了一种基于轻量化Transformer改进的YOLOv5和DeepSORT算法的车辆跟踪方法。首先,利用EfficientFormerV2模型改进YOLOv5算法模型,增强车辆的目标检测能力;然后,利用移位窗口(Swin)模型的优点改进DeepSORT多目标跟踪算法中的重识别(Re-Identification)模块,提高车辆的跟踪能力和精度;最后,通过数据集KITTI和VeRi开展对比试验和消融实验。结果表明,在复杂工况下,该方法的性能在车辆遮挡和小目标识别方面显著提高,平均准确度达到96.7%,目标跟踪准确度提高了9.547%,编号(ID)切换总次数减少了26.4%。 展开更多
关键词 YOLOv5 车辆检测 DeepSORT transformer
下载PDF
CNN-Transformer特征融合多目标跟踪算法
5
作者 张英俊 白小辉 谢斌红 《计算机工程与应用》 CSCD 北大核心 2024年第2期180-190,共11页
在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特... 在卷积神经网络(CNN)中,卷积运算能高效地提取目标的局部特征,却难以捕获全局表示;而在视觉Transformer中,注意力机制可以捕获长距离的特征依赖,但会忽略局部特征细节。针对以上问题,提出一种基于CNN-Transformer双分支主干网络进行特征提取和融合的多目标跟踪算法CTMOT(CNN-transformer multi-object tracking)。使用基于CNN和Transformer双分支并行的主干网络分别提取图像的局部和全局特征。使用双向桥接模块(two-way braidge module,TBM)对两种特征进行充分融合。将融合后的特征输入两组并行的解码器进行处理。将解码器输出的检测框和跟踪框进行匹配,完成多目标跟踪任务。在多目标跟踪数据集MOT17、MOT20、KITTI以及UADETRAC上进行评估,CTMOT算法的MOTP和IDs指标在四个数据集上均达到了SOTA效果,MOTA指标分别达到了76.4%、66.3%、92.36%和88.57%,在MOT数据集上与SOTA方法效果相当,在KITTI数据集上达到SOTA效果。由于同时完成目标检测和关联,能够端到端进行目标跟踪,跟踪速度可达35 FPS,表明CTMOT算法在跟踪的实时性和准确性上达到了较好的平衡,具有较大潜力。 展开更多
关键词 多目标跟踪 transformer 特征融合
下载PDF
基于Transformer复杂运动辨识的机动星凸形扩展目标跟踪方法
6
作者 陈辉 边斌超 +1 位作者 连峰 韩崇昭 《雷达学报(中英文)》 EI CSCD 北大核心 2024年第3期629-645,共17页
针对复杂的机动扩展目标跟踪问题,利用Transformer网络设计了一种有效的星凸不规则形状机动扩展目标跟踪方法。首先,该文研究利用alpha-shape算法建立了星凸形状的变化模型,实现了静态场景下的星凸形扩展目标的形状估计。然后,通过对目... 针对复杂的机动扩展目标跟踪问题,利用Transformer网络设计了一种有效的星凸不规则形状机动扩展目标跟踪方法。首先,该文研究利用alpha-shape算法建立了星凸形状的变化模型,实现了静态场景下的星凸形扩展目标的形状估计。然后,通过对目标状态转移矩阵进行重新设计,结合Transformer网络对机动扩展目标运动状态转移矩阵进行实时估计,实现了对复杂机动目标运动过程的精准跟踪。进一步地,将估计得到的形状轮廓与运动状态进行融合,最终实现了对星凸形机动扩展目标的实时跟踪。最后,通过构造复杂的机动扩展目标跟踪场景,利用多重性能指标测试算法对形状和运动状态的综合估计性能,验证了算法的有效性。 展开更多
关键词 扩展目标跟踪 机动目标 transformer 星凸形 弗雷歇距离-面积误差
下载PDF
基于残差U-Net和自注意力Transformer编码器的磁场预测方法
7
作者 金亮 尹振豪 +2 位作者 刘璐 宋居恒 刘元凯 《电工技术学报》 EI CSCD 北大核心 2024年第10期2937-2952,共16页
利用有限元方法对几何结构复杂的电机和变压器进行磁场分析,存在仿真时间长且无法复用的问题。因此,该文提出一种基于残差U-Net和自注意力Transformer编码器的磁场预测方法。首先建立永磁同步电机(PMSM)和非晶合金变压器(AMT)有限元模型... 利用有限元方法对几何结构复杂的电机和变压器进行磁场分析,存在仿真时间长且无法复用的问题。因此,该文提出一种基于残差U-Net和自注意力Transformer编码器的磁场预测方法。首先建立永磁同步电机(PMSM)和非晶合金变压器(AMT)有限元模型,得到深度学习训练所需的数据集;然后将Transformer模块与U-Net模型结合,并引入短残差机制建立ResUnet-Transformer模型,通过预测图像的像素实现磁场预测;最后通过Targeted Dropout算法和动态学习率调整策略对模型进行优化,解决拟合问题并提高预测精度。计算实例证明,ResUnet-Transformer模型在PMSM和AMT数据集上测试集的平均绝对百分比误差(MAPE)均小于1%,且仅需500组样本。该文提出的磁场预测方法能减少实际工况和多工况下精细模拟和拓扑优化的时间和资源消耗,亦是虚拟传感器乃至数字孪生的关键实现方法之一。 展开更多
关键词 有限元方 电磁场 深度学习 U-Net transformer
下载PDF
利用Transformer的多模态目标跟踪算法
8
作者 刘万军 梁林林 曲海成 《计算机工程与应用》 CSCD 北大核心 2024年第11期84-94,共11页
目前目标跟踪方法大多通过融合不同模态信息进行定位决策,存在信息提取不充分、融合方法简单、弱光场景无法准确跟踪目标的问题。为此,提出一种基于Transformer的多模态目标跟踪算法(Trans-RGBT):利用伪孪生网络对可见光图像和红外图像... 目前目标跟踪方法大多通过融合不同模态信息进行定位决策,存在信息提取不充分、融合方法简单、弱光场景无法准确跟踪目标的问题。为此,提出一种基于Transformer的多模态目标跟踪算法(Trans-RGBT):利用伪孪生网络对可见光图像和红外图像分别进行特征提取,并在特征层面充分融合;将首帧目标信息调制到待跟踪帧的特征向量中,得到一个专用跟踪器;应用Transformer的方法对视野中的目标进行编解码,通过空间位置预测分支预测目标在视野中的空间位置,并结合历史信息滤除干扰目标,得到目标的准确位置;使用矩形框回归网络预测目标的外接矩形框,从而实现目标准确跟踪。在最新的大规模数据集VTUAV、RGBT234上进行了实验,与孪生网络(Siambased)、滤波(filter-based)算法相比,Trans-RGBT精度更高、鲁棒性更好、速度接近实时,达22 FPS。 展开更多
关键词 多模态融合 可见光图像 红外图像 transformer 目标跟踪
下载PDF
基于改进的Transformer细粒度图像识别算法研究
9
作者 李冰锋 刘帅 杨艺 《电子测量技术》 北大核心 2024年第2期114-120,共7页
针对细粒度图像识别存在类间差异小、难以区分等问题,本文通过提升网络对图像细节特征的表达能力,来改善这一问题。为此,设计了一种基于改进的Transformer细粒度识别算法。首先,可变形卷积令牌嵌入通过自适应调整采样点的位置,来改变卷... 针对细粒度图像识别存在类间差异小、难以区分等问题,本文通过提升网络对图像细节特征的表达能力,来改善这一问题。为此,设计了一种基于改进的Transformer细粒度识别算法。首先,可变形卷积令牌嵌入通过自适应调整采样点的位置,来改变卷积操作范围及其卷积核的形状,从而增强网络模型对空间信息的感知能力,以获取更为精准的空间信息;其次,高效相关通道注意力机制通过对通道的自动选择,将通道注意力的计算从通道相邻转换成语义相似,来捕获语义相似的通道信息。而精准的空间信息和语义相似的通道信息将有效提升网络模型局部特征感知能力。实验结果表明,与基线算法相比,本文方法在CUB-200-2011、StanfordCars和StanfordDogs三个数据集上的识别结果分别提升了1.5%、2.4%、1.5%。结果表明,本文提出的方法通过提升细粒度图像细节特征的表达能力,从而有效提高了细粒度图像识别的有效性。 展开更多
关键词 细粒度图像识别 transformer 可变形卷积
下载PDF
融合卷积注意力和Transformer架构的行人重识别方法
10
作者 王静 李沛橦 +2 位作者 赵容锋 张云 马振玲 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期466-476,共11页
行人重识别技术是智能安防系统中的重要方法之一,为构建一个适用各种复杂场景的行人重识别模型,基于现有的卷积神经网络和Transformer模型,提出一种融合卷积注意力和Transformer(FCAT)架构的方法,以增强Transformer对局部细节信息的关... 行人重识别技术是智能安防系统中的重要方法之一,为构建一个适用各种复杂场景的行人重识别模型,基于现有的卷积神经网络和Transformer模型,提出一种融合卷积注意力和Transformer(FCAT)架构的方法,以增强Transformer对局部细节信息的关注。所提方法主要将卷积空间注意力和通道注意力嵌入Transformer架构中,分别加强对图像中重要区域的关注和对重要通道特征的关注,以进一步提高Transformer架构对局部细节特征的提取能力。在3个公开行人重识别数据集上的对比消融实验证明,所提方法在非遮挡数据集上取得了与现有方法相当的结果,在遮挡数据集上的性能得到显著提升。所提方法更加轻量化,在不增加额外计算量和模型参数的情况下,推理速度得到了提升。 展开更多
关键词 行人重识别 深度学习 卷积神经网络 transformer 注意力机制
下载PDF
基于Transformer的司法文书命名实体识别方法
11
作者 王颖洁 张程烨 +1 位作者 白凤波 汪祖民 《计算机科学》 CSCD 北大核心 2024年第S01期113-121,共9页
命名实体识别是自然语言处理领域的关键任务之一,是实现下游任务的基础。目前针对司法领域的相关研究相对较少,司法系统的信息化和智能化转型仍有许多问题亟需解决。相比其他领域的文本,司法文书存在专业性强、语料资源少等局限,导致现... 命名实体识别是自然语言处理领域的关键任务之一,是实现下游任务的基础。目前针对司法领域的相关研究相对较少,司法系统的信息化和智能化转型仍有许多问题亟需解决。相比其他领域的文本,司法文书存在专业性强、语料资源少等局限,导致现有的司法文书识别结果较低。因此,从以下3方面开展研究:首先,提出了一种多标签层级迭代的文本标注方式,可以对原始司法文书文本进行自动化标注,同时有效地提升司法文书命名实体识别任务的实体识别效果;其次,提出了一种交融式的Transformer神经网络模型,对汉字固有属性的深层特征进行了充分利用,用于对司法文书进行命名实体识别;最后,对所提出的标注方法和模型与其他神经网络模型进行了对比实验。所提出的文本标注方式可以较为准确地实现司法文书的标注任务;同时,所提出的模型在通用数据集中相对于对照模型有较大的提高,并在司法领域数据集中取得了良好的效果。 展开更多
关键词 自然语言处理 数据标注 transformer模型 深度学习 信息化
下载PDF
基于Transformer网络多模态融合的密集视频描述方法
12
作者 李想 桑海峰 《系统仿真学报》 CAS CSCD 北大核心 2024年第5期1061-1071,共11页
针对目前的密集视频描述模型大多使用两阶段的方法存在效率较低、忽略音频及语义信息,描述结果不全面的问题。提出了一种基于Transformer网络多模态和语义信息融合的密集视频描述方法。提取自适应R(2+1)D网络提取视觉特征,设计了语义探... 针对目前的密集视频描述模型大多使用两阶段的方法存在效率较低、忽略音频及语义信息,描述结果不全面的问题。提出了一种基于Transformer网络多模态和语义信息融合的密集视频描述方法。提取自适应R(2+1)D网络提取视觉特征,设计了语义探测器生成语义信息,加入音频特征进行补充,建立了多尺度可变形注意力模块,应用并行的预测头,加快模型收敛速度,提高模型精度。实验结果表明:模型在2个基准数据集上性能均有很好的表现,评价指标BLEU4上达到了2.17。 展开更多
关键词 密集事件描述 transformer网络 语义信息 多模态融合 可变形注意力
下载PDF
基于门控循环单元和Transformer的车辆轨迹预测方法
13
作者 王庆荣 谭小泽 +1 位作者 朱昌锋 李裕杰 《汽车技术》 CSCD 北大核心 2024年第7期1-8,共8页
为增强自动驾驶车辆对动态环境的理解能力及其道路行驶安全性,提出基于门控循环单元(GRU)和Transformer的车辆轨迹预测模型STGTF,使用GRU提取车辆的历史轨迹特征,通过双层多头注意力(MHA)机制提取车辆的时空交互特征,生成预测轨迹。试... 为增强自动驾驶车辆对动态环境的理解能力及其道路行驶安全性,提出基于门控循环单元(GRU)和Transformer的车辆轨迹预测模型STGTF,使用GRU提取车辆的历史轨迹特征,通过双层多头注意力(MHA)机制提取车辆的时空交互特征,生成预测轨迹。试验结果表明,预测结果的均方根误差(RMSE)平均降低7.3%,STGTF在短期预测和长期预测方面均有不同程度的提升,验证了模型的有效性。 展开更多
关键词 车辆轨迹预测 门控循环单元 transformer 车辆交互 多头注意力机制
下载PDF
基于改进Transformer的滚动轴承剩余寿命预测方法
14
作者 温江涛 张哲 《燕山大学学报》 CAS 北大核心 2024年第4期312-321,共10页
针对现有的滚动轴承剩余使用寿命预测方法存在预测准确度不足、训练效率不高等问题,提出一种时频分析结合改进Transformer的轴承剩余使用寿命预测方法。首先用短时傅里叶变换提取轴承的时频特征,为了改善Transformer的特征提取能力,研... 针对现有的滚动轴承剩余使用寿命预测方法存在预测准确度不足、训练效率不高等问题,提出一种时频分析结合改进Transformer的轴承剩余使用寿命预测方法。首先用短时傅里叶变换提取轴承的时频特征,为了改善Transformer的特征提取能力,研究了基于膨胀因果卷积的可变长度数据分析结构,并设计了自适应位置编码模块替代Transformer的传统编码方式,改进的模型增强了对时频数据的分析能力,实现了高效、准确的端到端的滚动轴承剩余寿命预测。在PHM2012轴承数据集上的实验结果表明提出的方法的效率比LSTM高20%,同时预测精度相比于多种现有传统方法均具有16%以上的提升。 展开更多
关键词 剩余寿命预测 transformer 膨胀因果卷积 自适应位置编码
下载PDF
基于Transformer的陶瓷轴承表面缺陷检测方法
15
作者 安冬 胡荣华 +3 位作者 王丽艳 邵萌 李新然 刘则通 《组合机床与自动化加工技术》 北大核心 2024年第2期160-163,168,共5页
针对传统机器视觉检测方法中,由于陶瓷轴承滚动体表面曲率大、对比度低,表面成像模糊导致后续缺陷检测精度低的问题,提出一种基于Transformer的超分辨率残差网络。首先,网络使用残差学习策略,通过预测模糊图像与清晰图像之间的差值,实... 针对传统机器视觉检测方法中,由于陶瓷轴承滚动体表面曲率大、对比度低,表面成像模糊导致后续缺陷检测精度低的问题,提出一种基于Transformer的超分辨率残差网络。首先,网络使用残差学习策略,通过预测模糊图像与清晰图像之间的差值,实现超分辨率任务;其次,在网络上前端插入通道注意力模块和空间注意力模块并改进L2多头自注意力模块,以增强图像纹理、改善梯度爆炸问题;最后,针对超分辨率重建任务,提出一种两阶段训练策略优化训练过程。自建陶瓷轴承表面缺陷数据集上的大量实验结果表明,所提出网络模型在客观指标与主观评价上均优于MSESRGAN、VSDR等超分辨率算法,重建图像SSIM为0.939,PSNR为36.51 dB。 展开更多
关键词 Si_(3)N_(4)陶瓷轴承 超分辨率重建 transformer 图像恢复 图像增强
下载PDF
基于卷积神经网络与Transformer的电能质量扰动分类方法
16
作者 金星 周凯翔 +2 位作者 于海洲 王盛慧 伍孟海 《科学技术与工程》 北大核心 2024年第16期6726-6733,共8页
复杂电能质量扰动(power quality disturbances, PQD)的智能分类对于智能电网发展具有重要意义。扰动特征的提取与定位、模式识别与分类是电能质量扰动分类方法研究的难点。采用深度学习算法,将具有关注全局信息的Transformer与善于提... 复杂电能质量扰动(power quality disturbances, PQD)的智能分类对于智能电网发展具有重要意义。扰动特征的提取与定位、模式识别与分类是电能质量扰动分类方法研究的难点。采用深度学习算法,将具有关注全局信息的Transformer与善于提取局部特征的卷积神经网络相融合,提出一种基于卷积神经网络(convolutional neural network, CNN)与Transformer的电能质量扰动分类方法,即CTranCBA。这种双深度学习模型分类方法主要是通过一维卷积神经网络提取电能质量扰动信号特征,利用Transformer自注意力机制引导模型关注序列中不同位置间的依赖关系,实现对扰动信号局部特征与全局特征的互补,克服了因感受野的限制而带来的识别不清、分类不准等问题。使用23种不同电能质量扰动信号,将CTranCBA与Deep-CNN、CNN-LSTM、CNN-CBAM方法进行比较。结果表明:该方法在分类准确率和抗噪性方面表现优异,可为电能质量扰动智能分类提供一种新的方法。 展开更多
关键词 电能质量扰动(PQD) 卷积神经网络(CNN) transformer模型 卷积注意力机制
下载PDF
基于多层次特征融合的Transformer人脸识别方法
17
作者 夏桂书 朱姿翰 +2 位作者 魏永超 朱泓超 徐未其 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第1期61-68,共8页
卷积神经网络中的卷积操作只能捕获局部信息,而Transformer能保留更多的空间信息且能建立图像的长距离连接.在视觉领域的应用中,Transformer缺乏灵活的图像尺寸及特征尺度适应能力,通过利用层级式网络增强不同尺度建模的灵活性,且引入... 卷积神经网络中的卷积操作只能捕获局部信息,而Transformer能保留更多的空间信息且能建立图像的长距离连接.在视觉领域的应用中,Transformer缺乏灵活的图像尺寸及特征尺度适应能力,通过利用层级式网络增强不同尺度建模的灵活性,且引入多尺度特征融合模块丰富特征信息.本文提出了一种基于改进的Swin Transformer人脸模型——Swin Face模型.Swin Face以Swin Transformer为骨干网络,引入多层次特征融合模块,增强了模型对人脸的特征表达能力,并使用联合损失函数优化策略设计人脸识别分类器,实现人脸识别.实验结果表明,与多种人脸识别方法相比,Swin Face模型通过使用分级特征融合网络,在LFW、CALFW、AgeDB-30、CFP数据集上均取得最优的效果,验证了此模型具有良好的泛化性和鲁棒性. 展开更多
关键词 人脸识别 transformer 多尺度特征 特征融合
下载PDF
基于Transformer的道路场景点云分类与分割方法
18
作者 马庆禄 孙枭 +1 位作者 黄筱潇 王江华 《激光与红外》 CAS CSCD 北大核心 2024年第1期17-23,共7页
针对多目标识别过程中点云分类和分割精度不高的问题,提出了一种基于改进Transformer模型的点云分类与分割方法DRPT(Double randomness Point Transformer),该方法在Transformer模型卷积投影层创建新的点嵌入,利用局部邻域的动态处理在... 针对多目标识别过程中点云分类和分割精度不高的问题,提出了一种基于改进Transformer模型的点云分类与分割方法DRPT(Double randomness Point Transformer),该方法在Transformer模型卷积投影层创建新的点嵌入,利用局部邻域的动态处理在数据特征向量中持续增加全局特征属性,从而提高多目标识别中点云分类和分割的精度。实验中采用了标准基准数据集(ModelNet40、ShapeNet部分分割和SemanticKITTI场景语义分割数据集)以验证模型的性能,实验结果表明:DRPT模型的pIoU值为85.9%,比其他模型平均高出3.5%,有效提高了多目标识别检测时点云分类与分割精度,是对智能网联技术发展的有效支撑。 展开更多
关键词 点云识别 道路场景 点云分割 点集嵌入 transformer
下载PDF
复谱映射下融合高效Transformer的语音增强方法
19
作者 张天骐 罗庆予 +1 位作者 张慧芝 方蓉 《信号处理》 CSCD 北大核心 2024年第2期406-416,共11页
针对卷积神经网络(Convolutional Neural Network,CNN)过去在语音增强中表现优异但对全局特征捕获不足,以及Transformer近年展现出长序列间依赖优势但又存在局部细节特征丢失、参数量大等问题,该文为了充分利用CNN与Transformer的优势... 针对卷积神经网络(Convolutional Neural Network,CNN)过去在语音增强中表现优异但对全局特征捕获不足,以及Transformer近年展现出长序列间依赖优势但又存在局部细节特征丢失、参数量大等问题,该文为了充分利用CNN与Transformer的优势并弥补各自不足,提出了一种在复频谱映射下的新型卷积模块与高效Transformer融合的单通道语音增强网络。该网络由编码层、传输层与双分支解码层组成:在编解码部分设计了一种协作学习模块(Collaborative Learning Block,CLB)来监督交互信息,在减少参数量的同时提高主干网络对复特征的获取能力;传输层中则提出一种时频空间注意Transformer模块分别对语音子频带和全频带信息建模,充分利用声学特性来模拟局部频谱模式并捕获谐波间依赖关系。将该模块进一步与通道注意分支相结合,设计了一种可学习的双分支注意融合(Dual-branch Attention Fusion,DAF)机制,从空间-通道角度提取上下文特征以加强信息的多维度传输;最后,在此基础上搭建一种高斯加权渐进网络作为中间传输层,通过堆叠DAF模块进行加权求和后输出以充分利用深层特征,使得解码过程更具鲁棒性。分别在英文VoiceBank-DEMAND数据集、中文THCHS30语料库与115种环境噪声下进行消融以及综合对比实验,结果表明,该文方法仅以最小0.68×10^(6)的参数量,相比于大部分最新相关网络模型取得了更优的主、客观指标,具有较为突出的增强性能与泛化能力。 展开更多
关键词 语音增强 复频谱映射 高效transformer 轻量型网络
下载PDF
基于窗口注意力聚合Swin Transformer的无人机影像语义分割方法
20
作者 李俊杰 易诗 +1 位作者 何润华 刘茜 《计算机工程与应用》 CSCD 北大核心 2024年第15期198-210,共13页
采用无人机遥感影像进行地物分类的过程中,由于无人机影像的小尺寸地物目标不够突出和无人机影像背景复杂、地物信息难以辨别等问题,采用现行的经典语义分割方法难以获得理想的地物分类效果。该研究以Swin Transformer网络模型为基础,... 采用无人机遥感影像进行地物分类的过程中,由于无人机影像的小尺寸地物目标不够突出和无人机影像背景复杂、地物信息难以辨别等问题,采用现行的经典语义分割方法难以获得理想的地物分类效果。该研究以Swin Transformer网络模型为基础,提出了基于窗口注意力聚合Swin Transformer(window attention aggregation Swin Transformer,WAA SwinT)的语义分割网络模型方法。采用了多窗口注意力聚合的方式来进行更精准的注意力计算,以提升无人机遥感影像中的小尺寸地物目标的分类精度和质量。同时借鉴嵌入连接的思想,采用多级特征嵌入连接解码器改善网络结构,应用于无人机遥感影像的分割中,取得了更精细化的分割效果。为了验证提出的方法在无人机影像语义分割中的效果,分别在城市无人机遥感影像UAVid数据集和UDD数据集进行了实验,并与现行的经典语义分割方法进行了对比。实验结果表明,语义分割方法在UAVid数据集和UDD数据集上均可以得到最佳的语义分割效果。同时,该语义分割方法能显著地提升无人机影像中小尺寸地物精准分割的质量。 展开更多
关键词 无人机影像 语义分割 Swin transformer 窗口注意力聚合
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部