期刊文献+
共找到257篇文章
< 1 2 13 >
每页显示 20 50 100
引入Transformer的道路小目标检测
1
作者 李丽芬 黄如 《计算机工程与设计》 北大核心 2024年第1期95-101,共7页
针对道路场景中检测小目标时漏检率较高、检测精度低的问题,提出一种引入Transformer的道路小目标检测算法。在原YOLOv4算法基础上,对多尺度检测进行改进,把浅层特征信息充分利用起来;设计ICvT(improved convolutional vision transform... 针对道路场景中检测小目标时漏检率较高、检测精度低的问题,提出一种引入Transformer的道路小目标检测算法。在原YOLOv4算法基础上,对多尺度检测进行改进,把浅层特征信息充分利用起来;设计ICvT(improved convolutional vision transformer)模块捕获特征内部的相关性,获得上下文信息,提取更加全面丰富的特征;在网络特征融合部分嵌入改进后的空间金字塔池化模块,在保持较小计算量的同时增加特征图的感受野。实验结果表明,在KITTI数据集上,算法检测精度达到91.97%,与YOLOv4算法相比,mAP提高了2.53%,降低了小目标的漏检率。 展开更多
关键词 小目标检测 深度学习 YOLOv4算法 多尺度检测 transformER 空间金字塔池化 特征融合
下载PDF
基于多尺度金字塔Transformer的人群计数方法
2
作者 张少乐 雷涛 +3 位作者 王营博 周强 薛明园 赵伟强 《智能系统学报》 CSCD 北大核心 2024年第1期67-78,共12页
针对密集人群场景中背景复杂、目标尺度变化较大导致人群计数精度较低的问题,本文提出一种基于多尺度金字塔Transformer的人群计数方法(multi-scale pyramid transformer network,MSPT-Net)。在特征提取阶段设计了一种基于深度可分离自... 针对密集人群场景中背景复杂、目标尺度变化较大导致人群计数精度较低的问题,本文提出一种基于多尺度金字塔Transformer的人群计数方法(multi-scale pyramid transformer network,MSPT-Net)。在特征提取阶段设计了一种基于深度可分离自注意力的金字塔Transformer主干网络结构,该网络结构能有效捕获图像的局部和全局信息,从而有效解决人群密度图像背景复杂导致计数精度低的问题;设计了一种特征金字塔融合模块及多尺度感受野的回归头,实现了密集人群图像浅层细节特征和深层语义特征的高效融合,增强了网络对不同尺度目标的捕获能力;采用深度监督的训练方法在3个公开数据集上对提出的方法进行验证。实验结果表明,本文方法在全监督与弱监督学习策略中,与目前主流的人群计数方法相比,实现了更高精度的人群计数,克服了主流方法对背景复杂、目标尺度变化大的密集人群图像计数精度低的问题,同时本文方法保持着更小的参数量与计算量。 展开更多
关键词 密集人群 人群计数 多尺度 金字塔 transformER 自注意力 密度图 深度监督
下载PDF
多尺度Transformer的在线更新无锚框工件跟踪方法研究
3
作者 夏代洪 徐健 +2 位作者 郑自立 赵一剑 刘高峰 《国外电子测量技术》 2024年第1期110-116,共7页
针对工业场景目标工件跟踪任务精度低、失败率高的问题,提出了多尺度Transformer在线更新的工件跟踪算法。首先,采用Transformer特征金字塔结构,融合多层次特征信息,以实现鲁棒的对目标表观建模;其次,使用Transformer模块对高级语义信... 针对工业场景目标工件跟踪任务精度低、失败率高的问题,提出了多尺度Transformer在线更新的工件跟踪算法。首先,采用Transformer特征金字塔结构,融合多层次特征信息,以实现鲁棒的对目标表观建模;其次,使用Transformer模块对高级语义信息进行特征融合,使得网络模型专注于目标工件本身;然后,提出了基于排序的交并化(IoU)损失函数优化策略,有效地抑制干扰物对跟踪器影响;最后,设计一种在线更新策略更新目标模板,增强网络的鲁棒性。实验结果表明,在VOT-2018上准确率和失败率分别比基准跟踪器提高3.8%和4.1%,且能保持53 fps的实时跟踪速度;在LaSOT数据集上精度与成功率别为0.578和0.573,均优于基准跟踪器。通过CCD工业相机采集视频序列验证算法可以准确且鲁棒的跟踪目标工件。 展开更多
关键词 目标跟踪 特征金字塔 transformER 损失函数 在线更新
下载PDF
基于双通道Transformer的地铁站台异物检测
4
作者 刘瑞康 刘伟铭 +2 位作者 段梦飞 谢玮 戴愿 《计算机工程》 CAS CSCD 北大核心 2024年第4期197-207,共11页
Transformer因其全局注意力优势在异物检测上取得了比卷积神经网络(CNN)更具竞争力的结果,但依然面临计算成本高、输入图像块尺寸固定、局部与全局信息交互匮乏等问题。提出一种基于双通道Transformer骨干网络、金字塔轻量化Transforme... Transformer因其全局注意力优势在异物检测上取得了比卷积神经网络(CNN)更具竞争力的结果,但依然面临计算成本高、输入图像块尺寸固定、局部与全局信息交互匮乏等问题。提出一种基于双通道Transformer骨干网络、金字塔轻量化Transformer块和通道交叉注意力机制的DualF ormer模型,用以检测地铁站台屏蔽门与列车门间隙中存在的异物。针对输入图像块尺寸固定的问题,提出双通道策略,通过设计2种不同的特征提取通道对不同尺度的输入图像块进行特征提取,增强网络对粗、细粒度特征的提取能力,提高对多尺度目标的识别精度;针对计算成本高的问题,构建金字塔轻量化Transformer块,将级联卷积引入到多头自注意力(MHSA)模块中,并利用卷积的维度压缩能力来降低模型的计算成本;针对局部与全局信息交互匮乏的问题,提出通道交叉注意力机制,利用提取到的粗细粒度特征在通道层面进行交互,优化局部与全局信息在网络中的权重。在标准化地铁异物检测数据集上的实验结果表明,DualFormer模型参数量为1.98×10^(7),实现了89.7%的精度和24帧/s的速度,优于对比的Transformer检测算法。 展开更多
关键词 视觉transformer 异物检测 双通道策略 金字塔轻量化transformer块 注意力融合
下载PDF
ViTH:面向医学图像检索的视觉Transformer哈希改进算法
5
作者 刘传升 丁卫平 +2 位作者 程纯 黄嘉爽 王海鹏 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第5期11-26,共16页
对海量的医学图像进行有效检索会给医学诊断和治疗带来极其重要的意义.哈希方法是图像检索领域中的一种主流方法,但在医学图像领域的应用相对较少.针对此,提出一种面向医学图像检索的视觉Transformer哈希改进算法.首先使用视觉Transfor... 对海量的医学图像进行有效检索会给医学诊断和治疗带来极其重要的意义.哈希方法是图像检索领域中的一种主流方法,但在医学图像领域的应用相对较少.针对此,提出一种面向医学图像检索的视觉Transformer哈希改进算法.首先使用视觉Transformer模型作为基础的特征提取模块,其次在Transformer编码器的前、后端分别加入幂均值变换(Power-Mean Transformation,PMT),进一步增强模型的非线性性能,接着在Transformer编码器内部的多头注意力(Multi-Head Attention,MHA)层引入空间金字塔池化(Spatial Pyramid Pooling,SPP)形成多头空间金字塔池化注意力(Multi-Head Spatial Pyramid Pooling Attention,MHSPA)模块,该模块不仅可以提取全局的上下文特征,而且可以提取多尺度的局部上下文特征,并将不同尺度的特征进行融合.最后在输出幂均值变换层之后将提取到的特征分别通过两个多层感知机(Multi-Layer Perceptrons,MLPs),上分支的MLP用来预测图像的类别,下分支的MLP用来学习图像的哈希码.在损失函数部分,充分考虑了成对损失、量化损失、平衡损失以及分类损失来优化整个模型.在医学图像数据集ChestX-ray14和ISIC 2018上的实验结果表明,该研究所提出的算法相比于经典的哈希算法具有更好的检索效果. 展开更多
关键词 医学图像检索 视觉transformer 哈希 幂均值变换 空间金字塔池化
下载PDF
基于Transformer的机器人像素级抓取位姿检测
6
作者 俞青松 徐向荣 刘胤真 《工程设计学报》 CSCD 北大核心 2024年第2期238-247,共10页
机器人抓取检测一直是机器人领域的研究热点,但机器人在复杂环境下执行多物体抓取任务时面临位姿估计不准确的问题。为了解决这一问题,提出了一种基于Transformer的抓取检测模型——PTGNet(pyramid Transformer grasp network)。PTGNet... 机器人抓取检测一直是机器人领域的研究热点,但机器人在复杂环境下执行多物体抓取任务时面临位姿估计不准确的问题。为了解决这一问题,提出了一种基于Transformer的抓取检测模型——PTGNet(pyramid Transformer grasp network)。PTGNet采用具有金字塔池化结构和多头自注意力机制的Transformer模块,其中,金字塔池化结构能够对特征图进行分割和池化,以捕获不同层次的语义信息并降低计算复杂度,多头自注意力机制通过强大的特征提取能力有效地提取全局信息,使得PTGNet更适用于视觉抓取任务。为了验证PTGNet的性能,基于不同数据集对PTGNet进行训练和测试,并在仿真和真实物理环境下基于PTGNet开展机械臂抓取实验。结果表明,PTGNet在Cornell数据集和Jacquard数据集上的准确率分别为98.2%和94.8%,表现出具有竞争力的优异性能;在多目标数据集下,相比于其他检测模型,PTGNet具有优秀的泛化能力;在PyBullet仿真环境下开展的单对象和多对象抓取实验中,机械臂的平均抓取成功率分别达到了98.1%和96.8%;在真实物理环境下开展的多对象抓取实验中,机械臂的平均抓取成功率为93.3%。实验结果验证了PTGNet在复杂环境中预测多物体抓取位姿的有效性和优越性。 展开更多
关键词 transformER 金字塔池化 抓取检测 多头自注意力
下载PDF
Transformer-Based Cloud Detection Method for High-Resolution Remote Sensing Imagery
7
作者 Haotang Tan Song Sun +1 位作者 Tian Cheng Xiyuan Shu 《Computers, Materials & Continua》 SCIE EI 2024年第7期661-678,共18页
Cloud detection from satellite and drone imagery is crucial for applications such as weather forecasting and environmentalmonitoring.Addressing the limitations of conventional convolutional neural networks,we propose ... Cloud detection from satellite and drone imagery is crucial for applications such as weather forecasting and environmentalmonitoring.Addressing the limitations of conventional convolutional neural networks,we propose an innovative transformer-based method.This method leverages transformers,which are adept at processing data sequences,to enhance cloud detection accuracy.Additionally,we introduce a Cyclic Refinement Architecture that improves the resolution and quality of feature extraction,thereby aiding in the retention of critical details often lost during cloud detection.Our extensive experimental validation shows that our approach significantly outperforms established models,excelling in high-resolution feature extraction and precise cloud segmentation.By integrating Positional Visual Transformers(PVT)with this architecture,our method advances high-resolution feature delineation and segmentation accuracy.Ultimately,our research offers a novel perspective for surmounting traditional challenges in cloud detection and contributes to the advancement of precise and dependable image analysis across various domains. 展开更多
关键词 CLOUD transformER image segmentation remotely sensed imagery pyramid vision transformer
下载PDF
基于轻量级Transformer的隧道裂缝分割 被引量:1
8
作者 邝先验 徐姚明 +2 位作者 雷卉 程福军 桓湘澜 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2024年第8期3421-3433,共13页
裂缝检测对保证隧道结构安全至关重要,及时发现隧道裂缝缺陷,有利于降低工程维修成本和保障行车安全。然而,传统卷积神经网络在隧道裂缝检测任务中主要侧重提高检测精度和算法复杂度,如何平衡裂缝检测的精度和实时性是当前研究的一个难... 裂缝检测对保证隧道结构安全至关重要,及时发现隧道裂缝缺陷,有利于降低工程维修成本和保障行车安全。然而,传统卷积神经网络在隧道裂缝检测任务中主要侧重提高检测精度和算法复杂度,如何平衡裂缝检测的精度和实时性是当前研究的一个难点。针对这一问题,本文提出一种基于轻量级Transformer的裂缝分割方法 CrackViT。首先,采用卷积神经网络与Transformer混合的MobileViT网络构建裂缝特征提取网络,减少网络模型参数和计算量,并且有效提取裂缝图像全局信息和局部特征信息。然后,提出改进空洞空间金字塔池化解码器实现不同尺度的特征提取和信息融合,实现像素级概率分布。同时,裂缝图像存在细节信息缺失问题,引入高效通道注意力模块,增强对裂缝特征信息的提取能力。此外,针对裂缝与背景类别不平衡问题,设计了在线困难样本挖掘损失函数进行缓解。实验结果表明:在单个3050Ti GPU上,CrackViT算法最终在裂缝数据集上以63 FPS的速度获得了75.62%的IoU,模型参数量仅为2.43 M。CrackViT-L模型精度IoU为76.83%,模型参数量为3.56 M,模型推理速度达到61FPS。算法测试精度优于大多数主流模型,并且需要更少的模型参数。研究结果表明,CrackViT所预测的隧道裂缝分割图像边缘更加清晰和完整,保持推理速度的同时,能够有效检测裂缝,该算法有助于隧道裂缝检测实际应用。 展开更多
关键词 裂缝分割 transformER MobileViT 空洞空间金字塔池化 轻量级模型
下载PDF
基于CNN-Transformer结构的遥感影像变化检测
9
作者 潘梦洋 杨航 范祥晖 《液晶与显示》 CAS CSCD 北大核心 2024年第10期1361-1379,共19页
现代高分辨率遥感图像变化检测借助卷积神经网络(Convolutional Neural Network,CNN)取得了显著成果。然而,卷积操作的感受野限制导致在学习全局上下文和远程空间关系方面存在不足。虽然视觉Transformer能有效捕获远程特征的依赖性,但... 现代高分辨率遥感图像变化检测借助卷积神经网络(Convolutional Neural Network,CNN)取得了显著成果。然而,卷积操作的感受野限制导致在学习全局上下文和远程空间关系方面存在不足。虽然视觉Transformer能有效捕获远程特征的依赖性,但其对影像变化细节的处理不足,导致空间定位能力有限且计算效率低下。为解决上述问题,本文提出了一种基于空间空洞金字塔池化的跨层级联线性融合端到端编解码混合CNN-Transformer的变化检测模型,兼具视觉Transformer和CNN的优势。首先,利用孪生CNN网络提取图像特征,并借助空洞金字塔池化模块对特征进行精细处理,从而更精准地捕获图像的细节特征信息。其次,将提取的特征转化为视觉单词,并通过Transformer编码器进行建模,以获取丰富的上下文信息。这些信息随后被反馈至视觉空间,通过Transformer解码器对原始特征进行强化,提升特征的表达效果。接着,采用跨层级联的方式将CNN提取的特征与Transformer编解码的特征进行融合,利用上采样技术联系不同分辨率的特征图,实现位置信息与语义信息的融合。最后,通过差异增强模块生成包含丰富变化信息的差异特征图。在LEVIR、CDD、DSIFN和WHUCD 4个公开遥感数据集上的广泛实验验证了本文方法的有效性。与其他先进方法相比,本文模型的分类性能更出色,有效改善了变化检测中的欠分割、过分割及边缘粗糙等问题。 展开更多
关键词 遥感图像 变化检测 卷积神经网络 transformER 空间空洞金字塔池化
下载PDF
基于CNN和Transformer混合网络模型的车道线检测
10
作者 唐洪 邓锋 +2 位作者 张恺 聂学方 李光辉 《应用科学学报》 CAS CSCD 北大核心 2024年第5期871-883,共13页
车道线检测技术在自动驾驶系统中发挥着重要作用,目前基于深度学习的车道线检测方法通常在主干网络提取特征之后分别获取车道线关键点的置信度以及这些点相对车道线起始点的偏移。但由于车道线是细长结构,现有的主干网络无法有效提取这... 车道线检测技术在自动驾驶系统中发挥着重要作用,目前基于深度学习的车道线检测方法通常在主干网络提取特征之后分别获取车道线关键点的置信度以及这些点相对车道线起始点的偏移。但由于车道线是细长结构,现有的主干网络无法有效提取这种结构特征,偏移网络也难以回归车道线上关键点相对起始点的偏移。鉴于注意力机制在提取空间结构特征、表征长距离图像序列间依赖关系方面的优越性能,在基于点的车道线检测方法的基础上提出了一种基于卷积神经网络(convolutional neural network,CNN)和Transformer的混合网络(CNN-Transformer hybrid network,CTNet)模型,该模型通过特征金字塔和增强的坐标注意力机制提高特征的表征能力,使用基于视觉Transformer的偏移网络回归关键点的偏移量,因此,CTNet能够提取细长车道线特征、捕获长距离点间的偏移,有效提升车道线检测的精度。实验对比了CTNet和6种常用车道线检测算法在数据集TuSimple和CULane上的效果,在TuSimple上CTNet各项精度指标均优于现有方法,在CULane数据集的9种不同车道场景中,CTNet在6个场景中取得了最佳精度。 展开更多
关键词 车道线检测 视觉transformer 坐标注意力 特征金字塔网络
下载PDF
基于CNN和TransFormer多尺度学习行人重识别方法 被引量:2
11
作者 陈莹 匡澄 《电子与信息学报》 EI CSCD 北大核心 2023年第6期2256-2263,共8页
行人重识别(ReID)旨在跨监控摄像头下检索出特定的行人目标。为聚合行人图像的多粒度特征并进一步解决深层特征映射相关性的问题,该文提出基于CNN和TransFormer多尺度学习行人重识别方法(CTM)进行端对端的学习。CTM网络由全局分支、深... 行人重识别(ReID)旨在跨监控摄像头下检索出特定的行人目标。为聚合行人图像的多粒度特征并进一步解决深层特征映射相关性的问题,该文提出基于CNN和TransFormer多尺度学习行人重识别方法(CTM)进行端对端的学习。CTM网络由全局分支、深度聚合分支和特征金字塔分支组成,其中全局分支提取行人图像全局特征,提取具有不同尺度的层次特征;深度聚合分支循环聚合CNN的层次特征,提取多尺度特征;特征金字塔分支是一个双向的金字塔结构,在注意力模块和正交正则化操作下,能够显著提高网络的性能。大量实验结果表明了该文方法的有效性,在Market1501,DukeMTMC-reID和MSMT17数据集上,mAP/Rank-1分别达到了90.2%/96.0%,82.3%/91.6%和63.2%/83.7%,优于其他现有方法。 展开更多
关键词 行人重识别 transformER CNN 金字塔结构
下载PDF
基于改进Swin Transformer的舰船目标实例分割算法 被引量:3
12
作者 钱坤 李晨瑄 +2 位作者 陈美杉 郭继伟 潘磊 《系统工程与电子技术》 EI CSCD 北大核心 2023年第10期3049-3057,共9页
针对反舰武器图像制导目标实例分割精度低,模型中上下文语义交互不充分,特征融合推理速度慢,数据集难易样本不均衡导致训练效果差等问题,提出了一种基于改进滑动窗口的Transformer(shifted windows Transformer,Swin Transformer)的舰... 针对反舰武器图像制导目标实例分割精度低,模型中上下文语义交互不充分,特征融合推理速度慢,数据集难易样本不均衡导致训练效果差等问题,提出了一种基于改进滑动窗口的Transformer(shifted windows Transformer,Swin Transformer)的舰船目标实例分割算法。设计了局部增强感知模块用以拓展感受野,加强语义交互能力;采用反向特征金字塔网络进行特征融合,提高算法处理速度;使用在线困难样例挖掘,改善数据集样本不均衡问题,提升网络训练效果。实验结果表明,改进后的算法相较基线算法在分割准确率上提升了1.5%,在处理速度上提高了1.3%,兼具精度和速度优势。 展开更多
关键词 Swin transformer 反向特征金字塔 在线困难样例挖掘 舰船实例分割
下载PDF
融合Transformer的带钢缺陷实时检测算法 被引量:3
13
作者 张涛源 谢新林 +1 位作者 谢刚 张林 《计算机工程与应用》 CSCD 北大核心 2023年第16期232-239,共8页
在带钢的生产过程中通常会产生影响产品质量的表面缺陷。针对带钢表面缺陷检测效率低以及小目标缺陷检测精度差的问题,提出一种融合Transformer的带钢缺陷实时检测算法TRSD-YOLO(Transformer real-time strip steel defects detection-Y... 在带钢的生产过程中通常会产生影响产品质量的表面缺陷。针对带钢表面缺陷检测效率低以及小目标缺陷检测精度差的问题,提出一种融合Transformer的带钢缺陷实时检测算法TRSD-YOLO(Transformer real-time strip steel defects detection-YOLO)。设计一种结合Transformer自注意力机制的特征提取模块BottleNeckCSPTR,通过自注意力的增强来提升模块对小目标缺陷信息的获取能力;运用BottleNeckCSPTR模块构建新的主干特征提取网络CSPDarknetTR,并将动态激活函数Meta-ACON与主干网络相融合,进一步强化网络对缺陷特征的表示能力;提出一种轻量级双向加权特征金字塔结构BiFPN-Light作为融合多尺度特征的方式,提高网络对小尺寸缺陷的检测精度。实验结果表明,提出的算法在NEU-DET数据集上mAP达到了82.2%,较原有的YOLOv4算法提高了5.3个百分点;同时检测速度达到31.3 FPS,可匹配工业场景的需求。 展开更多
关键词 带钢缺陷检测 YOLOv4 transformER 双向特征金字塔(BiFPN)
下载PDF
基于双路残差连接Transformer的图像去模糊研究
14
作者 牛旭彤 邓正 范洪博 《通信技术》 2023年第3期289-297,共9页
针对现有图像去模糊算法提取特征多样性不足,细节恢复能力有限的问题,提出双路残差图像去模糊模型DTCM。首先,设计了双路残差连接网络,以增加特征信息的丰富度;其次,引入Swin Transformer作为集成推理模块,用于突出主要特征、减少信息冗... 针对现有图像去模糊算法提取特征多样性不足,细节恢复能力有限的问题,提出双路残差图像去模糊模型DTCM。首先,设计了双路残差连接网络,以增加特征信息的丰富度;其次,引入Swin Transformer作为集成推理模块,用于突出主要特征、减少信息冗余,并在此基础上与卷积神经网络相结合,提出改进的SWT-C层,增强模型捕获长期依赖关系的能力;最后,引入金字塔卷积神经网络重建图像。实验结果表明,所提模型在多种运动模糊场景下均取得了较好的恢复结果。 展开更多
关键词 图像去模糊 Swin transformer 卷积神经网络 金字塔卷积
下载PDF
基于天牛须优化算法和LP-SWT-SVD的鲁棒图像水印技术
15
作者 吴捷 刘振兴 马小虎 《印刷与数字媒体技术研究》 CAS 北大核心 2024年第5期45-52,共8页
为了有效保护数字媒体的知识产权,提出一种基于拉普拉斯金字塔和平稳小波变换(Stationary Wavelet Transform,SWT)及奇异值分解(Singular Value Decomposition,SVD)的图像水印嵌入算法。该算法首先对原始图像进行拉普拉斯金字塔分解,然... 为了有效保护数字媒体的知识产权,提出一种基于拉普拉斯金字塔和平稳小波变换(Stationary Wavelet Transform,SWT)及奇异值分解(Singular Value Decomposition,SVD)的图像水印嵌入算法。该算法首先对原始图像进行拉普拉斯金字塔分解,然后对得到的残差图像进行一级平稳小波变换,得到低频子带LL1和高频子带HH1,分别对其进行SVD分解,并将SVD分解后的水印分别嵌入低频和高频子带的奇异值矩阵中,使用天牛须算法(Beetle Antennae Search,BAS)优化水印嵌入过程。水印检测时,将从LL1和HH1子带中提取的水印进行比较,选择效果较好的作为最终结果。仿真实验与其他文献的对比分析证明该算法不可见性和鲁棒性都较好。 展开更多
关键词 拉普拉斯金字塔 平稳小波变换 奇异值分解 天牛须算法
下载PDF
面向强后处理场景的图像篡改定位模型
16
作者 谭舜泉 廖桂樱 +1 位作者 彭荣煊 黄继武 《通信学报》 EI CSCD 北大核心 2024年第4期146-159,共14页
针对微信、微博等社交平台对图像进行的压缩、尺度拉伸等有损操作带来的篡改痕迹模糊或被破坏的挑战,提出了一种对抗强后处理的图像篡改定位模型。该模型选用了基于Transformer的金字塔视觉转换器作为编码器,用于提取图像的篡改特征。同... 针对微信、微博等社交平台对图像进行的压缩、尺度拉伸等有损操作带来的篡改痕迹模糊或被破坏的挑战,提出了一种对抗强后处理的图像篡改定位模型。该模型选用了基于Transformer的金字塔视觉转换器作为编码器,用于提取图像的篡改特征。同时,设计了一个类UNet结构的端到端编码器-解码器架构。金字塔视觉转换器的金字塔结构和注意力机制可以灵活关注图像的各个区块,结合类UNet结构能够多尺度地提取图像上下文间的关联信息,对强后处理的图像有着较好的鲁棒性。实验结果表明,所提模型在对抗JPEG压缩、高斯模糊等常见的后处理操作以及在不同社交媒体传播场景的数据集上的定位性能上明显优于目前主流的篡改定位模型,展现出了优异的鲁棒性。 展开更多
关键词 强后处理场景 图像篡改定位 鲁棒性 金字塔视觉转换器
下载PDF
基于渐进式GAN逆映射的人脸超分辨率重建
17
作者 孙红 赵迎志 +1 位作者 罗琦 袁巫凯 《控制工程》 CSCD 北大核心 2024年第9期1572-1580,共9页
为了缓解生成对抗网络(generative adversarial network,GAN)自身存在的训练不稳定问题,增强图像超分辨率重建的效果,提出一种基于GAN逆映射的图像超分辨率重建算法。通过渐进式网络增加模型的稳定性,通过逆映射金字塔充分学习低分辨人... 为了缓解生成对抗网络(generative adversarial network,GAN)自身存在的训练不稳定问题,增强图像超分辨率重建的效果,提出一种基于GAN逆映射的图像超分辨率重建算法。通过渐进式网络增加模型的稳定性,通过逆映射金字塔充分学习低分辨人脸图像的语义特征,实现准确的隐空间转换,通过半空间特征调制进行图像增强。对所提算法进行实验验证,该算法在Celeb A数据集上重建8倍后的图像峰值信噪比为27.18 dB,相比超分辨率生成对抗网络(super-resolution generative adversarial network,SRGAN),提高了2.44 dB,模型的收敛速度也更快。实验结果表明,通过GAN逆映射和渐进的方式进行图像超分辨率重建具有较好的效果和更高的稳定性。 展开更多
关键词 半空间特征调制 逆映射金字塔 渐进式网络 超分辨率重建 生成对抗网络
下载PDF
线性变换与局部均衡融合的红外图像增强
18
作者 魏艳平 《激光技术》 CAS CSCD 北大核心 2024年第5期705-710,共6页
为了改善红外图像的效果,提升对比度和清晰度,丰富边缘细节信息,提出了融合线性变换和局部均衡的红外图像增强方法。利用图像的像素值分布,对像素值进行自适应的分段线性变换,并用局部的直方图均衡增强图像;分别计算两张增强图像的权重... 为了改善红外图像的效果,提升对比度和清晰度,丰富边缘细节信息,提出了融合线性变换和局部均衡的红外图像增强方法。利用图像的像素值分布,对像素值进行自适应的分段线性变换,并用局部的直方图均衡增强图像;分别计算两张增强图像的权重图。对比度权重、显著性权重和亮度分布权重;以拉普拉斯金字塔和高斯金字塔的方式,分别对增强图像和权重图进行分解,将分解的图像与权重图进行多尺度线性融合,获得效果理想的增强图像。结果表明,相对于现有方法,本文中提出的方法增强图像的视觉效果更清晰,信息熵、平均梯度和变异系数分别比现有方法高出9.03%、23.87%和9.97%以上。该研究可更有效地提高红外图像增强的性能。 展开更多
关键词 图像处理 对比度 变异系数 像素变换 局部直方图均衡 多尺度金字塔融合
下载PDF
基于对比学习的视觉增强多模态命名实体识别
19
作者 于碧辉 谭淑月 +3 位作者 魏靖烜 孙林壮 卜立平 赵艺曼 《计算机科学》 CSCD 北大核心 2024年第6期198-205,共8页
多模态命名实体识别(MNER)的目的是在给定的图像-文本对中检测实体范围并将其分类为相应的实体类型。尽管现存的MNER方法取得了成功,但它们都集中在使用图像编码器提取视觉特征后,不做增强或过滤处理,直接送入跨模态交互机制。此外,由... 多模态命名实体识别(MNER)的目的是在给定的图像-文本对中检测实体范围并将其分类为相应的实体类型。尽管现存的MNER方法取得了成功,但它们都集中在使用图像编码器提取视觉特征后,不做增强或过滤处理,直接送入跨模态交互机制。此外,由于文本和图像的表示来自不同的编码器,很难弥合两种模态之间的语义鸿沟,因此,提出了一个基于对比学习的视觉增强多模态命名实体识别模型(MCLAug)。首先,使用ResNet收集图像特征,在此基础上提出金字塔双向融合策略,将低层次高分辨率和高层次强语义的图像信息结合起来,以增强视觉特征。其次,利用CLIP模型中的多模态对比学习思想,计算并最小化对比损失,使两种模态的表示更加一致。最后,利用跨模态注意力机制和门控融合机制获得融合后的图像和文本表示,并通过CRF解码器来执行MNER任务。在两个公开数据集上进行了对比实验并进行消融研究和案例研究,结果证明了所提模型的有效性。 展开更多
关键词 多模态命名实体识别 CLIP 多模态对比学习 特征金字塔 transformER 门控融合机制
下载PDF
改进YOLOv5的多人姿态估计修正算法
20
作者 赵金源 贾迪 《计算机工程与科学》 CSCD 北大核心 2024年第5期852-860,共9页
由于拥挤场景中的多人姿态估计仍受检测目标较小等问题的影响,导致姿态估计准确率低,为此提出一种改进YOLOv5的多人姿态估计修正算法。首先,在YOLOv5的骨干网络中,融入跳跃注意力模块,帮助网络在图像中找到感兴趣区域;其次,在颈部网络中... 由于拥挤场景中的多人姿态估计仍受检测目标较小等问题的影响,导致姿态估计准确率低,为此提出一种改进YOLOv5的多人姿态估计修正算法。首先,在YOLOv5的骨干网络中,融入跳跃注意力模块,帮助网络在图像中找到感兴趣区域;其次,在颈部网络中,利用加权双向特征金字塔提高网络对不同尺度特征图间的特征融合能力,并联合使用跳跃注意力模块与Transformer编码器,使网络获取全局信息和丰富的上下文信息;再次,在检测部分增加一个检测头,使网络对微小目标更加敏感;最后,利用网络预测得到的关键点对象信息修正姿态对象信息得到最终的多人姿态估计结果。实验结果表明,本文算法较YOLOv5在COCO数据集上AP 50提高了2.2%,AP 75提高了3.3%,验证了本文算法的精确性和鲁棒性。 展开更多
关键词 人体姿态估计 跳跃注意力机制 加权特征金字塔 transformer编码器 目标检测
下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部