针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvFormer. ConvFormer通过所设计的多...针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvFormer. ConvFormer通过所设计的多尺度混洗自注意力模块(Channel-Shuffle and Multi-Scale attention,CSMS)和动态相对位置编码模块(Dynamic Relative Position Coding,DRPC)来聚合多尺度像素块间的语义信息,并在前馈网络中引入深度卷积提高网络的局部建模能力.在公开数据集ImageNet-1K,COCO 2017和ADE20K上分别进行图像分类、目标检测和语义分割实验,ConvFormer-Tiny与不同视觉任务中同量级最优网络RetNetY-4G,Swin-Tiny和ResNet50对比,精度分别提高0.3%,1.4%和0.5%.展开更多
文摘针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvFormer. ConvFormer通过所设计的多尺度混洗自注意力模块(Channel-Shuffle and Multi-Scale attention,CSMS)和动态相对位置编码模块(Dynamic Relative Position Coding,DRPC)来聚合多尺度像素块间的语义信息,并在前馈网络中引入深度卷积提高网络的局部建模能力.在公开数据集ImageNet-1K,COCO 2017和ADE20K上分别进行图像分类、目标检测和语义分割实验,ConvFormer-Tiny与不同视觉任务中同量级最优网络RetNetY-4G,Swin-Tiny和ResNet50对比,精度分别提高0.3%,1.4%和0.5%.
文摘车辆和行人安全监测是城市交通监测的一项重要任务。针对雾霾等复杂恶劣天气条件下,监测采集的图像视觉效果差、噪声高、目标检测困难等问题,提出了一种双主干网络(MobileNets VGG-DCBM Network,MVNet)用于雾天交通目标检测,结构受PCCN和CBNet网络结构的启发,由改进的深度可分离卷积神经网络MobileNets和基于VGGNet构建的VGG-DCBM网络组成;采用并行方式构建双主干目标检测网络结构,以改进的MobileNets为主主干网络,VGG-DCBM为辅助主干网络,共同提取特征信息,实现不同网络间特征层信息的融合;MVNet网络结构采用并行方式获取两个不同网络提取的不同特征层信息,通过采用通道拼接的方法实现不同网络特征信息之间的融合,以获得更丰富的细节特征;在RTTS和HazePerson数据集上,平均精度均值(mean Average Precision,mAP)分别达到71.50%和89.84%;实验结果表明:在雾霾等复杂恶劣天气条件下具有较强的鲁棒性且能够准确的检测到车辆和行人,在目标检测性能上优于对比方法。