ConvFormer:基于Transformer的视觉主干网络被引量：2

ConvFormer:Vision Backbone Network Based on Transformer

下载PDF

导出

摘要针对主流Transformer网络仅对输入像素块做自注意力计算而忽略了不同像素块间的信息交互,以及输入尺度单一导致局部特征细节模糊的问题,本文提出一种基于Transformer并用于处理视觉任务的主干网络ConvFormer. ConvFormer通过所设计的多尺度混洗自注意力模块(Channel-Shuffle and Multi-Scale attention,CSMS)和动态相对位置编码模块(Dynamic Relative Position Coding,DRPC)来聚合多尺度像素块间的语义信息,并在前馈网络中引入深度卷积提高网络的局部建模能力.在公开数据集ImageNet-1K,COCO 2017和ADE20K上分别进行图像分类、目标检测和语义分割实验,ConvFormer-Tiny与不同视觉任务中同量级最优网络RetNetY-4G,Swin-Tiny和ResNet50对比,精度分别提高0.3%,1.4%和0.5%. To solve the problem that the mainstream network based on Transformer only does self-attention com-putation on the input pixel blocks and ignores the information interaction between different pixel blocks,as well as the blurring of local feature details due to a single input scale,a backbone network based on Transformer and used for pro-cessing vision tasks is proposed called ConvFormer.ConvFormer aggregates the semantic information between multi-scale pixel blocks through the designed channel-shuffle and multi-scale attention(CSMS)and dynamic relative position coding(DRPC)modules,as well as introduces deep convolution in the feedforward network to improve the local model-ing capability of the network.In the image classification,target detection,and semantic segmentation experiments on public datasets ImageNet-1K,COCO 2017,and ADE20K,ConvFormer-Tiny compares with the optimal networks of the same magnitude RetNetY-4G,Swin-Tiny,and ResNet50 in different vision tasks,the accuracy is improved by 0.3%,1.4%,and 0.5%.

作者胡杰昌敏杰徐博远徐文才 HU Jie;CHANG Min-jie;XU Bo-yuan;XU Wen-cai(School of Automotive Engineering,Wuhan University of Technology,Wuhan,Hubei 430070,China;Hubei Key Laboratory of Advanced Technology for Automotive Components,Wuhan University of Technology,Wuhan,Hubei 430070,China;Hubei Collaborative Innovation Center for Automotive Components Technology,Wuhan University of Technology,Wuhan,Hubei 430070,China;Hubei Research Center for New Energy&Intelligent Connected Vehicle,Wuhan University of Technology,Wuhan,Hubei 430070,China)

机构地区武汉理工大学汽车工程学院武汉理工大学现代汽车零部件技术湖北省重点实验室武汉理工大学汽车零部件技术湖北省协同创新中心武汉理工大学湖北省新能源与智能网联车工程技术研究中心

出处《电子学报》 EI CAS CSCD 北大核心 2024年第1期46-57,共12页 Acta Electronica Sinica

基金湖北省重大科技专项(No.2020AAA001,No.2022AAA001)。

关键词机器视觉自注意力主干网络 TRANSFORMER machine vision self-attention backbone network Transformer

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1田永林,王雨桐,王建功,王晓,王飞跃.视觉Transformer研究的关键问题:现状及展望[J].自动化学报,2022,48(4):957-979. 被引量：65

二级参考文献2

1张慧,王坤峰,王飞跃.深度学习在目标视觉检测中的应用进展与展望[J].自动化学报,2017,43(8):1289-1305. 被引量：250
2陈伟宏,安吉尧,李仁发,李万里.深度学习认知计算综述[J].自动化学报,2017,43(11):1886-1897. 被引量：38

共引文献64

1陈凡,宋文革,范誉瀚,陈塞.基于CNN-Transformer融合模型的选煤厂振动筛上杂物语义分割研究[J].煤炭工程,2023,55(S01):193-199. 被引量：1
2邵攀,石卫超,秦道龙,张晓东,董婷,管宗胜.集成CNN和Transformer的通道交互多层级融合变化检测[J].测绘科学,2024,49(5):110-121.
3汪磊,何怡刚,谭畅.基于DA-Transformer的风机叶片覆冰检测[J].三峡大学学报（自然科学版）,2022,44(5):1-8.
4Fei-Yue Wang.The DAO to MetaControl for MetaSystems in Metaverses:The System of Parallel Control Systems for Knowledge Automation and Control Intelligence in CPSS[J].IEEE/CAA Journal of Automatica Sinica,2022,9(11):1899-1908. 被引量：24
5张文娟,杨皓哲,张彬,李秀杰.考虑多时间尺度特征的城市轨道交通短时客流量预测模型[J].交通运输系统工程与信息,2022,22(6):212-223. 被引量：6
6李翔,张涛,张哲,魏宏杨,钱育蓉.Transformer在计算机视觉领域的研究综述[J].计算机工程与应用,2023,59(1):1-14. 被引量：17
7王本礼,王也.基于深度学习的遥感影像地类信息获取技术现状研究[J].国土资源导刊,2022,19(4):74-80. 被引量：3
8瞿定垚,王学.基于Swin Transformer的家居垃圾分类系统[J].电子制作,2023,31(1):67-74.
9田鑫驰,王亚刚,尹钟.FuseNet:应用于移动端的轻量型图像识别网络[J].计算机应用研究,2023,40(1):288-293.
10付忠广,王诗云,高玉才,周湘淇.基于Mobile-VIT的旋转机械故障诊断方法[J].汽轮机技术,2023,65(2):119-121. 被引量：4

同被引文献3

1冀中,吴伊兵,王轩.双路特征提取与度量的少样本细粒度图像分类方法[J].天津大学学报（自然科学与工程技术版）,2024,57(2):137-146. 被引量：1
2贾翔顺,陈玮,尹钟.融合胶囊网络的双通道神经网络文本分类模型[J].中文信息学报,2023,37(11):91-99. 被引量：1
3高义然,牛兴华,牛俊青,黄梦翔,朱浩铭,王向东.基于EFAST方法的三坐标数控机床几何精度灵敏度分析[J].工具技术,2024,58(4):127-134. 被引量：1

引证文献2

1刘晓,王正勇,何小海,任超.真实世界超分辨率—语义分割联合框架研究[J].新一代信息技术,2023,6(24):6-11.
2孙惠娟,邓聪颖.孪生Transformer编码胶囊数控机床主轴故障分类网络研究[J].机床与液压,2024,52(22):103-109.

1包从望,车守全,刘永志,陈俊,张彩红.基于最大均值差异的卷积神经网络故障诊断模型[J].机电工程,2024,41(3):445-454. 被引量：1
2Yan TIAN,Hanshi FU,Hao WANG,Yuqi LIU,Zhaocheng XU,Hong CHEN,Jianyuan LI,Ruili WANG.RGB oralscan video-based orthodontic treatment monitoring[J].Science China(Information Sciences),2024,67(1):120-135. 被引量：1
3HOU XiaoJuan,ZHANG RuoYang,BI XiaoXue,ZHAO HuiPeng,ZHANG Jie,ZHU Jie,GENG WenPing,HE Jian,CHOU XiuJian.High-density stacked microcoils integrated microminiaturized electromagnetic vibration energy harvester for self-powered acceleration sensing[J].Science China(Technological Sciences),2023,66(12):3369-3380.
4YUAN GuangSong,DUAN HaiBin.Extremum seeking control for UAV close formation flight via improved pigeon-inspired optimization[J].Science China(Technological Sciences),2024,67(2):435-448. 被引量：2
5Yu LU,Baozeng YUE,Bailong HAO,Bole MA,Feng LIU,Yuanyuan CHANG.Stage separation of recoverable liquid launch vehicle by using moving pulsating ball analogue for propellant sloshing[J].Chinese Journal of Aeronautics,2024,37(2):360-370.

电子学报

2024年第1期

浏览历史

内容加载中请稍等...

ConvFormer:基于Transformer的视觉主干网络被引量：2

参考文献1

二级参考文献2

共引文献64

同被引文献3

引证文献2

相关作者

相关机构

相关主题

浏览历史

ConvFormer:基于Transformer的视觉主干网络 被引量：2

参考文献1

二级参考文献2

共引文献64

同被引文献3

引证文献2

相关作者

相关机构

相关主题

浏览历史

ConvFormer:基于Transformer的视觉主干网络被引量：2