视觉Transformer研究的关键问题:现状及展望被引量：58

Key Problems and Progress of Vision Transformers:The State of the Art and Prospects

下载PDF

导出

摘要 Transformer所具备的长距离建模能力和并行计算能力使其在自然语言处理领域取得了巨大成功并逐步拓展至计算机视觉等领域.本文以分类任务为切入,介绍了典型视觉Transformer的基本原理和结构,并分析了Transformer与卷积神经网络在连接范围、权重动态性和位置表示能力三方面的区别与联系;同时围绕计算代价、性能提升、训练优化以及结构设计四个方面总结了视觉Transformer研究中的关键问题以及研究进展;并提出了视觉Transformer的一般性框架;然后针对检测和分割两个领域,介绍了视觉Transformer在特征学习、结果产生和真值分配等方面给上层视觉模型设计带来的启发和改变;并对视觉Transformer未来发展方向进行了展望. Due to its long-range sequence modeling and parallel computing capability,Transformers have achieved significant success in natural language processing and are gradually expanding to computer vision area.Starting from image classification,we introduce the architecture of classic vision Transformer and compare it with convolutional neural networks in connection range,dynamic weights and position representation ability.Then,we summarize existing problems and corresponding solutions in vision Transformers including computational efficiency,performance improvement,optimization and architecture design.Besides,we propose a general architecture of Vision Transformers.For object detection and image segmentation,we discuss Transformer-based models and their roles on feature extraction,result generation and ground-truth assignment.Finally,we point out the development trends of vision Transformers.

作者田永林王雨桐王建功王晓王飞跃 TIAN Yong-Lin;WANG Yu-Tong;WANG Jian-Gong;WANG Xiao;WANG Fei-Yue(Department of Automation,University of Science and Technology of China,Hefei 230027;The State Key Laboratory for Management and Control of Complex Systems,Institute of Automation,Chinese Academy of Sciences,Beijing 100190;Qingdao Academy of Intelligent Industries,Qingdao 266000)

机构地区中国科学技术大学自动化系中国科学院自动化研究所复杂系统管理与控制国家重点实验室青岛智能产业技术研究院

出处《自动化学报》 EI CAS CSCD 北大核心 2022年第4期957-979,共23页 Acta Automatica Sinica

基金广东省重点领域研发计划(2020B090921003) 广州市智能网联汽车重大科技专项(202007050002) 国家自然科学基金(U1811463) 英特尔智能网联汽车大学合作研究中心(ICRI-IACV)资助。

关键词视觉Transformer 图像分类目标检测图像分割计算机视觉 Vision Transformers image classification object detection image segmentation computer vision

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1张慧,王坤峰,王飞跃.深度学习在目标视觉检测中的应用进展与展望[J].自动化学报,2017,43(8):1289-1305. 被引量：245
2陈伟宏,安吉尧,李仁发,李万里.深度学习认知计算综述[J].自动化学报,2017,43(11):1886-1897. 被引量：37

二级参考文献9

1王飞跃.平行系统方法与复杂系统的管理和控制[J].控制与决策,2004,19(5):485-489. 被引量：332
2王飞跃.平行控制:数据驱动的计算控制方法[J].自动化学报,2013,39(4):293-302. 被引量：130
3余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：610
4黄凯奇,任伟强,谭铁牛.图像物体分类与检测算法综述[J].计算机学报,2014,37(6):1225-1240. 被引量：195
5陈国良,毛睿,陆克中.大数据并行计算框架[J].科学通报,2015,60(5):566-569. 被引量：6
6段艳杰,吕宜生,张杰,赵学亮,王飞跃.深度学习在控制领域的研究现状与展望[J].自动化学报,2016,42(5):643-654. 被引量：147
7朱煜,赵江坤,王逸宁,郑兵兵.基于深度学习的人体行为识别算法综述[J].自动化学报,2016,42(6):848-857. 被引量：132
8王坤峰,苟超,王飞跃.平行视觉:基于ACP的智能视觉计算方法[J].自动化学报,2016,42(10):1490-1500. 被引量：49
9孙旭,李晓光,李嘉锋,卓力.基于深度学习的图像超分辨率复原研究进展[J].自动化学报,2017,43(5):697-709. 被引量：69

共引文献279

1庞宁.基于深度学习的输电线杆塔鸟巢检测与识别[J].自动化与仪器仪表,2020(4):195-198. 被引量：6
2傅隆生,宋珍珍,Zhang Xin,李瑞,王东,崔永杰.深度学习方法在农业信息中的研究进展与应用现状[J].中国农业大学学报,2020,25(2):105-120. 被引量：53
3万士哲.干法造纸纤维空气动力成网过程的研究[J].浙江造纸,2000(1):16-18.
4池美珠,陆中权,除辉.新生儿缺氧缺血性脑病血糖、血皮质醇水平变化及临床意义[J].新生儿科杂志,2000,15(1):12-13. 被引量：10
5H.埃德尼,朱海滨,李显靖.新型矿物分析系统[J].国外金属矿山,2000,25(2):53-54.
6张细莲.例谈线性规划问题的最优解[J].中学数学研究（华南师范大学）（上半月）,2000(4):28-29.
7刘念,陈宏翔.人工智能在皮肤科领域的应用与发展[J].中华皮肤科杂志,2019,52(1):63-66. 被引量：11
8李美玲.浅谈深度学习在目标检测中的发展[J].科技风,2017(24):237-237. 被引量：5
9张艳玲,刘爱志,孙长银.间接互惠与合作演化的若干问题研究进展[J].自动化学报,2018,44(1):1-12. 被引量：13
10邓方,宋苏,刘克,吴国政,付俊.国家自然科学基金自动化领域数据分析与研究热点变化[J].自动化学报,2018,44(2):377-384. 被引量：9

同被引文献407

1王飞跃,王艳芬,陈薏竹,田永林,齐红威,王晓,张卫山,张俊,袁勇.联邦生态:从联邦数据到联邦智能[J].智能科学与技术学报,2020,2(4):305-311. 被引量：29
2丁文文,王帅,李娟娟,袁勇,欧阳丽炜,王飞跃.去中心化自治组织:发展现状、分析框架与未来趋势[J].智能科学与技术学报,2019,0(2):202-213. 被引量：35
3白天翔,沈震,刘雅婷,董西松.平行机器:一种智能机器的管理与控制框架[J].智能科学与技术学报,2019,0(2):181-191. 被引量：5
4赵朗月,吴一全.基于机器视觉的表面缺陷检测方法研究进展[J].仪器仪表学报,2022,43(1):198-219. 被引量：83
5徐伟,夏志祥,行鸿彦.基于集成经验模态分解和极端梯度提升的雷电预警方法[J].仪器仪表学报,2020,41(8):235-243. 被引量：20
6董永胜,陈为高,侯佃平,孙宝昌.智能化选煤厂研究与建议[J].工矿自动化,2021,47(S01):26-31. 被引量：22
7王辰成,杨麟儿,王莹莹,杜永萍,杨尔弘.基于Transformer增强架构的中文语法纠错方法[J].中文信息学报,2020(6):106-114. 被引量：27
8林克剑,李元恒,李芳,李平,丁勇.加快内蒙古草原生态保护建设步伐,推进草牧业高质量发展[J].科技促进发展,2019,15(12):1372-1377. 被引量：5
9刘永刚,于丰宁,章新杰,陈峥,秦大同.基于激光点云与图像融合的3D目标检测研究[J].机械工程学报,2022,58(24):289-299. 被引量：13
10刘淑梅.教育信息化2.0背景下地方高校信息化建设的思考[J].中国多媒体与网络教学学报（电子版）,2020,0(1):91-92. 被引量：4

引证文献58

1陈凡,宋文革,范誉瀚,陈塞.基于CNN-Transformer融合模型的选煤厂振动筛上杂物语义分割研究[J].煤炭工程,2023,55(S01):193-199. 被引量：1
2邵攀,石卫超,秦道龙,张晓东,董婷,管宗胜.集成CNN和Transformer的通道交互多层级融合变化检测[J].测绘科学,2024,49(5):110-121.
3汪磊,何怡刚,谭畅.基于DA-Transformer的风机叶片覆冰检测[J].三峡大学学报（自然科学版）,2022,44(5):1-8.
4Fei-Yue Wang.The DAO to MetaControl for MetaSystems in Metaverses:The System of Parallel Control Systems for Knowledge Automation and Control Intelligence in CPSS[J].IEEE/CAA Journal of Automatica Sinica,2022,9(11):1899-1908. 被引量：24
5张文娟,杨皓哲,张彬,李秀杰.考虑多时间尺度特征的城市轨道交通短时客流量预测模型[J].交通运输系统工程与信息,2022,22(6):212-223. 被引量：6
6李翔,张涛,张哲,魏宏杨,钱育蓉.Transformer在计算机视觉领域的研究综述[J].计算机工程与应用,2023,59(1):1-14. 被引量：13
7王本礼,王也.基于深度学习的遥感影像地类信息获取技术现状研究[J].国土资源导刊,2022,19(4):74-80. 被引量：3
8瞿定垚,王学.基于Swin Transformer的家居垃圾分类系统[J].电子制作,2023,31(1):67-74.
9田鑫驰,王亚刚,尹钟.FuseNet:应用于移动端的轻量型图像识别网络[J].计算机应用研究,2023,40(1):288-293.
10付忠广,王诗云,高玉才,周湘淇.基于Mobile-VIT的旋转机械故障诊断方法[J].汽轮机技术,2023,65(2):119-121. 被引量：3

二级引证文献204

1刘宪权.生成式人工智能对数据法益刑法保护体系的影响[J].中国刑事法杂志,2023(4):20-34. 被引量：14
2李玉星,董邵灿,胡其会,袁运栋,安成名,王武昌.油气管道第三方破坏预警技术现状[J].中国安全生产科学技术,2023,19(S02):115-121.
3刘畅.人工智能在日语会话教学中的应用探讨——以ChatGPT为例[J].科技视界,2023(16):47-52. 被引量：1
4侯跃伟.生成式人工智能的刑事风险与前瞻治理[J].河北法学,2024,42(2):160-178. 被引量：5
5丁晓东.人工智能风险的法律规制——以欧盟《人工智能法》为例[J].法律科学（西北政法大学学报）,2024,42(5):3-18. 被引量：1
6王飞跃.平行管理:复杂性管理智能的生态科技与智慧管理之DAO[J].自动化学报,2022,48(11):2655-2669. 被引量：21
7MengChu Zhou.Editorial: Evolution from AI, IoT and Big Data Analytics to Metaverse[J].IEEE/CAA Journal of Automatica Sinica,2022,9(12):2041-2042. 被引量：2
8Fei-Yue Wang.The Metaverse of Mind:Perspectives on DeSci for DeEco and DeSoc[J].IEEE/CAA Journal of Automatica Sinica,2022,9(12):2043-2046. 被引量：7
9Xiujuan Wang,Mengzhen Kang,Hequan Sun,Philippe de Reffye,Fei-Yue Wang.DeCASA in AgriVerse: Parallel Agriculture for Smart Villages in Metaverses[J].IEEE/CAA Journal of Automatica Sinica,2022,9(12):2055-2062. 被引量：8
10卢经纬,程相,王飞跃.求解微分方程的人工智能与深度学习方法:现状及展望[J].智能科学与技术学报,2022,4(4):461-476. 被引量：3

1陈继辉.绿色建筑与绿色施工现状及展望[J].前卫,2022(4):95-97. 被引量：1
2王玥娜,张洪伟.Z型异质结光催化剂现状及展望[J].石油化工应用,2022,41(4):12-15.
3马志强.煤矿智能化开采技术发展现状及展望[J].内蒙古煤炭经济,2021(24):117-119. 被引量：3
4张凌霄.我国智能立法发展现状及展望[J].消费电子,2022(2):42-44.
5陈道花,陈兢兢,李水秀,李静.微波消融在非小细胞肺癌中的治疗现状及展望[J].中华结核和呼吸杂志,2022,45(5):528-532. 被引量：1
6陈志丽,赵竟池,曲艳慧.加氢站的工艺设计研究[J].能源与节能,2022(5):12-14. 被引量：2
7陈妍,赵俊.医联体同质化管理模型的研究与构建[J].江苏卫生事业管理,2022,33(3):288-291. 被引量：8
8吴建宏.探讨石油、天然气管道焊接工艺现状及展望[J].新型工业化,2022,12(3):218-220. 被引量：2
9季松,庞松,龚政轩,许泉,华溪如,武丽丽,孙明珠,江善尧,肖旅,胡涛,无.含Er铸造镁合金材料研究现状及展望[J].特种铸造及有色合金,2021,41(12):1463-1468.
10刘月秀,刘光宇.我国青少年篮球运动员体能训练优化路径研究[J].当代体育科技,2022,12(11):40-42. 被引量：7

自动化学报

2022年第4期

浏览历史

内容加载中请稍等...

视觉Transformer研究的关键问题:现状及展望被引量：58

参考文献2

二级参考文献9

共引文献279

同被引文献407

引证文献58

二级引证文献204

相关作者

相关机构

相关主题

浏览历史

视觉Transformer研究的关键问题:现状及展望 被引量：58

参考文献2

二级参考文献9

共引文献279

同被引文献407

引证文献58

二级引证文献204

相关作者

相关机构

相关主题

浏览历史

视觉Transformer研究的关键问题:现状及展望被引量：58