基于重组性高斯自注意力的视觉Transformer 被引量：1

Vision Transformer Based on Reconfigurable Gaussian Self-attention

下载PDF

导出

摘要在目前视觉Transformer的局部自注意力中,现有的策略无法建立所有窗口之间的信息流动,导致上下文语境建模能力不足.针对这个问题,基于混合高斯权重重组(Gaussian weight recombination,GWR)的策略,提出一种新的局部自注意力机制SGW-MSA(Shuffled and Gaussian window-multi-head self-attention),它融合了3种不同的局部自注意力,并通过GWR策略对特征图进行重建,在重建的特征图上提取图像特征,建立了所有窗口的交互以捕获更加丰富的上下文信息.基于SGW-MSA设计了SGWin Transformer整体架构.实验结果表明,该算法在mini-imagenet图像分类数据集上的准确率比Swin Transformer提升了5.1%,在CIFAR10图像分类实验中的准确率比Swin Transformer提升了5.2%,在MS COCO数据集上分别使用Mask R-CNN和Cascade R-CNN目标检测框架的mAP比Swin Transformer分别提升了5.5%和5.1%,相比于其他基于局部自注意力的模型在参数量相似的情况下具有较强的竞争力. In the current vision Transformer's local self-attention,the existing strategy cannot establish the information flow between all windows,resulting in the lack of context modeling ability.To solve this problem,this paper proposes a new local self-attention mechanism shuffled and Gaussian window-multi-head self-attention(SGW-MSA)based on the strategy of Gaussian weight recombination(GWR),which combines three different local self-attention forces,and reconstructs the feature map through GWR strategy,and extracts image features from the reconstructed feature map.The interaction of all windows is established to capture richer context information.This paper designs the overall architecture of SGWin Transformer based on SGW-MSA.The experimental results show that the accuracy of this algorithm in the mini-imagenet image classification dataset is 5.1%higher than that in the Swin Transformer,the accuracy in the CIFAR10 image classification experiment is 5.2%higher than that in the Swin Transformer,and the mAP using the Mask R-CNN and Cascade R-CNN object detection frameworks on the MS COCO dataset are 5.5%and 5.1%higher than that in the Swin Transformer,respectively.Compared with other models based on local self-attention,it has stronger competitiveness in the case of similar parameters.

作者赵亮周继开 ZHAO Liang;ZHOU Ji-Kai(College of Information and Control Engineering,Xi'an University of Architecture and Technology,Xi'an 710055;Shaanxi Provincial Key Laboratory of Geotechnical and Underground Space Engineering,Xi'an 710055)

机构地区西安建筑科技大学信息与控制工程学院陕西省岩土与地下空间工程重点实验室

出处《自动化学报》 EI CAS CSCD 北大核心 2023年第9期1976-1988,共13页 Acta Automatica Sinica

基金国家自然科学基金(51209167,12002251) 陕西省自然科学基金(2019JM-474) 陕西省岩土与地下空间工程重点实验室开放基金(YT202004) 陕西省教育厅服务地方专项计划(22JC043)资助。

关键词 TRANSFORMER 局部自注意力混合高斯权重重组图像分类目标检测 Transformer local self-attention Gaussian weight recombination(GWR) image classification objection detection

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1徐鹏斌,瞿安国,王坤峰,李大字.全景分割研究综述[J].自动化学报,2021,47(3):549-568. 被引量：8
2尹宏鹏,陈波,柴毅,刘兆栋.基于视觉的目标检测与跟踪综述[J].自动化学报,2016,42(10):1466-1489. 被引量：283
3蒋弘毅,王永娟,康锦煜.目标检测模型及其优化方法综述[J].自动化学报,2021,47(6):1232-1255. 被引量：26

二级参考文献13

1侯志强,韩崇昭.视觉跟踪技术综述[J].自动化学报,2006,32(4):603-617. 被引量：253
2万缨,韩毅,卢汉清.运动目标检测算法的探讨[J].计算机仿真,2006,23(10):221-226. 被引量：121
3葛继科,邱玉辉,吴春明,蒲国林.遗传算法研究综述[J].计算机应用研究,2008,25(10):2911-2916. 被引量：407
4张娟,毛晓波,陈铁军.运动目标跟踪算法研究综述[J].计算机应用研究,2009,26(12):4407-4410. 被引量：104
5牛芗洁,黄永春.微弱运动目标的检测与跟踪识别算法研究[J].计算机仿真,2010,27(4):245-247. 被引量：6
6查宇飞,毕笃彦,杨源,董守平,罗宁.基于全局和局部约束直推学习的鲁棒跟踪研究[J].自动化学报,2010,36(8):1084-1090. 被引量：2
7肖晓伟,肖迪,林锦国,肖玉峰.多目标优化问题的研究概述[J].计算机应用研究,2011,28(3):805-808. 被引量：203
8郑胤,陈权崎,章毓晋.深度学习及其在目标和行为识别中的新进展[J].中国图象图形学报,2014,19(2):175-184. 被引量：146
9巫影,陈定方,唐小兵,朱石坚,黄映云,李庆.神经网络综述[J].科技进步与对策,2002,19(6):133-134. 被引量：33
10高仕博,程咏梅,肖利平,韦海萍.面向目标检测的稀疏表示方法研究进展[J].电子学报,2015,43(2):320-332. 被引量：18

共引文献314

1张辉,易俊飞,王耀南,吴刘宸,陈瑞博.医药质量检测关键技术及其应用综述[J].仪器仪表学报,2020,41(3):1-17. 被引量：14
2郑浦,白宏阳,李政茂,郭宏伟.抖动干扰下运动目标精准检测与跟踪算法设计[J].仪器仪表学报,2019,40(11):90-98. 被引量：18
3高璇,毕晓君.基于改进Faster R-CNN的低剂量CT图像肺结节检测[J].计算机应用研究,2020,37(S02):404-406. 被引量：2
4南晓虎,丁雷.深度学习的典型目标检测算法综述[J].计算机应用研究,2020,37(S02):15-21. 被引量：52
5谢赛宝,刘春阳,陈帆,黄艳,隋新,马喜强,杨晓康.基于视觉的自主机器人障碍识别与路径规划[J].电子测量与仪器学报,2022,36(12):185-192. 被引量：3
6王菲菲,陈磊,焦良葆,曹雪虹.基于SSD-MobileNet的安全帽检测算法研究[J].信息化研究,2020(3):34-39. 被引量：1
7左国才,苏秀芝,陈明丽,匡林爱,吴小平.基于深度学习抗遮挡的多目标跟踪研究[J].智能计算机与应用,2020(7):239-242. 被引量：3
8左国才,苏秀芝,陈明丽,张珏,吴小平.基于SDAE深度学习的多目标检测与跟踪研究[J].智能计算机与应用,2020(7):203-205.
9李娜,周林宏,杨戈,杨秀璋,杨楠.一种基于改进YOLOv3的甲板灯光异常检测方法[J].船舶工程,2021,43(S02):53-58. 被引量：2
10张皓诚,王晓华,王文杰.基于特定人步态信息的移动机器人跟踪方法[J].国外电子测量技术,2022,41(4):8-14.

同被引文献9

1李跃,许少秋.基于边缘定向的图像插值算法[J].机电工程技术,2015,44(5):5-9. 被引量：3
2张晓旭,马志强,刘志强,朱方圆,王春喻.Transformer在语音识别任务中的研究现状与展望[J].计算机科学与探索,2021,15(9):1578-1594. 被引量：15
3刘文婷,卢新明.基于计算机视觉的Transformer研究进展[J].计算机工程与应用,2022,58(6):1-16. 被引量：56
4Yifan Xu,Huapeng Wei,Minxuan Lin,Yingying Deng,Kekai Sheng,Mengdan Zhang,Fan Tang,Weiming Dong,Feiyue Huang,Changsheng Xu.Transformers in computational visual media:A survey[J].Computational Visual Media,2022,8(1):33-62. 被引量：11
5田永林,王雨桐,王建功,王晓,王飞跃.视觉Transformer研究的关键问题:现状及展望[J].自动化学报,2022,48(4):957-979. 被引量：49
6Wenhai Wang,Enze Xie,Xiang Li,Deng-Ping Fan,Kaitao Song,Ding Liang,Tong Lu,Ping Luo,Ling Shao.PVT v2:Improved baselines with Pyramid Vision Transformer[J].Computational Visual Media,2022,8(3):415-424. 被引量：47
7石磊,籍庆余,陈清威,赵恒毅,张俊星.视觉Transformer在医学图像分析中的应用研究综述[J].计算机工程与应用,2023,59(8):41-55. 被引量：4
8季瑞瑞,谢宇辉,骆丰凯,梅远.改进视觉Transformer的人脸识别方法[J].计算机工程与应用,2023,59(8):117-126. 被引量：3
9石争浩,李成建,周亮,张治军,仵晨伟,尤珍臻,任文琦.Transformer驱动的图像分类研究进展[J].中国图象图形学报,2023,28(9):2661-2692. 被引量：1

引证文献1

1彭斌,白静,李文静,郑虎,马向宇.面向图像分类的视觉Transformer研究进展[J].计算机科学与探索,2024,18(2):320-344. 被引量：2

二级引证文献2

1王玉芳,朱琛,陈江萍.基于深度学习Transformer网络的皮革表面瑕疵自动检测研究[J].中国皮革,2024,53(6):28-31.
2李清旭,李荣威.基于Keras框架的油气管道缺陷分类应用研究[J].软件工程与应用,2024,13(1):73-81.

1Lydia Hébert-Tremblay,Martin Arguin.AB057.Diagnostic information for the recognition of 3D forms in humans[J].Annals of Eye Science,2018(1):463-463.
2潘佃献.重组性迁移在高中地理主题式教学中的应用——以《地表形态的塑造》的教学为例[J].中学政史地（教学指导）,2023(8):67-72.
3陈媛,陈红.融合底层信息的电气工程领域神经机器翻译[J].河南科技大学学报（自然科学版）,2023,44(6):42-48. 被引量：1
4邹文华.基于新印象派表征的丝网版画创作探索[J].丝网印刷,2023(9):67-70. 被引量：1
5Zhibiao Wang,Reuben J.Peters.Dynamic evolution of terpenoid biosynthesis in the Lamiaceae[J].Molecular Plant,2023,16(6):963-965.
6许盛亮,郑松.基于CNN-MHA-BiLSTM的云控制系统DDoS攻击检测[J].指挥与控制学报,2023,9(3):355-360.
7余晓霞,汤宝平,王伟影,吴宣勇,李彪.复杂工况条件下多头注意力双向长短时记忆网络的风电机组缺失数据修复方法研究[J].机械工程学报,2023,59(14):1-9. 被引量：1
8文斌,李知聪,朱晗,曹仁轩.MHSACAE-CNN在噪声下的电机轴承故障诊断[J].振动工程学报,2023,36(4):1169-1178.
9施国良,周抒,王云峰,施春江,刘亮.基于改进多头注意力机制的专利文本摘要生成研究[J].数据分析与知识发现,2023,7(6):61-72.
10刘杨,刘天羽.基于宽度学习预测的可重构多微电网随机优化框架[J].计算机应用与软件,2023,40(8):38-44.

自动化学报

2023年第9期

浏览历史

内容加载中请稍等...