遥感场景理解中视觉Transformer的参数高效微调

Parameter Efficient Fine-tuning of Vision Transformers for Remote Sensing Scene Understanding

下载PDF

导出

摘要随着深度学习和计算机视觉技术的飞速发展,遥感场景分类任务对预训练模型的微调通常需要大量的计算资源。为了减少内存需求和训练成本,该文提出一种名为“多尺度融合适配器微调(MuFA)”的方法,用于遥感模型的微调。MuFA引入了一个多尺度融合模块,将不同下采样倍率的瓶颈模块相融合,并与原始视觉Transformer模型并联。在训练过程中,原始视觉Transformer模型的参数被冻结,只有MuFA模块和分类头会进行微调。实验结果表明,MuFA在UCM和NWPU-RESISC45两个遥感场景分类数据集上取得了优异的性能,超越了其他参数高效微调方法。因此,MuFA不仅保持了模型性能,还降低了资源开销,具有广泛的遥感应用前景。 With the rapid development of deep learning and computer vision technologies,fine-tuning pretrained models for remote sensing tasks often requires substantial computational resources.To reduce memory requirements and training costs,a method called“Multi-Fusion Adapter(MuFA)”for fine-tuning remote sensing models is proposed in this paper.MuFA introduces a fusion module that combines bottleneck modules with different down sample rates and connects them in parallel with the original vision Transformer model.During training,the parameters of the original vision Transformer model are frozen,and only the MuFA module and classification head are fine-tuned.Experimental results demonstrate that MuFA achieves superior performance on the UCM and NWPU-RESISC45 remote sensing scene classification datasets,surpassing other parameter efficient fine-tuning methods.Therefore,MuFA not only maintains model performance but also reduces resource overhead,making it highly promising for various remote sensing applications.

作者尹文昕于海琛刁文辉孙显付琨 YIN Wenxin;YU Haichen;DIAO Wenhui;SUN Xian;FU Kun(Aerospace Information Research Institute,Chinese Academy of Sciences,Beijing 100190,China;School of Electronic,Electrical and Communication Engineering,University of Chinese Academy of Sciences,Beijing 100049,China;Key Laboratory of Network Information System Technology(NIST),Aerospace Information Research Institute,Chinese Academy of Sciences,Beijing 100190,China)

机构地区中国科学院空天信息创新研究院中国科学院大学电子电气与通信工程学院中国科学院空天信息创新研究院网络信息体系技术科技创新重点实验室

出处《电子与信息学报》 EI CAS CSCD 北大核心 2024年第9期3731-3738,共8页 Journal of Electronics & Information Technology

基金国家重点研发计划(2022ZD0118401)。

关键词遥感图像场景分类参数高效深度学习 Remote sensing Scene classification Parameter efficient Deep learning

分类号 TN919.81 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献1

1王佩瑾,闫志远,容雪娥,李俊希,路晓男,胡会扬,严启炜,孙显.数据受限条件下的多模态处理技术综述[J].中国图象图形学报,2022,27(10):2803-2834. 被引量：9

二级参考文献2

1董阳,潘海为,崔倩娜,边晓菲,滕腾,王邦菊.面向多模态磁共振脑瘤图像的小样本分割方法[J].计算机应用,2021,41(4):1049-1054. 被引量：13
2马岽奡,唐娉,赵理君,张正.深度学习图像数据增广方法研究综述[J].中国图象图形学报,2021,26(3):487-502. 被引量：37

共引文献8

1王亚珅,胡武陵,朱小伶,葛悦涛.2022年深度学习技术主要发展动向分析[J].无人系统技术,2023,6(1):104-113. 被引量：3
2付琨,王佩瑾,冯瑛超,李俊希,何琪彬,肖思宁,刁文辉,孙显.遥感跨模态智能解译:模型、数据与应用[J].中国科学：信息科学,2023,53(8):1529-1559. 被引量：2
3谢黎,史丰硕,康晓管.情绪测量技术综述[J].大众标准化,2023(18):31-34.
4于英姿,胡凡刚.实然与应然:教育虚拟社区伴随式评价摭论[J].中国电化教育,2023(12):64-74. 被引量：1
5王睿.物联网中的多模态传感器融合技术研究[J].包装世界,2023(11):10-12.
6芦伟.基于数字孪生的自组网多模态数据快速融合[J].电子设计工程,2024,32(6):136-139.
7丁光耀,徐辰,钱卫宁,周傲英.支持深度学习的视觉数据库管理系统研究进展[J].软件学报,2024,35(3):1207-1230.
8任超,丁思颖,张晓奇,张海君.6G无线多模态通信技术[J].电子与信息学报,2024,46(5):1658-1671. 被引量：1

1钱龙龙,闫彬鹏.基于全局信息提取的三维卷积神经网络断层智能识别[J].地球物理学进展,2024,39(4):1532-1543.
2毛舒月,虎若青,王雨欣,朱泓宇,白嘉怡,董啸,冯克鹏.多源遥感蒸散产品在小流域径流模拟中的适用性评价[J].节水灌溉,2024(9):65-73.
3齐元浩,侯正阳,刘太训,徐晴.模型假设对基于模型的森林蓄积量估算的影响[J].林业科学,2024,60(9):111-123.

电子与信息学报

2024年第9期

浏览历史

内容加载中请稍等...

遥感场景理解中视觉Transformer的参数高效微调

参考文献1

二级参考文献2

共引文献8

相关作者

相关机构

相关主题

浏览历史