基于ViT的细粒度图像分类被引量：1

Fine-grained visual classification based on vision transformer

下载PDF

导出

摘要为解决细粒度图像分类任务存在类内差异性和类间相似性大的问题,提出一种基于Vision Transformer(ViT)的细粒度图像分类方法。采取ViT作为特征编码网络,获取图像的全局特征表示;设计多级区域选择模块,捕捉细微的具有可判别性的层级化信息;利用一个简单且有效的中心损失函数,缩短深层特征与相应类中心在特征空间中的距离。在图像级标签的监督下,实现端到端的训练。结果在CUB-200-2011、NABirds以及Stanford Cars数据集上分别达到90.1%、90.2%和93.7%的分类准确率,超越当前最优算法。 To address the problem of subtle intra-class similarities and big inter-class variances fronted by in the fine-grained visual classification(FGVC)task,a method based on Vision Transformer(ViT)architecture was proposed for FGVC.Speci-fically,ViT as features encoding network was used to extract image representation.Multi-regions selection module(MRSM)was designed to capture fine-grained discriminative and hierarchical information.The center loss was introduced to close the distance between depth features and class centers.Under the supervision of image-level labels,the entire network was optimized in an end-to-end manner.The results achieve 90.1%,90.2%and 93.7%classification accuracies on the CUB-200-2011,NABirds and Stanford Cars datasets,respectively,surpassing the current best algorithm.

作者李佳盈蒋文婷杨林罗铁坚 LI Jia-ying;JIANG Wen-ting;YANG Lin;LUO Tie-jian(School of Automation,Beijing Information Science and Technology University,Beijing 100854,China;Institute of Telecommunication and Navigation Satellites,China Academy of Space Technology,Beijing 100091,China;Institute 706,Second Academy of China Aerospace Science and Industry Corporation,Beijing 100039,China;School of Computer Science and Technology,University of Chinese Academy of Sciences,Beijing 100854,China)

机构地区北京信息科技大学自动化学院中国空间技术研究院通信与导航卫星总体部中国航天科工集团第二研究院七〇六所中国科学院大学计算机科学与技术学院

出处《计算机工程与设计》北大核心 2023年第3期916-921,共6页 Computer Engineering and Design

关键词细粒度图像分类深度自注意力变换网络注意力机制中心损失卷积神经网络特征表示特征空间 fine-grained visual classification transformer attention mechanism metric learning convolutional neural network feature representation feature space

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1Yifan Xu,Huapeng Wei,Minxuan Lin,Yingying Deng,Kekai Sheng,Mengdan Zhang,Fan Tang,Weiming Dong,Feiyue Huang,Changsheng Xu.Transformers in computational visual media:A survey[J].Computational Visual Media,2022,8(1):33-62. 被引量：9

二级参考文献2

1Kekai Sheng,Weiming Dong,Haibin Huang,Menglei Chai,Yong Zhang,Chongyang Ma,Bao-Gang Hu.Learning to assess visual aesthetics of food images[J].Computational Visual Media,2021,7(1):139-152. 被引量：2
2Meng-Hao Guo,Jun-Xiong Cai,Zheng-Ning Liu,Tai-Jiang Mu,Ralph R.Martin,Shi-Min Hu.PCT:Point cloud transformer[J].Computational Visual Media,2021,7(2):187-199. 被引量：74

共引文献8

1傅博,王洪光,宋屹峰.融合全局和局部特征的单幅图像去雨方法[J].信息与控制,2023,52(4):531-541.
2丁志江,李丹,马志程,张宝龙.基于Transformer的车道线分割算法研究[J].电子测量与仪器学报,2022,36(10):227-234. 被引量：4
3魏华鹏,邓盈盈,唐帆,潘兴甲,董未名.A Comparative Study of CNN-and Transformer-Based Visual Style Transfer[J].Journal of Computer Science & Technology,2022,37(3):601-614.
4Meng-Hao Guo,Tian-Xing Xu,Jiang-Jiang Liu,Zheng-Ning Liu,Peng-Tao Jiang,Tai-Jiang Mu,Song-Hai Zhang,Ralph R.Martin,Ming-Ming Cheng,Shi-Min Hu.Attention mechanisms in computer vision:A survey[J].Computational Visual Media,2022,8(3):331-368. 被引量：44
5姜昊,凌萍,陈寸生保.一种新的基于通道-空间融合注意力及SwinT的细粒度图像分类算法[J].南京师范大学学报（工程技术版）,2023,23(3):36-42.
6左银华,赵明岩,吴顺海,李一欣.基于改进MobileViT模型的大球盖菇品质分级实验研究[J].实验技术与管理,2023,40(9):81-90.
7彭斌,白静,李文静,郑虎,马向宇.面向图像分类的视觉Transformer研究进展[J].计算机科学与探索,2024,18(2):320-344. 被引量：1
8侯颖,杨林,胡鑫,贺顺,宋婉莹,赵谦.基于SwinT-YOLOX模型的自动扶梯行人安全检测算法[J].计算机工程,2024,50(3):277-289.

同被引文献3

1Bo Zhao,Jiashi Feng,Xiao Wu,Shuicheng Yan.A Survey on Deep Learning-based Fine-grained Object Classification and Semantic Segmentation[J].International Journal of Automation and computing,2017,14(2):119-135. 被引量：41
2罗建豪,吴建鑫.基于深度卷积特征的细粒度图像分类研究综述[J].自动化学报,2017,43(8):1306-1318. 被引量：139
3Yifan Xu,Huapeng Wei,Minxuan Lin,Yingying Deng,Kekai Sheng,Mengdan Zhang,Fan Tang,Weiming Dong,Feiyue Huang,Changsheng Xu.Transformers in computational visual media:A survey[J].Computational Visual Media,2022,8(1):33-62. 被引量：9

引证文献1

1姜昊,凌萍,陈寸生保.一种新的基于通道-空间融合注意力及SwinT的细粒度图像分类算法[J].南京师范大学学报（工程技术版）,2023,23(3):36-42.

1陈惠恋.探析提升初中历史课堂有效性的策略[J].试题与研究,2023(7):98-100.
2王文华.STN网络建设策略分析[J].通信电源技术,2023,40(2):58-62.
3郭丹,姚沈涛,王辉,汪萌.嵌入局部聚类描述符的视频问答Transformer模型[J].计算机学报,2023,46(4):671-689. 被引量：1
4杨祺,孙俊.融合多粒度特征的细粒度图像分类网络[J].小型微型计算机系统,2023,44(4):818-824.
5王衍国,田娇美,邢琳杰.应急预案背景下高等院校封闭管理期间学生工作模式初探[J].中国科技经济新闻数据库教育,2023(5):0035-0038.
6崔洪铭,赵扬,于彬,姜立新.基于机器学习算法的胃肠癌患者术后短期并发症的预测研究[J].临床医学进展,2023,13(3):5017-5035.
7苏育挺,陆荣烜,张为.基于注意力和自适应权重的车辆重识别算法[J].浙江大学学报（工学版）,2023,57(4):712-718. 被引量：1
8刘文莲.公共体育投入视域下满足群众体育需求的策略研究[J].华章,2022(6):0162-0164.
9方思越,陈芳,王学昭.基于专利文献的产学研潜在合作关系发现研究[J].情报学报,2023,42(1):10-18. 被引量：1
10闫蕾,冯常武,袁翔,程晨,张艳阳,王柱.徒手淋巴引流联合肌内效贴对桡骨远端骨折术后的康复疗效观察[J].中国伤残医学,2023,31(4):15-19.

计算机工程与设计

2023年第3期

浏览历史

内容加载中请稍等...

基于ViT的细粒度图像分类被引量：1

参考文献1

二级参考文献2

共引文献8

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于ViT的细粒度图像分类 被引量：1

参考文献1

二级参考文献2

共引文献8

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于ViT的细粒度图像分类被引量：1