基于Depth-wise卷积和视觉Transformer的图像分类模型被引量：3

Novel Image Classification Model Based on Depth-wise Convolution Neural Network and Visual Transformer

下载PDF

导出

摘要图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关系进行建模,一些研究者将Transformer应用于图像分类任务,但为了满足Transformer的序列化和并行化要求,需要将图像分割成大小相等、互不重叠的图像块,破坏了相邻图像数据块之间的局部信息。此外,由于Transformer具有较少的先验知识,模型往往需要在大规模数据集上进行预训练,因此计算复杂度较高。为了同时建模图像相邻块之间的局部信息并充分利用图像的全局信息,提出了一种基于Depth-wise卷积的视觉Transformer(Efficient Pyramid Vision Transformer,EPVT)模型。EPVT模型可以实现以较低的计算成本提取相邻图像块之间的局部和全局信息。EPVT模型主要包含3个关键组件:局部感知模块(Local Perceptron Module,LPM)、空间信息融合模块(Spatial Information Fusion,SIF)和“+卷积前馈神经网络(Convolution Feed-forward Network,CFFN)。LPM模块用于捕获图像的局部相关性;SIF模块用于融合相邻图像块之间的局部信息,并利用不同图像块之间的远距离依赖关系,提升模型的特征表达能力,使模型学习到输出特征在不同维度下的语义信息;CFFN模块用于编码位置信息和重塑张量。在图像分类数据集ImageNet-1K上,所提模型优于现有的同等规模的视觉Transformer分类模型,取得了82.6%的分类准确度,证明了该模型在大规模数据集上具有竞争力。 Deep learning-based image classification models have been successfully applied in various scenarios.The current image classification models can be categorized into two classes:the CNN-based classifiers and the Transformer-based classifiers.Due to its limited receptive field,the CNN-based classifiers cannot model the global relation of image,which decreases the classification accuracy.While the Transformer-based classifiers usually segmente the image into non-overlapping image patches with equal size,which harms the local information between each pair of adjacent image patches.Additionally,the Transformer-based classification models often require pre-training on large datasets,resulting in high computational costs.To tackle these problems,an efficient pyramid vision Transformer(EPVT)based on depth-wise convolution is proposed in this paper to extract both the local and glo-bal information between adjacent image patches at a low computational cost.The EPVT model consists of three key components:local perception module(LP),spatial information fusion module(SIF)and convolutional feed-forward network module(CFFN).The LP module is used to capture the local correlation of image patches.SIF module is used to fuse local information between adjacent image patches and improve the feature expression ability of the proposed EPVT by utilizing the long-distance dependence between different image patches.CFFN module is used to encode the location information and reconstruct tensors between feature image patches.To validate the proposed EPVT model’s performance,various experiments are conducted on the benchmark datasets,and experimental results show the EPVT achieves 82.6%classification accuracy on ImageNet-1K,which outperforms most of the SOTA models with lower computational complexity.

作者张峰黄仕鑫花强董春茹 ZHANG Feng;HUANG Shixin;HUA Qiang;DONG Chunru(Hebei Key Laboratory of Machine Learning and Computational Intelligence,College of Mathematics and Information Science,Hebei University,Baoding,Hebei 071002,China)

机构地区河北大学数学与信息科学学院河北省机器学习与计算智能重点实验室

出处《计算机科学》 CSCD 北大核心 2024年第2期196-204,共9页 Computer Science

基金科技部重点研发项目(2022YFE0196100) 河北省自然科学基金面上项目(F2018201115) 河北省教育厅科学技术研究重点项目(ZD2019021) 河北大学高层次创新人才科研启动经费项目。

关键词深度学习图像分类 Depth-wise卷积视觉Transformer 注意力机制 Deep learning Image classification Depth-wise convolution Visual transformer Self-attention mechanism

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1周乐员,张剑华,袁甜甜,陈胜勇.多层注意力机制融合的序列到序列中国连续手语识别和翻译[J].计算机科学,2022,49(9):155-161. 被引量：3
2胡伏原,万新军,沈鸣飞,徐江浪,姚睿,陶重犇.深度卷积神经网络图像实例分割方法研究进展[J].计算机科学,2022,49(5):10-24. 被引量：11
3Wenhai Wang,Enze Xie,Xiang Li,Deng-Ping Fan,Kaitao Song,Ding Liang,Tong Lu,Ping Luo,Ling Shao.PVT v2:Improved baselines with Pyramid Vision Transformer[J].Computational Visual Media,2022,8(3):415-424. 被引量：66
4陈超,齐峰.卷积神经网络的发展及其在计算机视觉领域中的应用综述[J].计算机科学,2019,46(3):63-73. 被引量：143
5张嘉淏,刘峰,齐佳音.一种基于Bottleneck Transformer的轻量级微表情识别架构[J].计算机科学,2022,49(S01):370-377. 被引量：3

二级参考文献5

1陈超,齐峰.卷积神经网络的发展及其在计算机视觉领域中的应用综述[J].计算机科学,2019,46(3):63-73. 被引量：143
2王子愉,袁春,黎健成.利用可分离卷积和多级特征的实例分割[J].软件学报,2019,30(4):954-961. 被引量：14
3周鹏程,龚声蓉,钟珊,包宗铭,戴兴华.基于深度特征融合的图像语义分割[J].计算机科学,2020,47(2):126-134. 被引量：3
4樊玮,刘挺,黄睿,郭青,张宝.卷积神经网络低层特征辅助的图像实例分割方法[J].计算机科学,2020,47(11):186-191. 被引量：7
5郭丹,唐申庚,洪日昌,汪萌.手语识别、翻译与生成综述[J].计算机科学,2021,48(3):60-70. 被引量：12

共引文献220

1曹建芳,崔红艳,张琦.特征融合AlexNet模型的古代壁画分类[J].中国图象图形学报,2020,25(1):92-101. 被引量：5
2鲍光海,林善银,徐林森.基于改进型卷积网络的汽车高度调节器缺陷检测方法[J].仪器仪表学报,2020,41(2):157-165. 被引量：13
3李敏,乔志远,杨易鑫.基于光学遥感影像的舰船检测研究综述[J].网络安全与数据治理,2023,42(S01):106-114.
4张涛.基于GAICNet的垃圾识别分类检测网络[J].智能计算机与应用,2022,12(4):47-53. 被引量：3
5梁力文,管必强,唐嘉泽,李沅峻,周瑞辰,冯望,徐海川.基于机器视觉之具有分拣功能的系统[J].新一代信息技术,2022,5(7):37-39.
6刘桂雄,刘思洋,吴俊芳,罗文佳.基于深度学习的机器视觉目标检测算法及在票据检测中应用[J].中国测试,2019,45(5):1-9. 被引量：20
7李敏,杨阳,王钤,孟博,李凌寒,白入文,杜虹.基于智能视频分析的人流量态势感知方法研究[J].信息安全研究,2019,5(6):488-494. 被引量：4
8刘桂雄,黄坚,刘思洋,廖普.面向语义分割机器视觉的AutoML方法[J].激光杂志,2019,40(6):1-9. 被引量：6
9宫一男,谭孟雨,王震,赵国静,蒋沛林,蒋仕铭,张鼎基,葛剑平,冯利民.基于深度学习的红外相机动物影像人工智能识别:以东北虎豹国家公园为例[J].兽类学报,2019,39(4):458-465. 被引量：19
10周官皓,孙海洋.基于改进LeNet-5的人脸识别研究[J].智能计算机与应用,2019,9(5):75-79. 被引量：2

同被引文献27

1武妍,王守觉.基于多层感知机和RBF转换函数的混合神经网络[J].计算机工程,2006,32(6):25-27. 被引量：2
2田振坤,傅莺莺,刘素红,刘峰.基于无人机低空遥感的农作物快速分类方法[J].农业工程学报,2013,29(7):109-116. 被引量：87
3贾坤,李强子.农作物遥感分类特征变量选择研究现状与展望[J].资源科学,2013,35(12):2507-2516. 被引量：49
4李晓慧,王宏,李晓兵,迟登凯,汤曾伟,韩重远.基于多时相Landsat 8 OLI影像的农作物遥感分类研究[J].遥感技术与应用,2019,34(2):389-397. 被引量：34
5吴静,吕玉娜,李纯斌,李全红.基于多时相Sentinel-2A的县域农作物分类[J].农业机械学报,2019,50(9):194-200. 被引量：39
6杨萌林,张文生.分类激活图增强的图像分类算法[J].计算机科学与探索,2020,14(1):149-158. 被引量：9
7付晓,沈远彤,李宏伟,程晓梅.基于半监督编码生成对抗网络的图像分类模型[J].自动化学报,2020,46(3):531-539. 被引量：14
8马艮寅,雷程翔,贺法川,顾玲嘉,任瑞治.基于卫星遥感图像的农作物分类算法[J].吉林大学学报（信息科学版）,2020,38(5):624-631. 被引量：10
9强敏杰.深度学习在农作物图像识别中的应用研究[J].福建电脑,2021,37(2):1-5. 被引量：3
10王莉,何牧天,徐硕,袁天,赵天翊,刘建飞.基于YOLOv5s网络的垃圾分类和检测[J].包装工程,2021,42(8):50-56. 被引量：57

引证文献3

1周春媚.基于改进深度学习模型的城市建设管理中废弃物精细分类智能框架[J].北京印刷学院学报,2024,32(8):55-60.
2姜文涛,董睿,张晟翀.局部注意力引导下的全局池化残差分类网络[J].光电工程,2024,51(7):107-124.
3张青云,杨辉,李兴伍,武永闯.基于Vision Transformer-LSTM(ViTL)的多时序遥感影像农作物分类方法[J].安徽农业大学学报,2024,51(5):888-898.

1Sijia Zhu,Pinxiu Wang,Ke Shen.ProNet Adaptive Retinal Vessel Segmentation Algorithm Based on Improved UperNet Network[J].Computers, Materials & Continua,2024,78(1):283-302.
2王晨,王伟.基于语义协同指导的小样本语义分割算法[J].无线电工程,2024,54(2):258-266.
3Hongkang Shi,Wenfu Xiao,Shiping Zhu,Linbo Li,Jianfei Zhang.CA-YOLOv5: Detection model for healthy and diseased silkworms in mixed conditions based on improved YOLOv5[J].International Journal of Agricultural and Biological Engineering,2023,16(6):236-245.
4詹永乐.基于机械工程原理的五孔插座通用自动化组装线设计[J].今日自动化,2023(12):87-89.
5王暐,付飞亚,雷灏,唐自力.基于注意力交互的可见光红外跟踪算法[J].光学精密工程,2024,32(3):435-444.
6张道军,陈昌华,李威,郭智兴,杨繁隆.耐磨球阀密封副寿命可靠性分析[J].阀门,2024(1):88-92.
7梁帅,贾佳,张展硕,曹永涛.黄河河南段生态系统生产总值(GEP)核算研究[J].环境工程,2023,41(S02):1003-1007. 被引量：2
8徐磊.生成式人工智能内容风险的一体化规制[J].出版发行研究,2024(1):59-66. 被引量：5
9董春云,鹿于恒,李兵,陈晓龙,于皓瑜.货机货物装载系统热态测控虚拟仿真实验设计[J].实验技术与管理,2023,40(12):137-142.
10鲁英杰,盛立琨,张应龙.面向文献评价的引文网络结构多样性研究[J].计算机应用研究,2024,41(2):408-414.

计算机科学

2024年第2期

浏览历史

内容加载中请稍等...

基于Depth-wise卷积和视觉Transformer的图像分类模型被引量：3

参考文献5

二级参考文献5

共引文献220

同被引文献27

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于Depth-wise卷积和视觉Transformer的图像分类模型 被引量：3

参考文献5

二级参考文献5

共引文献220

同被引文献27

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于Depth-wise卷积和视觉Transformer的图像分类模型被引量：3