整合卷积与高效自注意力机制的图像分类模型

Integrating Convolution and Efficient Self-attention for Image Classification

下载PDF

导出

摘要对于传统的图像分类网络而言,卷积神经网络受限于较小且固定的感受野使其忽略了感受野之外的图像特征信息.基于Transformer模型灵活的多头自注意力机制使得其必须依赖于巨大的数据量以减少过拟合的风险,导致模型参数与计算复杂度过于庞大.针对上述问题本文提出了一种名为CSNet的多阶段图像分类模型.在模型浅层阶段利用大核卷积分解的思想扩大卷积层感受野以学习较大范围的特征信息.在深层阶段利用一种高效的自注意力机制,将卷积运算的特性加入自注意力机制中,有效减少了原始自注意力机制局部计算冗余和过分依赖数据的问题.CSNet在CIFAR-10和ImageNet-1K数据集上的分类准确率分别达到98.9%和82.6%,实验表明CSNet的模型性能优于ResNet和Vision Transformer. For traditional image classification networks,convolutional neural networks are limited by a small and fixed receptive field that ignores information about image features outside the receptive field.The flexible multi-headed self-attention of Transformer-based models makes it necessary to rely on a huge amount of data to reduce the risk of overfitting,resulting in overly large model parameters and computational complexity.Aiming at these problems,this paper proposes a multi-stage image classification model called CSNet.In the shallow stage of the model,the idea of large kernel convolutional decomposition is used to expand the convolutional field to learn a larger range of feature information.In the deeper stage,an efficient self-attention is used to incorporate the features of convolutional operations into the self-attention,which effectively reduces the problems of local computational redundancy and over-reliance on data in the original self-attention.The accuracy of CSNet on CIFAR-10 and ImageNet-1K datasets reached 98.9%and 82.6%respectively,experiments showed that the model performance of CSNet was better than ResNet and Vision Transformer.

作者田鑫驰王亚刚尹钟陈浩 TIAN Xinchi;WANG Yagang;YIN Zhong;CHEN Hao(School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China)

机构地区上海理工大学光电信息与计算机工程学院

出处《小型微型计算机系统》 CSCD 北大核心 2024年第3期684-691,共8页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61074087)资助.

关键词卷积神经网络 TRANSFORMER 自注意力机制卷积分解图像分类 CSNet convolutional neural network Transformer self-attention convolutional decomposition image classification CSNet

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1江枭宇,李忠兵,张军豪,彭娇,文婷.基于NCS2神经计算棒的车辆检测方法[J].计算机工程,2021,47(3):298-303. 被引量：5
2田永林,王雨桐,王建功,王晓,王飞跃.视觉Transformer研究的关键问题:现状及展望[J].自动化学报,2022,48(4):957-979. 被引量：66
3谭富祥,钱育蓉,孔钰婷,张昊,周大新,范迎迎,陈龙.基于Transformer的多分支单图像去雨方法[J].计算机应用研究,2022,39(8):2500-2505. 被引量：6
4迟海洋,严馨,徐广义,陈玮,周枫.融合主题信息和Transformer模型的健康问句意图分类[J].小型微型计算机系统,2021,42(12):2519-2524. 被引量：4

二级参考文献17

1金碧漪,许鑫.网络健康社区中的主题特征研究[J].图书情报工作,2015,59(12):100-105. 被引量：48
2郭海红,李姣,代涛.中文健康问句分类与语料构建[J].情报工程,2016,2(6):39-49. 被引量：9
3张慧,王坤峰,王飞跃.深度学习在目标视觉检测中的应用进展与展望[J].自动化学报,2017,43(8):1289-1305. 被引量：250
4钱岳,丁效,刘挺,陈毅恒.聊天机器人中用户出行消费意图识别方法[J].中国科学：信息科学,2017,47(8):997-1007. 被引量：9
5陈伟宏,安吉尧,李仁发,李万里.深度学习认知计算综述[J].自动化学报,2017,43(11):1886-1897. 被引量：38
6余慧,冯旭鹏,刘利军,黄青松.聊天机器人中用户就医意图识别方法[J].计算机应用,2018,38(8):2170-2174. 被引量：9
7黄贤英,谢晋,龙姝言.融合词向量及BTM模型的问题分类方法[J].计算机工程与设计,2019,40(2):384-388. 被引量：10
8杨志明,王来奇,王泳.深度学习算法在问句意图分类中的应用研究[J].计算机工程与应用,2019,55(10):154-160. 被引量：12
9杨志明,王来奇,王泳.基于双通道卷积神经网络的问句意图分类研究[J].中文信息学报,2019,33(5):122-131. 被引量：11
10张洋硕,苗壮,王家宝,李阳.基于Movidius神经计算棒的行人检测方法[J].计算机应用,2019,39(8):2230-2234. 被引量：13

共引文献77

1陈凡,宋文革,范誉瀚,陈塞.基于CNN-Transformer融合模型的选煤厂振动筛上杂物语义分割研究[J].煤炭工程,2023,55(S01):193-199. 被引量：1
2邵攀,石卫超,秦道龙,张晓东,董婷,管宗胜.集成CNN和Transformer的通道交互多层级融合变化检测[J].测绘科学,2024,49(5):110-121.
3韩进,周昊.树莓派的YOLOv3轻量化算法研究及应用[J].单片机与嵌入式系统应用,2021,21(5):43-47. 被引量：2
4程有娥.基于灰度迁移学习的交通卡口车尾检测算法[J].浙江工贸职业技术学院学报,2021,21(3):47-51. 被引量：2
5陈燕,龚庆悦,戴彩艳.基于句法抽取与图结构编码的患者问询意图识别[J].计算机与数字工程,2021,49(11):2276-2281. 被引量：1
6汪磊,何怡刚,谭畅.基于DA-Transformer的风机叶片覆冰检测[J].三峡大学学报（自然科学版）,2022,44(5):1-8.
7Fei-Yue Wang.The DAO to MetaControl for MetaSystems in Metaverses:The System of Parallel Control Systems for Knowledge Automation and Control Intelligence in CPSS[J].IEEE/CAA Journal of Automatica Sinica,2022,9(11):1899-1908. 被引量：24
8武永泉,张四维,彭冲,焦良葆,浦东.结合场景分析的输电线路通道可视化分级预警研究[J].电气工程学报,2022,17(3):194-202. 被引量：3
9梁允泉,董苗苗,齐振岭,刘羿漩,葛广英,孙群.基于边缘设备和改进YOLOv5算法的车牌号码识别[J].现代计算机,2022,28(17):16-22. 被引量：3
10张文娟,杨皓哲,张彬,李秀杰.考虑多时间尺度特征的城市轨道交通短时客流量预测模型[J].交通运输系统工程与信息,2022,22(6):212-223. 被引量：7

1闫琳英.基于TensorFlow框架的图像识别网络模型的研究[J].计算机与数字工程,2023,51(11):2689-2692.
2刘欣,柏正尧,方成.改进Unet++的肾脏肿瘤分割方法[J].计算机应用与软件,2024,41(2):238-243.
3高静雅,秦桂芬.提升群众内生发展动力巩固脱贫攻坚成果研究[J].农村经济与科技,2023,34(19):225-229.
4苏树智,蒋博文,陈润斌.基于实例归一化的通道注意力模块[J].计算机仿真,2024,41(1):227-231.
5张阳,陈燕玲.多头图注意机制的深度学习地铁客流预测方法[J].铁道运输与经济,2024,46(2):167-175.
6P Pabitha,Anusha Jayasimhan.An Efficient Approach to Escalate the Speed of Training Convolution Neural Networks[J].China Communications,2024,21(2):258-269.
7Imrus Salehin,Md.Shamiul Islam,Pritom Saha,S.M.Noman,Azra Tuni,Md.Mehedi Hasan,Md.Abu Baten.AutoML: A systematic review on automated machine learning with neural architecture search[J].Journal of Information and Intelligence,2024,2(1):52-81. 被引量：4

小型微型计算机系统

2024年第3期

浏览历史

内容加载中请稍等...

整合卷积与高效自注意力机制的图像分类模型

参考文献4

二级参考文献17

共引文献77

相关作者

相关机构

相关主题

浏览历史