-
题名基于CNN-Transformer的街景图像分类
被引量:1
- 1
-
-
作者
赵锟
余添
周立俭
郝思媛
李可
-
机构
青岛理工大学信息与控制工程学院
-
出处
《青岛理工大学学报》
CAS
2023年第3期146-152,共7页
-
基金
国家自然科学基金资助项目(62171247)
国家级大学生创业实践项目(202110429360S)。
-
文摘
街景图像具有语义抽象度高、视觉特征难以聚合的特殊性,需要借助全局注意力的参与来完成高质量的分类。作为目前主流的自然语言模型,Transformer可以有效建模全局注意力,但直接用于图像会存在计算参数过大问题。利用图像数据特有的空间信息冗余这一归纳偏置,提出基于CNN-Transformer的模型,用于街景分类任务。首先,使用CNN模块通过压缩空间冗余获得街景图像的紧凑特征表示;其次,利用Transformer模块的全局注意力机制挖掘不同局部紧凑特征之间的相关性,提取有上下文的聚焦特征;最后,经过视觉词元合并后得到分类结果。实验结果表明:该模型在3个街景图像代表性数据集的分类准确率较主流CNN框架有了显著提升,且计算参数仅为主流Vision Transformer模型的25.62%。
-
关键词
街景图像分类
TRANSFORMER
卷积神经网络
注意力机制
-
Keywords
street view image classification
Transformer
CNN
attention mechanism
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-