期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于CNN-Transformer的街景图像分类 被引量:1
1
作者 赵锟 余添 +2 位作者 周立俭 郝思媛 李可 《青岛理工大学学报》 CAS 2023年第3期146-152,共7页
街景图像具有语义抽象度高、视觉特征难以聚合的特殊性,需要借助全局注意力的参与来完成高质量的分类。作为目前主流的自然语言模型,Transformer可以有效建模全局注意力,但直接用于图像会存在计算参数过大问题。利用图像数据特有的空间... 街景图像具有语义抽象度高、视觉特征难以聚合的特殊性,需要借助全局注意力的参与来完成高质量的分类。作为目前主流的自然语言模型,Transformer可以有效建模全局注意力,但直接用于图像会存在计算参数过大问题。利用图像数据特有的空间信息冗余这一归纳偏置,提出基于CNN-Transformer的模型,用于街景分类任务。首先,使用CNN模块通过压缩空间冗余获得街景图像的紧凑特征表示;其次,利用Transformer模块的全局注意力机制挖掘不同局部紧凑特征之间的相关性,提取有上下文的聚焦特征;最后,经过视觉词元合并后得到分类结果。实验结果表明:该模型在3个街景图像代表性数据集的分类准确率较主流CNN框架有了显著提升,且计算参数仅为主流Vision Transformer模型的25.62%。 展开更多
关键词 街景图像分类 TRANSFORMER 卷积神经网络 注意力机制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部