期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向图像分类的Vision Transformer研究综述
1
作者
智敏
陆静芳
《郑州大学学报(工学版)》
CAS
北大核心
2024年第4期19-29,共11页
作为一种基于Transformer架构的模型,ViT已经在图像分类任务中展现出了良好的效果。对ViT在图像分类任务上的应用进行系统性归纳总结。首先,简单介绍了ViT框架及其4个模块(patch模块、位置编码、多头注意力和前馈神经网络)的功能特性;其...
作为一种基于Transformer架构的模型,ViT已经在图像分类任务中展现出了良好的效果。对ViT在图像分类任务上的应用进行系统性归纳总结。首先,简单介绍了ViT框架及其4个模块(patch模块、位置编码、多头注意力和前馈神经网络)的功能特性;其次,以ViT中4个模块的改进措施为脉络综述其在图像分类任务中的应用;再次,由于不同的模型结构和改进措施对最终的分类性能产生显著影响,还对文中出现的各类ViT进行了横向对比,并详细列出模型的参数和分类精度及其优缺点;最后,指出ViT在图像分类任务中的优势和局限性,并提出未来可能的研究方向以打破其局限性,进一步扩展ViT在其他计算机视觉任务中的应用,同时,还可以探索将ViT扩展到视频理解等更广泛的计算机视觉领域。
展开更多
关键词
ViT模型
图像分类
多头注意力
前馈网络层
位置编码
下载PDF
职称材料
题名
面向图像分类的Vision Transformer研究综述
1
作者
智敏
陆静芳
机构
内蒙古师范大学计算机科学技术学院
出处
《郑州大学学报(工学版)》
CAS
北大核心
2024年第4期19-29,共11页
基金
内蒙古自治区自然科学基金资助项目(2023MS06009)
内蒙古师范大学基本科研业务费专项基金项目(2022JBXC018)
内蒙古师范大学研究生科研创新基金项目(CXJJS22138)。
文摘
作为一种基于Transformer架构的模型,ViT已经在图像分类任务中展现出了良好的效果。对ViT在图像分类任务上的应用进行系统性归纳总结。首先,简单介绍了ViT框架及其4个模块(patch模块、位置编码、多头注意力和前馈神经网络)的功能特性;其次,以ViT中4个模块的改进措施为脉络综述其在图像分类任务中的应用;再次,由于不同的模型结构和改进措施对最终的分类性能产生显著影响,还对文中出现的各类ViT进行了横向对比,并详细列出模型的参数和分类精度及其优缺点;最后,指出ViT在图像分类任务中的优势和局限性,并提出未来可能的研究方向以打破其局限性,进一步扩展ViT在其他计算机视觉任务中的应用,同时,还可以探索将ViT扩展到视频理解等更广泛的计算机视觉领域。
关键词
ViT模型
图像分类
多头注意力
前馈网络层
位置编码
Keywords
ViT model
image classification
multihead attention
feed-forward network layer
position encoding
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向图像分类的Vision Transformer研究综述
智敏
陆静芳
《郑州大学学报(工学版)》
CAS
北大核心
2024
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部