期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
面向图像分类的Vision Transformer研究综述
1
作者 智敏 陆静芳 《郑州大学学报(工学版)》 CAS 北大核心 2024年第4期19-29,共11页
作为一种基于Transformer架构的模型,ViT已经在图像分类任务中展现出了良好的效果。对ViT在图像分类任务上的应用进行系统性归纳总结。首先,简单介绍了ViT框架及其4个模块(patch模块、位置编码、多头注意力和前馈神经网络)的功能特性;其... 作为一种基于Transformer架构的模型,ViT已经在图像分类任务中展现出了良好的效果。对ViT在图像分类任务上的应用进行系统性归纳总结。首先,简单介绍了ViT框架及其4个模块(patch模块、位置编码、多头注意力和前馈神经网络)的功能特性;其次,以ViT中4个模块的改进措施为脉络综述其在图像分类任务中的应用;再次,由于不同的模型结构和改进措施对最终的分类性能产生显著影响,还对文中出现的各类ViT进行了横向对比,并详细列出模型的参数和分类精度及其优缺点;最后,指出ViT在图像分类任务中的优势和局限性,并提出未来可能的研究方向以打破其局限性,进一步扩展ViT在其他计算机视觉任务中的应用,同时,还可以探索将ViT扩展到视频理解等更广泛的计算机视觉领域。 展开更多
关键词 ViT模型 图像分类 多头注意力 前馈网络层 位置编码
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部