期刊文献+
共找到118篇文章
< 1 2 6 >
每页显示 20 50 100
基于Vision Transformer的虹膜——人脸多特征融合识别研究
1
作者 马滔 陈睿 张博 《中国新技术新产品》 2024年第18期8-10,共3页
为了提高生物特征识别系统的准确性和鲁棒性,本文研究基于计算机视觉的虹膜—人脸多特征融合识别方法。本文对面部图像中虹膜区域进行提取以及预处理,采用对比度增强和归一化操作,加强了特征提取的一致性,提升了图像质量。为了获取丰富... 为了提高生物特征识别系统的准确性和鲁棒性,本文研究基于计算机视觉的虹膜—人脸多特征融合识别方法。本文对面部图像中虹膜区域进行提取以及预处理,采用对比度增强和归一化操作,加强了特征提取的一致性,提升了图像质量。为了获取丰富的深度特征,本文使用Vision Transformer模型对预处理后的虹膜和面部图像进行特征提取。利用多头注意力机制将虹膜和面部的多模态特征信息进行融合,再利用全连接层进行分类识别。试验结果表明,该方法识别性能优秀,识别准确性显著提升。 展开更多
关键词 计算机视觉 vision transformer 多特征融合 虹膜识别 人脸识别
下载PDF
基于Vision Transformer的小麦病害图像识别算法
2
作者 白玉鹏 冯毅琨 +3 位作者 李国厚 赵明富 周浩宇 侯志松 《中国农机化学报》 北大核心 2024年第2期267-274,共8页
小麦白粉病、赤霉病和锈病是危害小麦产量的三大病害。为提高小麦病害图像的识别准确率,构建一种基于Vision Transformer的小麦病害图像识别算法。首先,通过田间拍摄的方式收集包含小麦白粉病、赤霉病和锈病3种病害在内的小麦病害图像,... 小麦白粉病、赤霉病和锈病是危害小麦产量的三大病害。为提高小麦病害图像的识别准确率,构建一种基于Vision Transformer的小麦病害图像识别算法。首先,通过田间拍摄的方式收集包含小麦白粉病、赤霉病和锈病3种病害在内的小麦病害图像,并对原始图像进行预处理,建立小麦病害图像识别数据集;然后,基于改进的Vision Transformer构建小麦病害图像识别算法,分析不同迁移学习方式和数据增强对模型识别效果的影响。试验可知,全参数迁移学习和数据增强能明显提高Vision Transformer模型的收敛速度和识别精度。最后,在相同时间条件下,对比Vision Transformer、AlexNet和VGG16算法在相同数据集上的表现。试验结果表明,Vision Transformer模型对3种小麦病害图像的平均识别准确率为96.81%,相较于AlexNet和VGG16模型识别准确率分别提高6.68%和4.94%。 展开更多
关键词 小麦病害 vision transformer 迁移学习 图像识别 数据增强
下载PDF
基于Vision Transformer与迁移学习的裤装廓形识别与分类
3
作者 应欣 张宁 申思 《丝绸》 CAS CSCD 北大核心 2024年第11期77-83,共7页
针对裤装廓形识别与分类模型的分类不准确问题,文章采用带有自注意力机制的Vision Transformer模型实现裤装廓形图像的分类,对于图片背景等无关信息对廓形识别的干扰,添加自注意力机制,增强有用特征通道。为防止因裤型样本数据集较少产... 针对裤装廓形识别与分类模型的分类不准确问题,文章采用带有自注意力机制的Vision Transformer模型实现裤装廓形图像的分类,对于图片背景等无关信息对廓形识别的干扰,添加自注意力机制,增强有用特征通道。为防止因裤型样本数据集较少产生过拟合问题,可通过迁移学习方法对阔腿裤、喇叭裤、紧身裤、哈伦裤4种裤装廓形进行训练和验证,将改进的Vision Transformer模型与传统CNN模型进行对比实验,验证模型效果。实验结果表明:使用Vision Transformer模型在4种裤装廓形分类上的分类准确率达到97.72%,与ResNet-50和MobileNetV2模型相比均有提升,可为服装廓形的图像分类识别提供有力支撑,在实际服装领域中有较高的使用价值。 展开更多
关键词 裤装廓形 自注意力机制 vision transformer 迁移学习 图像分类 廓形识别
下载PDF
细粒度图像分类上Vision Transformer的发展综述
4
作者 孙露露 刘建平 +3 位作者 王健 邢嘉璐 张越 王晨阳 《计算机工程与应用》 CSCD 北大核心 2024年第10期30-46,共17页
细粒度图像分类(fine-grained image classification,FGIC)一直是计算机视觉领域中的重要问题。与传统图像分类任务相比,FGIC的挑战在于类间对象极其相似,使任务难度进一步增加。随着深度学习的发展,Vision Transformer(ViT)模型在视觉... 细粒度图像分类(fine-grained image classification,FGIC)一直是计算机视觉领域中的重要问题。与传统图像分类任务相比,FGIC的挑战在于类间对象极其相似,使任务难度进一步增加。随着深度学习的发展,Vision Transformer(ViT)模型在视觉领域掀起热潮,并被引入到FGIC任务中。介绍了FGIC任务所面临的挑战,分析了ViT模型及其特性。主要根据模型结构全面综述了基于ViT的FGIC算法,包括特征提取、特征关系构建、特征注意和特征增强四方面内容,对每种算法进行了总结,并分析了它们的优缺点。通过对不同ViT模型在相同公用数据集上进行模型性能比较,以验证它们在FGIC任务上的有效性。最后指出了目前研究的不足,并提出未来研究方向,以进一步探索ViT在FGIC中的潜力。 展开更多
关键词 细粒度图像分类 vision transformer 特征提取 特征关系构建 特征注意 特征增强
下载PDF
基于Vision Transformer和迁移学习的家庭领域哭声识别
5
作者 王汝旭 王荣燕 +2 位作者 曾科 杨传德 刘超 《智能计算机与应用》 2024年第6期119-126,共8页
针对SVM等传统机器学习算法准确率低和当前使用CNN处理家庭领域哭声识别在不同婴儿间出现泛化能力差的问题,提出了一种基于Vision Transformer和迁移学习的婴儿哭声音频分类算法。首先,为实现数据集样本的扩增,采用了包括梅尔频谱转换... 针对SVM等传统机器学习算法准确率低和当前使用CNN处理家庭领域哭声识别在不同婴儿间出现泛化能力差的问题,提出了一种基于Vision Transformer和迁移学习的婴儿哭声音频分类算法。首先,为实现数据集样本的扩增,采用了包括梅尔频谱转换和数据增强的数据预处理技术,进而达到了增强模型鲁棒性的目的。而后,在微调后的Vision Transformer模型上进行迁移学习训练,同时,训练过程中利用了LookAhead优化器来不断调整模型参数以避免过拟合,最终实验实现了对婴儿哭声音频的自动分类。实验结果表明,本实验模型相比其他深度学习模型具有更高的精确率和更快的收敛速度,同时还能有效地学习到婴儿哭声中更具区分性的特征。可以在新生儿监护、听力筛查和异常检测等领域中发挥重要作用。 展开更多
关键词 vision transformer模型 婴儿哭声 迁移学习 梅尔频谱图 LOOKAHEAD
下载PDF
基于Vision Transformer的阿尔茨海默病分类研究
6
作者 许曙博 郑英豪 +3 位作者 秦方博 周超 周劲 陈嘉燕 《微型电脑应用》 2024年第8期4-7,共4页
为了有效地提升对阿尔茨海默病(AD)的磁共振成像(MRI)图像分类准确率,提出一种LC(Layer-Cut)-ViT方法。该方法通过引入Vision Transformer(ViT)的自注意力机制对MRI图像进行层切分,使模型能更好地理解图像的全局信息,同时突出切片间的... 为了有效地提升对阿尔茨海默病(AD)的磁共振成像(MRI)图像分类准确率,提出一种LC(Layer-Cut)-ViT方法。该方法通过引入Vision Transformer(ViT)的自注意力机制对MRI图像进行层切分,使模型能更好地理解图像的全局信息,同时突出切片间的特征关系。此外,通过配准、颅骨分离算法提取MRI图像的脑部组织部分,进一步提升模型的性能。实验结果显示,所提方法对阿尔茨海默病的MRI图像具有较好的分类能力。 展开更多
关键词 阿尔茨海默病 MRI图像分类 vision transformer LC-ViT
下载PDF
基于改进Vision Transformer的蝴蝶品种分类
7
作者 许翔 蒲智 +1 位作者 鲁文蕊 王亚波 《电脑知识与技术》 2024年第16期1-5,共5页
蝴蝶作为一种品类繁多且相似度极高的生物,具有重要的生态环境感知功能。不同品类蝴蝶对环境变化的敏感程度各不相同,因此在农学与生物学研究方向上对蝴蝶的研究具有十分重要的意义。近年来,计算机视觉技术的飞速发展为快速识别蝴蝶品... 蝴蝶作为一种品类繁多且相似度极高的生物,具有重要的生态环境感知功能。不同品类蝴蝶对环境变化的敏感程度各不相同,因此在农学与生物学研究方向上对蝴蝶的研究具有十分重要的意义。近年来,计算机视觉技术的飞速发展为快速识别蝴蝶品类提供了强有力的技术支持。然而,传统的Vision Transformer模型存在着一些问题,例如缺乏卷积所具有的归纳偏置、局部信息提取能力不足、容易过拟合以及在小数据集上训练缓慢等。针对这些问题,提出了一种基于Vision Transformer改进的蝴蝶分类算法。引入VanillaNet卷积结构,并通过全局注意力机制改进了Class token的更新方式。实验结果显示,在100类蝴蝶数据集上,改进后的Vision Transformer模型的Top-1准确率达到了94.87%,比改进前提升了28.9%。在使用改进的Class token后,算法的Top-1准确率进一步提升至96.64%,相比改进前提升了30.44%。与原网络模型相比,改进后的模型更适用于蝴蝶品种分类任务。 展开更多
关键词 蝴蝶分类 vision transformer 卷积 Class token VanillaNet 注意力机制
下载PDF
基于Vision Transformer和迁移学习的垃圾图像分类研究 被引量:1
8
作者 郭伟 余璐 宋莉 《河南工程学院学报(自然科学版)》 2024年第1期65-71,共7页
为解决垃圾图像分类中分类准确率低及小样本类别性能差的问题,以生活垃圾图像为研究对象,以正确识别生活垃圾类别为研究目标,利用Vision Transformer模型为分类网络架构,使用迁移学习机制实现该模型在华为云垃圾分类数据集上的训练及分... 为解决垃圾图像分类中分类准确率低及小样本类别性能差的问题,以生活垃圾图像为研究对象,以正确识别生活垃圾类别为研究目标,利用Vision Transformer模型为分类网络架构,使用迁移学习机制实现该模型在华为云垃圾分类数据集上的训练及分类推理。实验结果表明,基于注意力机制的分类模型相较于基于卷积结构的ResNet、DenseNet分类模型具有更高的分类准确率,可达96%,同时测试集的混淆矩阵表明Vision Transformer分类模型在样本不均衡数据集中对于小样本类别也具有较高的准确率,具有实际部署、推理的应用价值。 展开更多
关键词 垃圾图像分类 迁移学习 卷积神经网络 注意力 vision transformer
下载PDF
Automatic diagnosis of diabetic retinopathy using vision transformer based on wide-field optical coherence tomography angiography
9
作者 Zenan Zhou Huanhuan Yu +3 位作者 Jiaqing Zhao Xiangning Wang Qiang Wu Cuixia Dai 《Journal of Innovative Optical Health Sciences》 SCIE EI CSCD 2024年第2期35-44,共10页
Diabetic retinopathy(DR)is one of the major causes of visual impairment in adults with diabetes.Optical coherence tomography angiography(OCTA)is nowadays widely used as the golden criterion for diagnosing DR.Recently,... Diabetic retinopathy(DR)is one of the major causes of visual impairment in adults with diabetes.Optical coherence tomography angiography(OCTA)is nowadays widely used as the golden criterion for diagnosing DR.Recently,wide-field OCTA(WF-OCTA)provided more abundant information including that of the peripheral retinal degenerative changes and it can contribute in accurately diagnosing DR.The need for an automatic DR diagnostic system based on WF-OCTA pictures attracts more and more attention due to the large diabetic population and the prevalence of retinopathy cases.In this study,automatic diagnosis of DR using vision transformer was performed using WF-OCTA images(12 mm×12 mm single-scan)centered on the fovea as the dataset.WF-OCTA images were automatically classified into four classes:No DR,mild nonproliferative diabetic retinopathy(NPDR),moderate to severe NPDR,and proliferative diabetic retinopathy(PDR).The proposed method for detecting DR on the test set achieves accuracy of 99.55%,sensitivity of 99.49%,and specificity of 99.57%.The accuracy of the method for DR staging reaches up to 99.20%,which has been proven to be higher than that attained by classical convolutional neural network models.Results show that the automatic diagnosis of DR based on vision transformer and WF-OCTA pictures is more effective for detecting and staging DR. 展开更多
关键词 Wide field optical coherence tomography angiography diabetic retinopathy vision transformer image classification
下载PDF
基于改进Vision Transformer的道岔故障智能诊断
10
作者 王英琪 李刚 +1 位作者 胡启正 杨勇 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2024年第10期4321-4333,共13页
道岔故障种类繁多,特征复杂,存在检测难、分类难等问题,导致故障排查效率低下,对铁路运输安全构成威胁。Vision Transformer模型在图像分类方面具有较高准确度,但是其处理的是图像块,而不是传统的像素级特征,在某些情况下可能会影响曲... 道岔故障种类繁多,特征复杂,存在检测难、分类难等问题,导致故障排查效率低下,对铁路运输安全构成威胁。Vision Transformer模型在图像分类方面具有较高准确度,但是其处理的是图像块,而不是传统的像素级特征,在某些情况下可能会影响曲线局部信息的获取。针对上述情况,提出一种基于改进Vision Transformer模型的故障曲线分类算法。首先,对典型道岔故障及原因进行梳理分类,指出几种典型的道岔故障;其次,对使用道岔动作电流数据生成的图像尺寸进行调整并根据故障图像特点进行数据增强,使用ResNet网络取代原Vision Transformer模型中的故障图像分块机制进行特征提取,同时采用相对位置编码增强模型的适应性和泛化能力;最后,利用模型的多头自注意力机制,综合全局与局部信息进行分类,并得到分类权重。经过实验验证,本文道岔故障分类识别总体准确率达99.77%,各分类识别的平均精确率达99.78%,与原模型相比,在训练集和验证集上的识别精度分别提升了5.4%和2.4%。为了更好地理解模型的性能,采用Grad-CAM方法将迭代过程可视化,剖析了模型关注区域的变化过程,并在测试集上与VGG-16、DenseNet121等经典分类模型进行性能对比;通过ROC曲线评估分类效果,显示改进的模型取得更优结果。研究结果为道岔故障识别分类提供了新的理论支持,并为未来的研究提供了新的思路和方法。 展开更多
关键词 深度学习 图像分类 道岔故障识别 vision transformer
下载PDF
Model Agnostic Meta-Learning(MAML)-Based Ensemble Model for Accurate Detection of Wheat Diseases Using Vision Transformer and Graph Neural Networks
11
作者 Yasir Maqsood Syed Muhammad Usman +3 位作者 Musaed Alhussein Khursheed Aurangzeb Shehzad Khalid Muhammad Zubair 《Computers, Materials & Continua》 SCIE EI 2024年第5期2795-2811,共17页
Wheat is a critical crop,extensively consumed worldwide,and its production enhancement is essential to meet escalating demand.The presence of diseases like stem rust,leaf rust,yellow rust,and tan spot significantly di... Wheat is a critical crop,extensively consumed worldwide,and its production enhancement is essential to meet escalating demand.The presence of diseases like stem rust,leaf rust,yellow rust,and tan spot significantly diminishes wheat yield,making the early and precise identification of these diseases vital for effective disease management.With advancements in deep learning algorithms,researchers have proposed many methods for the automated detection of disease pathogens;however,accurately detectingmultiple disease pathogens simultaneously remains a challenge.This challenge arises due to the scarcity of RGB images for multiple diseases,class imbalance in existing public datasets,and the difficulty in extracting features that discriminate between multiple classes of disease pathogens.In this research,a novel method is proposed based on Transfer Generative Adversarial Networks for augmenting existing data,thereby overcoming the problems of class imbalance and data scarcity.This study proposes a customized architecture of Vision Transformers(ViT),where the feature vector is obtained by concatenating features extracted from the custom ViT and Graph Neural Networks.This paper also proposes a Model AgnosticMeta Learning(MAML)based ensemble classifier for accurate classification.The proposedmodel,validated on public datasets for wheat disease pathogen classification,achieved a test accuracy of 99.20%and an F1-score of 97.95%.Compared with existing state-of-the-art methods,this proposed model outperforms in terms of accuracy,F1-score,and the number of disease pathogens detection.In future,more diseases can be included for detection along with some other modalities like pests and weed. 展开更多
关键词 Wheat disease detection deep learning vision transformer graph neural network model agnostic meta learning
下载PDF
基于Vision Transformer-LSTM(ViTL)的多时序遥感影像农作物分类方法
12
作者 张青云 杨辉 +1 位作者 李兴伍 武永闯 《安徽农业大学学报》 CAS CSCD 2024年第5期888-898,共11页
针对当前遥感农作物分类研究中深度学习模型对光谱时间和空间信息特征采样不足,农作物提取仍然存在边界模糊、漏提、误提的问题,提出了一种名为视觉Transformer-长短期记忆递归神经网络(Vision Transformer-long short term memory,ViTL... 针对当前遥感农作物分类研究中深度学习模型对光谱时间和空间信息特征采样不足,农作物提取仍然存在边界模糊、漏提、误提的问题,提出了一种名为视觉Transformer-长短期记忆递归神经网络(Vision Transformer-long short term memory,ViTL)的深度学习模型,ViTL模型集成了双路Vision-Transformer特征提取、时空特征融合和长短期记忆递归神经网络(LSTM)时序分类等3个关键模块,双路Vision-Transformer特征提取模块用于捕获图像的时空特征相关性,一路提取空间分类特征,一路提取时间变化特征;时空特征融合模块用于将多时特征信息进行交叉融合;LSTM时序分类模块捕捉多时序的依赖关系并进行输出分类。综合利用基于多时序卫星影像的遥感技术理论和方法,对黑龙江省齐齐哈尔市讷河市作物信息进行提取,研究结果表明,ViTL模型表现出色,其总体准确率(Overall Accuracy,OA)、平均交并比(Mean Intersection over Union,MIoU)和F1分数分别达到0.8676、0.6987和0.8175,与其他广泛使用的深度学习方法相比,包括三维卷积神经网络(3-D CNN)、二维卷积神经网络(2-D CNN)和长短期记忆递归神经网络(LSTM),ViTL模型的F1分数提高了9%~12%,显示出显著的优越性。ViTL模型克服了面对多时序遥感影像的农作物分类任务中的时间和空间信息特征采样不足问题,为准确、高效地农作物分类提供了新思路。 展开更多
关键词 农作物分类 vision transformer(ViT) LSTM 深度学习 遥感监测
下载PDF
基于Vision Transformer和卷积注入的车辆重识别
13
作者 于洋 马浩伟 +2 位作者 岑世欣 李扬 张梦泉 《河北工业大学学报》 CAS 2024年第4期40-50,共11页
针对车辆重识别中提取特征鲁棒性不高的问题,本文提出基于Vision Transformer的车辆重识别方法。首先,利用注意力机制提出目标导向映射模块,并结合辅助信息嵌入模块,抑制由不同视角、相机拍摄及无效背景引入的噪声。其次,以Vision Trans... 针对车辆重识别中提取特征鲁棒性不高的问题,本文提出基于Vision Transformer的车辆重识别方法。首先,利用注意力机制提出目标导向映射模块,并结合辅助信息嵌入模块,抑制由不同视角、相机拍摄及无效背景引入的噪声。其次,以Vision Transformer远距离建模能力为基础提出通道感知模块,通过并行设计模型能够同时获取图像块之间和图像通道之间的特征,在关注图像块之间关联的基础上,进一步构建通道之间的关联。最后,利用卷积神经网络的局部归纳偏置,将全局特征向量输入到卷积注入模块中进行细化,并与全局特征联合优化,以构建鲁棒性的车辆特征。为了验证提出方法的有效性,在Ve⁃Ri776、VehicleID和VeRi-Wild数据集上分别进行了实验验证。实验结果证明,本文的方法取得了良好的效果。 展开更多
关键词 车辆重识别 vision transformer 卷积神经网络 目标导向映射 通道感知
下载PDF
基于Vision Transformer的永磁同步电机故障智能诊断
14
作者 蒋亦悦 卞东石 +1 位作者 焦世琪 张晓飞 《微电机》 2024年第10期20-25,共6页
针对电机运行过程中故障信号数据量少的问题,本文提出了一种基于Vision Transformer的永磁同步电机智能故障诊断方法。该方法首先通过格拉姆矩阵(Gram)、相对位置矩阵(RPM)方法将传感器获取的一维时序信号数据转换为二维图像数据,然后... 针对电机运行过程中故障信号数据量少的问题,本文提出了一种基于Vision Transformer的永磁同步电机智能故障诊断方法。该方法首先通过格拉姆矩阵(Gram)、相对位置矩阵(RPM)方法将传感器获取的一维时序信号数据转换为二维图像数据,然后将矩阵图像数据作为ViT-B/16网络的输入进行故障诊断。经过实验验证,该方法能够对永磁同步电机正常、轴承故障、退磁故障等8种状态进行识别和分类,其中使用Gram矩阵图像作为该方法输入的准确率达到99.2%,使用RPM矩阵图像作为输入准确率达到99.6%,均高于AlexNet、VGG16、ResNet等卷积网络的故障分类准确度,证明该方法可有效提高永磁同步电机故障诊断的准确度。 展开更多
关键词 二维图像 vision transformer 电机故障诊断
下载PDF
Performance Comparison of Vision Transformer- and CNN-Based Image Classification Using Cross Entropy: A Preliminary Application to Lung Cancer Discrimination from CT Images
15
作者 Eri Matsuyama Haruyuki Watanabe Noriyuki Takahashi 《Journal of Biomedical Science and Engineering》 2024年第9期157-170,共14页
This study evaluates the performance and reliability of a vision transformer (ViT) compared to convolutional neural networks (CNNs) using the ResNet50 model in classifying lung cancer from CT images into four categori... This study evaluates the performance and reliability of a vision transformer (ViT) compared to convolutional neural networks (CNNs) using the ResNet50 model in classifying lung cancer from CT images into four categories: lung adenocarcinoma (LUAD), lung squamous cell carcinoma (LUSC), large cell carcinoma (LULC), and normal. Although CNNs have made significant advancements in medical imaging, their limited capacity to capture long-range dependencies has led to the exploration of ViTs, which leverage self-attention mechanisms for a more comprehensive global understanding of images. The study utilized a dataset of 748 lung CT images to train both models with standardized input sizes, assessing their performance through conventional metrics—accuracy, precision, recall, F1 score, specificity, and AUC—as well as cross entropy, a novel metric for evaluating prediction uncertainty. Both models achieved similar accuracy rates (95%), with ViT demonstrating a slight edge over ResNet50 in precision and F1 scores for specific classes. However, ResNet50 exhibited higher recall for LULC, indicating fewer missed cases. Cross entropy analysis showed that the ViT model had lower average uncertainty, particularly in the LUAD, Normal, and LUSC classes, compared to ResNet50. This finding suggests that ViT predictions are generally more reliable, though ResNet50 performed better for LULC. The study underscores that accuracy alone is insufficient for model comparison, as cross entropy offers deeper insights into the reliability and confidence of model predictions. The results highlight the importance of incorporating cross entropy alongside traditional metrics for a more comprehensive evaluation of deep learning models in medical image classification, providing a nuanced understanding of their performance and reliability. While the ViT outperformed the CNN-based ResNet50 in lung cancer classification based on cross-entropy values, the performance differences were minor and may not hold clinical significance. Therefore, it may be premature to consider replacing CNNs with ViTs in this specific application. 展开更多
关键词 Lung Cancer Classification vision transformers Convolutional Neural Networks Cross Entropy Deep Learning
下载PDF
面向Vision Transformer模型的剪枝技术研究
16
作者 查秉坤 李朋阳 陈小柏 《软件》 2024年第3期83-86,97,共5页
本文针对Vision Transformer(ViT)模型开展剪枝技术研究,探索了多头自注意力机制中的QKV(Query、Key、Value)权重和全连接层(Fully Connected,FC)权重的剪枝问题。针对ViT模型本文提出了3组剪枝方案:只对QKV剪枝、只对FC剪枝以及对QKV... 本文针对Vision Transformer(ViT)模型开展剪枝技术研究,探索了多头自注意力机制中的QKV(Query、Key、Value)权重和全连接层(Fully Connected,FC)权重的剪枝问题。针对ViT模型本文提出了3组剪枝方案:只对QKV剪枝、只对FC剪枝以及对QKV和FC同时进行剪枝,以探究不同剪枝策略对ViT模型准确率和模型参数压缩率的影响。本文开展的研究工作为深度学习模型的压缩和优化提供了重要参考,对于实际应用中的模型精简和性能优化具有指导意义。 展开更多
关键词 vision transformer模型 剪枝 准确率
下载PDF
Research on PolSAR Image Classification Method Based on Vision Transformer Considering Local Information
17
作者 Mingxia Zhang Aichun Wang +2 位作者 Xiaozheng Du Xinmeng Wang Yu Wu 《Journal of Computer and Communications》 2024年第9期22-38,共17页
In response to the problem of inadequate utilization of local information in PolSAR image classification using Vision Transformer in existing studies, this paper proposes a Vision Transformer method considering local ... In response to the problem of inadequate utilization of local information in PolSAR image classification using Vision Transformer in existing studies, this paper proposes a Vision Transformer method considering local information, LIViT. The method replaces image patch sequence with polarimetric feature sequence in the feature embedding, and uses convolution for mapping to preserve image spatial detail information. On the other hand, the addition of the wavelet transform branch enables the network to pay more attention to the shape and edge information of the feature target and improves the extraction of local edge information. The results in Wuhan, China and Flevoland, Netherlands show that considering local information when using Vision Transformer for PolSAR image classification effectively improves the image classification accuracy and shows better advantages in PolSAR image classification. 展开更多
关键词 vision transformer POLSAR Image Classification LIViT
下载PDF
基于短时傅立叶变换和改进Vision Transformer的滚动轴承故障诊断方法
18
作者 袁新杰 孙飞越 《起重运输机械》 2024年第16期70-75,共6页
针对传统故障诊断技术在精确与高效地诊断减速器滚动轴承故障信号方面所面临的挑战,文中提出了一种基于短时傅里叶变换与改进Vision Transformer模型的故障诊断新方法。此方法有效融合了短时傅里叶变换在处理非线性和非平稳信号上的优... 针对传统故障诊断技术在精确与高效地诊断减速器滚动轴承故障信号方面所面临的挑战,文中提出了一种基于短时傅里叶变换与改进Vision Transformer模型的故障诊断新方法。此方法有效融合了短时傅里叶变换在处理非线性和非平稳信号上的优势以及Vision Transformer在图像分类任务上的卓越性能。通过短时傅里叶变换将一维的振动信号转化为包含时域和频域信息的二维图像数据,进而利用改进的Vision Transformer模型对这些图像数据进行处理,以实现对滚动轴承故障状态的精准诊断。在公开数据集上的实验结果验证了该方法的稳定性与高识别精度,展示了其在滚动轴承故障诊断领域的应用潜力。 展开更多
关键词 短时傅里叶变换 vision transformer 深度学习 故障诊断 滚动轴承
下载PDF
基于Vision Transformer的电缆终端局部放电模式识别 被引量:1
19
作者 唐庆华 方静 +3 位作者 李旭 宋鹏先 孟庆霖 魏占朋 《广东电力》 2023年第11期138-145,共8页
电缆终端缺陷类型一般与局部放电信号特征密切相关,因此可以通过对局部放电信号进行模式识别来实现缺陷分类。对15 kV XLPE电缆终端4种典型缺陷的放电脉冲波形和时频谱图特征进行分析处理,得到可用于识别的数据样本,然后分别采用Vision ... 电缆终端缺陷类型一般与局部放电信号特征密切相关,因此可以通过对局部放电信号进行模式识别来实现缺陷分类。对15 kV XLPE电缆终端4种典型缺陷的放电脉冲波形和时频谱图特征进行分析处理,得到可用于识别的数据样本,然后分别采用Vision Transformer模型、LeNet5、AlexNet和支持向量机对数据进行训练,对比不同算法的识别准确率。结果显示在数据充足的情况下,Vision Transformer模型的识别精度高于其他识别算法。所提方法及结论可为电缆附件的绝缘评估提供可靠依据,具有一定的指导意义。 展开更多
关键词 电缆终端 局部放电 模式识别 vision transformer 数据训练
下载PDF
基于S-YOLO V5和Vision Transformer的视频内容描述算法 被引量:1
20
作者 徐鹏 李铁柱 职保平 《印刷与数字媒体技术研究》 CAS 北大核心 2023年第4期212-222,共11页
视频内容描述的自动生成是结合计算机视觉和自然语言处理等相关技术提出的一种新型交叉学习任务。针对当前视频内容生成描述模型可读性不佳的问题,本研究提出一种基于S-YOLO V5和Vison Transformer(ViT)的视频内容描述算法。首先,基于... 视频内容描述的自动生成是结合计算机视觉和自然语言处理等相关技术提出的一种新型交叉学习任务。针对当前视频内容生成描述模型可读性不佳的问题,本研究提出一种基于S-YOLO V5和Vison Transformer(ViT)的视频内容描述算法。首先,基于神经网络模型KATNA提取关键帧,以最少帧数进行模型训练;其次,利用S-YOLO V5模型提取视频帧中的语义信息,并结合预训练ResNet101模型和预训练C3D模型提取视频静态视觉特征和动态视觉特征,并对两种模态特征进行融合;然后,基于ViT结构的强大长距离编码能力,构建模型编码器对融合特征进行长距离依赖编码;最后,将编码器的输出作为LSTM解码器的输入,依次输出预测词,生成最终的自然语言描述。通过在MSR-VTT数据集上进行测试,本研究模型的BLEU-4、METEOR、ROUGEL和CIDEr分别为42.9、28.8、62.4和51.4;在MSVD数据集上进行测试,本研究模型的BLEU-4、METEOR、ROUGEL和CIDEr分别为56.8、37.6、74.5以及98.5。与当前主流模型相比,本研究模型在多项评价指标上表现优异。 展开更多
关键词 视频内容描述 S-YOLO V5 vision transformer 多头注意力
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部