期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
SMViT:用于新冠肺炎诊断的轻量化孪生网络模型
1
作者 马自萍 谭力刀 +1 位作者 马金林 陈勇 《计算机科学与探索》 CSCD 北大核心 2023年第10期2499-2510,共12页
针对新冠肺炎的深度学习诊断模型存在的准确率不高、泛化能力较差和参数量较大的问题,基于ViT和孪生网络,提出了一种新冠肺炎诊断的轻量化孪生网络SMViT。首先,提出了循环子结构轻量化策略,使用多个具有相同结构的子网络构成诊断网络,... 针对新冠肺炎的深度学习诊断模型存在的准确率不高、泛化能力较差和参数量较大的问题,基于ViT和孪生网络,提出了一种新冠肺炎诊断的轻量化孪生网络SMViT。首先,提出了循环子结构轻量化策略,使用多个具有相同结构的子网络构成诊断网络,从而降低网络的参数量;其次,提出ViT掩码自监督预训练模型,以增强模型的潜在特征表达能力;然后,构建新冠肺炎诊断的孪生网络SMViT,有效提升模型的诊断准确率,改善小样本下模型泛化能力较差的问题;最后,使用消融实验验证并确定了模型结构,通过对比实验验证模型的诊断性能和轻量化能力。实验结果表明:与最具竞争力的ViT架构的诊断模型相比,该模型在X-ray数据集上的准确率、特异度、灵敏度与F1分数值分别提高了1.42%、4.62%、0.40%和2.80%,在CT图像数据集上的准确率、特异度、灵敏度与F1分数值分别提高了2.16%、2.17%、2.05%和2.06%;在样本量较小时,模型具有较强的泛化能力;与ViT相比,SMViT模型具有更小的参数量和更高的诊断性能。 展开更多
关键词 新冠肺炎诊断 孪生网络 vit模型 自监督学习 轻量化模型
下载PDF
基于ViT与语义引导的视频内容描述生成
2
作者 赵宏 陈志文 +1 位作者 郭岚 安冬 《计算机工程》 CAS CSCD 北大核心 2023年第5期247-254,共8页
现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(S... 现有视频内容描述模型生成的视频内容描述文本可读性差且准确率不高。基于ViT模型提出一种语义引导的视频内容描述方法。利用ReNeXt和ECO网络提取视频的视觉特征,以提取的视觉特征为输入、语义标签的概率预测值为输出训练语义检测网络(SDN)。在此基础上,通过ViT模型对静态和动态视觉特征进行全局编码,并与SDN提取的语义特征进行注意力融合,采用语义长短期记忆网络对融合特征进行解码,生成视频对应的描述文本。通过引入视频中的语义特征能够引导模型生成更符合人类习惯的描述,使生成的描述更具可读性。在MSR-VTT数据集上的测试结果表明,该模型的BLEU-4、METEOR、ROUGE-L和CIDEr指标分别为44.8、28.9、62.8和51.1,相比于当前主流的视频内容描述模型ADL和SBAT,提升的得分总和达到16.6和16.8。 展开更多
关键词 视频内容描述 视频理解 vit模型 语义引导 长短期记忆网络 注意力机制
下载PDF
面向图像分类的Vision Transformer研究综述
3
作者 智敏 陆静芳 《郑州大学学报(工学版)》 CAS 北大核心 2024年第4期19-29,共11页
作为一种基于Transformer架构的模型,ViT已经在图像分类任务中展现出了良好的效果。对ViT在图像分类任务上的应用进行系统性归纳总结。首先,简单介绍了ViT框架及其4个模块(patch模块、位置编码、多头注意力和前馈神经网络)的功能特性;其... 作为一种基于Transformer架构的模型,ViT已经在图像分类任务中展现出了良好的效果。对ViT在图像分类任务上的应用进行系统性归纳总结。首先,简单介绍了ViT框架及其4个模块(patch模块、位置编码、多头注意力和前馈神经网络)的功能特性;其次,以ViT中4个模块的改进措施为脉络综述其在图像分类任务中的应用;再次,由于不同的模型结构和改进措施对最终的分类性能产生显著影响,还对文中出现的各类ViT进行了横向对比,并详细列出模型的参数和分类精度及其优缺点;最后,指出ViT在图像分类任务中的优势和局限性,并提出未来可能的研究方向以打破其局限性,进一步扩展ViT在其他计算机视觉任务中的应用,同时,还可以探索将ViT扩展到视频理解等更广泛的计算机视觉领域。 展开更多
关键词 vit模型 图像分类 多头注意力 前馈网络层 位置编码
下载PDF
基于深度学习的人脸识别技术研究
4
作者 张亚须 梁冰玉 +1 位作者 王星霖 黄社安 《信息记录材料》 2024年第5期106-108,共3页
随着人脸识别技术在安全、身份验证和监控等领域的广泛应用,传统的人脸识别方法面临着日益增长的挑战,本研究旨在探讨和验证基于视觉转换器(vision transformer,ViT)的深度学习模型在人脸识别中的应用优势。本研究通过构建一个基于ViT... 随着人脸识别技术在安全、身份验证和监控等领域的广泛应用,传统的人脸识别方法面临着日益增长的挑战,本研究旨在探讨和验证基于视觉转换器(vision transformer,ViT)的深度学习模型在人脸识别中的应用优势。本研究通过构建一个基于ViT架构的深度学习模型,实现人脸特征提取,并通过多层感知机(multilayer perceptron,MLP)算法实现人脸识别,同时和传统的机器学习模型支持向量机(support vector machine,SVM)进行了对比分析。通过实验验证,ViT模型在人脸识别任务中相比于传统方法,各项性能指标上均有显著提升。本研究结果表明ViT在处理复杂多变环境中的人脸识别任务中具有一定优势。 展开更多
关键词 深度学习 人脸识别 vit模型 计算机视觉
下载PDF
基于深度网络的汽车配件两级备件决策 被引量:3
5
作者 张明蓝 孙林夫 邹益胜 《计算机集成制造系统》 EI CSCD 北大核心 2022年第12期3822-3831,共10页
备件业务是汽车配件售后市场重要组成部分,针对汽车备件决策过程中信息不完备与多样性的问题,提出一种正则化VIT-BiLSTM两级备件决策模型。首先,根据配件类型对数据进行两级划分,以获取其内在联系。然后,利用Vision Transformer(VIT)模... 备件业务是汽车配件售后市场重要组成部分,针对汽车备件决策过程中信息不完备与多样性的问题,提出一种正则化VIT-BiLSTM两级备件决策模型。首先,根据配件类型对数据进行两级划分,以获取其内在联系。然后,利用Vision Transformer(VIT)模型对配件数据进行关键特征的提取。随后,通过双向长短时记忆循环神经网络(BiLSTM)捕捉特征之间的双向长时依赖关系,并在每个序列单元中融入组套索正则化项,进一步提高模型准确率。最后,利用第三方云平台的配件数据进行算例分析。实验结果表明,模型一级与二级的决策准确率分别高达99%、97%,召回率分别为97.3%、96.6%,F值分别为0.977、0.964,说明本模型可以为配件代理商提供实时数据参考,辅助其进行备件决策。 展开更多
关键词 汽车配件 深度网络 两级备件决策 vit模型 BiLSTM模型 组套索正则化
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部