期刊文献+
共找到1,900篇文章
< 1 2 95 >
每页显示 20 50 100
Method of visional detecting MAG weld pool information 被引量:2
1
作者 王克鸿 汤新臣 +2 位作者 虞剑 游秋榕 沈莹吉 《中国有色金属学会会刊:英文版》 CSCD 2005年第S3期369-374,共6页
A theoretical analysis of the visional detecting weld pool information and image-getting mechanisms were presented. Four kinds of composite narrow-band filters based on three kinds of mechanism were adopted in conside... A theoretical analysis of the visional detecting weld pool information and image-getting mechanisms were presented. Four kinds of composite narrow-band filters based on three kinds of mechanism were adopted in consideration of short-circuiting transfer and spray transfer. After studying the ways for sensing the visional signals of the weld pool, the best filter window was obtained. From the window images with distinct weld pool area were acquired. In addition, image-getting mechanisms for passive light source to detect visional information of weld pool were explored, and then the characters of weld pool of MAG were analyzed. 展开更多
关键词 MAG welding WELD POOL INFORMATION VISION detection VISION ACQUISITION
下载PDF
Congruent Feature Selection Method to Improve the Efficacy of Machine Learning-Based Classification in Medical Image Processing
2
作者 Mohd Anjum Naoufel Kraiem +2 位作者 Hong Min Ashit Kumar Dutta Yousef Ibrahim Daradkeh 《Computer Modeling in Engineering & Sciences》 SCIE EI 2025年第1期357-384,共28页
Machine learning(ML)is increasingly applied for medical image processing with appropriate learning paradigms.These applications include analyzing images of various organs,such as the brain,lung,eye,etc.,to identify sp... Machine learning(ML)is increasingly applied for medical image processing with appropriate learning paradigms.These applications include analyzing images of various organs,such as the brain,lung,eye,etc.,to identify specific flaws/diseases for diagnosis.The primary concern of ML applications is the precise selection of flexible image features for pattern detection and region classification.Most of the extracted image features are irrelevant and lead to an increase in computation time.Therefore,this article uses an analytical learning paradigm to design a Congruent Feature Selection Method to select the most relevant image features.This process trains the learning paradigm using similarity and correlation-based features over different textural intensities and pixel distributions.The similarity between the pixels over the various distribution patterns with high indexes is recommended for disease diagnosis.Later,the correlation based on intensity and distribution is analyzed to improve the feature selection congruency.Therefore,the more congruent pixels are sorted in the descending order of the selection,which identifies better regions than the distribution.Now,the learning paradigm is trained using intensity and region-based similarity to maximize the chances of selection.Therefore,the probability of feature selection,regardless of the textures and medical image patterns,is improved.This process enhances the performance of ML applications for different medical image processing.The proposed method improves the accuracy,precision,and training rate by 13.19%,10.69%,and 11.06%,respectively,compared to other models for the selected dataset.The mean error and selection time is also reduced by 12.56%and 13.56%,respectively,compared to the same models and dataset. 展开更多
关键词 Computer vision feature selection machine learning region detection texture analysis image classification medical images
下载PDF
Association between age at diagnosis of diabetes and ocular disease:Insights from a recent article
3
作者 Shi-Qi Liu Dong Wang Cheng-Chun Tang 《World Journal of Diabetes》 SCIE 2025年第1期211-216,共6页
In this article,we discuss Ye et al's recent article on the association between age at diabetes diagnosis and subsequent risk of age-related ocular diseases.The study,which utilized United Kingdom Biobank data,hig... In this article,we discuss Ye et al's recent article on the association between age at diabetes diagnosis and subsequent risk of age-related ocular diseases.The study,which utilized United Kingdom Biobank data,highlighted a strong link between early diabetes onset and major eye conditions,such as cataracts,glaucoma,agerelated macular degeneration,and vision loss,independent of glycemic control and disease duration.This finding challenges the previous belief that diabetic eye disease primarily correlates with hyperglycemia.As lifestyles evolve and the age of diabetes diagnosis decreases,understanding this relationship may reveal the complex pathogenesis underlying diabetes-related complications.This editorial summarizes potential mechanisms connecting the age of diabetes onset with four types of ocular diseases,emphasizing the significance of early diagnosis. 展开更多
关键词 DIABETES Age at diagnosis CATARACT GLAUCOMA Age-related macular disease Vision acuity
下载PDF
Magnification:The game changer in dentistry
4
作者 Sachin Chauhan Radha Chauhan +1 位作者 Prashant Bhasin Meenu Bhasin 《World Journal of Methodology》 2025年第2期74-82,共9页
During dental examinations and treatments,many dentists are using magni-fication to improve their vision.The dental operating microscope serves as the most effective tool for this purpose,enhancing the quality,longevi... During dental examinations and treatments,many dentists are using magni-fication to improve their vision.The dental operating microscope serves as the most effective tool for this purpose,enhancing the quality,longevity,and outcome of clinical work.This review will explore the latest research and data on the importance of magnification devices in dentistry,including diagnostic methods,treatment options and ergonomics in specialities such as restorative dentistry,endodontics,pedodontics,periodontics,and prosthodontics.This review aims to provide insights into the optimal magnification for different clinical situations,the specific benefits of dental operating microscopes for each dental branch,and their limitations. 展开更多
关键词 MAGNIFICATION VISION ENDODONTICS DENTISTRY Dental operating microscope
下载PDF
基于EMDPWVD时频图像和改进ViT网络的滚动轴承智能故障诊断
5
作者 樊红卫 马宁阁 +3 位作者 马嘉腾 陈步冉 曹现刚 张旭辉 《振动与冲击》 EI CSCD 北大核心 2024年第11期246-254,共9页
滚动轴承是机械设备的关键零部件之一,其故障诊断对设备安全稳定运行至关重要。针对滚动轴承振动信号的非平稳特点,提出经验模态分解联合伪魏格纳分布(empirical mode decomposition&pseudo-Wigner-Ville distribution, EMDPWVD)时... 滚动轴承是机械设备的关键零部件之一,其故障诊断对设备安全稳定运行至关重要。针对滚动轴承振动信号的非平稳特点,提出经验模态分解联合伪魏格纳分布(empirical mode decomposition&pseudo-Wigner-Ville distribution, EMDPWVD)时频图像联合改进Vision Transformer(ViT)网络模型的智能故障诊断新方法。首先针对实际信号研究短时傅里叶变换(short-time Fourier transform, STFT)、连续小波变换(continuous wavelet transform, CWT)和EMDPWVD三种时频分析方法,考虑STFT和CWT无法同时获得高的时间分辨率和频率分辨率,优选EMDPWVD作为智能故障诊断网络的时频图像构造方法。其次,以经典ViT作为故障诊断基础模型,将时频图像按照预定尺寸分块并线性映射为输入序列,通过自注意力机制整合图像全局信息,借助堆叠Transformer编码器完成网络传输,进而实现故障诊断。为进一步提高故障诊断准确率,将池化层作为ViT的预处理网络,获得改进的Pooling ViT(PiT)模型,实现时频图像的空间特征延展,提升模型对输入图像敏感度。结果表明,所提方法对滚动轴承不同故障类型均有高的诊断准确率,PiT较ViT的准确率提高4.40%,证明对ViT加入池化层能够实现滚动轴承故障诊断效果提升。 展开更多
关键词 滚动轴承 故障诊断 时频图像 Vision Transformer(ViT) 池化层
下载PDF
基于IViT的锂离子电池健康状态估计
6
作者 廖列法 占玉敏 刘映宝 《电子测量技术》 北大核心 2024年第18期63-70,共8页
准确预测锂离子电池的健康状态(SOH)至关重要。针对电池单个周期的不同阶段退化机制存在差异和实际运用场景下数据获取不完整等挑战,提出一种基于Involution-Vision Transformer(IViT)的锂离子电池SOH估计方法。从电压时间曲线中自动提... 准确预测锂离子电池的健康状态(SOH)至关重要。针对电池单个周期的不同阶段退化机制存在差异和实际运用场景下数据获取不完整等挑战,提出一种基于Involution-Vision Transformer(IViT)的锂离子电池SOH估计方法。从电压时间曲线中自动提取能有效表征锂离子电池退化信息的特征,使用Involution模块在不同位置上自适应地分配权重,利用Vision Transformer学习不同阶段的高级特征表示并捕获全局依赖关系。实验结果表明,IVIT的预测误差在0.5%左右,且当整体数据缺失50%的情况下误差仅为2%左右,证明了所提方法的有效性和稳定性。 展开更多
关键词 锂离子电池 健康状态 INVOLUTION Vision Transformer
下载PDF
结合视角矫正和改进ViViT的驾驶员睡意判断方法
7
作者 傅由甲 孟雪莹 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第6期172-179,共8页
针对传统检测方法中摄像头视角受限问题,提出了一种结合面部姿态矫正和改进ViViT的多视角下人脸疲倦检测方法。采用Mediapipe Face Mesh定位面部三维特征点并将其矫正为正面,利用提出的FGR-ViViT模型来捕捉矫正后的眼睛、眉毛、嘴巴线... 针对传统检测方法中摄像头视角受限问题,提出了一种结合面部姿态矫正和改进ViViT的多视角下人脸疲倦检测方法。采用Mediapipe Face Mesh定位面部三维特征点并将其矫正为正面,利用提出的FGR-ViViT模型来捕捉矫正后的眼睛、眉毛、嘴巴线条图像帧序列变化。FGR-ViViT通过在ViViT的Temporal Transformer Encoder中添加部件选择模块来捕捉特征在时间维度中的细微差异,同时融合2次dropout和改进的对比损失函数来调整样本的相似性,降低模型过拟合风险并提高泛化能力。实验结果表明,提出的方法在YawDD和DROZY矫正后的线条图像帧的测试集上,F1-分数达到了94.5%和97.6%,相较于原始人脸图像帧分别提高了3.2%和10.4%,其FGR-ViViT相较于原始ViViT分别提高了6.1%和0.7%。所提方法适用于摄像头灵活摆放的多种应用场景,对解决多视角人脸睡意判断具有积极意义。 展开更多
关键词 疲劳检测 多视角 Video Vision Transformer 部件选择模块
下载PDF
基于元学习的小样本语义分割算法
8
作者 王兰忠 牟昌善 《江苏大学学报(自然科学版)》 CAS 北大核心 2024年第5期574-580,620,共8页
针对现有的小样本语义分割模型对未知新类分割精度不高的问题,提出一种基于元学习的小样本语义分割算法.首先,利用深度可分离卷积改进传统主干网络,并在ImageNet数据集上进行了编码器的预训练.其次,利用预训练的主干网络将支持图片和查... 针对现有的小样本语义分割模型对未知新类分割精度不高的问题,提出一种基于元学习的小样本语义分割算法.首先,利用深度可分离卷积改进传统主干网络,并在ImageNet数据集上进行了编码器的预训练.其次,利用预训练的主干网络将支持图片和查询图片映射到深度特征空间.最后,利用支持图片的真实掩码将支持特征分离为目标前景和背景,并借助vision transformer构造了一种自适应的元学习分类器.在PASCAL-5^(i)数据集上进行了大量的试验.结果表明:所提出模型在VGG-16、ResNet-50和ResNet-101主干网络上分别实现了47.1%、58.3%和60.4%的mIoU(即平均交并比)(1 shot),同时在5 shot设定下实现了49.6%、60.2%和62.1%的mIoU;在COCO-20^(i)数据集上实现了23.6%、30.3%和30.7%的mIoU(1 shot),同时在5 shot设定下实现了30.1%、34.7%和35.2%的mIoU. 展开更多
关键词 小样本语义分割 特征分离 元学习 深度可分离卷积 vision transformer 目标前景 自适应
下载PDF
ViT和注意力融合的类别不均衡PCB缺陷检测方法
9
作者 陈俊英 李朝阳 +1 位作者 席月芸 刘冲 《仪器仪表学报》 EI CAS CSCD 北大核心 2024年第4期294-306,共13页
针对实际环境下印刷电路板(PCB)缺陷样本难以收集造成的数据长尾分布和检测精度低以及ViT用于检测时计算复杂度高等问题,提出多尺度ViT特征提取和注意力特征融合的端到端PCB缺陷检测算法。首先结合ViT和部分卷积构建多尺度特征提取网络... 针对实际环境下印刷电路板(PCB)缺陷样本难以收集造成的数据长尾分布和检测精度低以及ViT用于检测时计算复杂度高等问题,提出多尺度ViT特征提取和注意力特征融合的端到端PCB缺陷检测算法。首先结合ViT和部分卷积构建多尺度特征提取网络,利用层级多头注意力对不同尺度的特征图执行自适应的注意力操作,使网络能够更好地捕捉局部和全局信息进而增强其特征提取能力,部分卷积可以降低计算开销。其次,基于能量空域抑制的无参数注意力机制将多尺度特征有效融合,提升网络融合特征图的表达能力。最后,引入对类别不均衡敏感的分类函数对网络的损失函数进行改进,增强网络对类别不平衡数据的拟合程度,提高网络的泛化能力。在3种不同类型的公开PCB数据集上的实验结果表明,所提出的检测算法在PCB表面缺陷数据集的平均精度均值(mAP)均有提升,分别为99.13%、98.67%,99.82%;在类别不均衡的PCB缺陷检测任务上,相较于改进前方法,mAP提升了11.94%,网络检测速度达到25 FPS,为PCB缺陷的检测提供了一种快速、有效的方法。 展开更多
关键词 缺陷检测 印刷电路板 Vision Transformer 注意力机制 多尺度特征提取
下载PDF
CT-CloudDetect:用于遥感卫星云检测的混合模型
10
作者 方巍 陶恩屹 《遥感信息》 CSCD 北大核心 2024年第5期1-11,共11页
云检测是在遥感卫星云图中检测云的任务。近年来,人们提出了基于深度学习的云检测方法,并取得了良好的性能。然而,现有的基于深度学习的云检测模型大多还是基于卷积神经网络(convolutional neural network,CNN),由于卷积运算的固有局部... 云检测是在遥感卫星云图中检测云的任务。近年来,人们提出了基于深度学习的云检测方法,并取得了良好的性能。然而,现有的基于深度学习的云检测模型大多还是基于卷积神经网络(convolutional neural network,CNN),由于卷积运算的固有局部性,难以捕获长距离依赖关系。针对上述问题,文章提出一个基于CNN和ViT(Vision Transformer)的混合型云检测模型,并提出一种基于CNN和ViT的编码器,使网络具备捕捉局部和全局信息的能力。为了更好地融合语义和尺度不一致的特征,提出了一个双尺度注意力融合模块,通过注意力机制有选择地融合特征。此外,提出了轻量级路由解码器,该解码器通过路由结构降低模型复杂度。在3个公开云检测数据集上对模型进行了评估。大量实验表明,所提出的模型具有比现有模型更好的性能。 展开更多
关键词 深度学习 卷积神经网络 空间Vision Transformer 混合模型 云检测
下载PDF
基于Vision Transformer的虹膜——人脸多特征融合识别研究
11
作者 马滔 陈睿 张博 《中国新技术新产品》 2024年第18期8-10,共3页
为了提高生物特征识别系统的准确性和鲁棒性,本文研究基于计算机视觉的虹膜—人脸多特征融合识别方法。本文对面部图像中虹膜区域进行提取以及预处理,采用对比度增强和归一化操作,加强了特征提取的一致性,提升了图像质量。为了获取丰富... 为了提高生物特征识别系统的准确性和鲁棒性,本文研究基于计算机视觉的虹膜—人脸多特征融合识别方法。本文对面部图像中虹膜区域进行提取以及预处理,采用对比度增强和归一化操作,加强了特征提取的一致性,提升了图像质量。为了获取丰富的深度特征,本文使用Vision Transformer模型对预处理后的虹膜和面部图像进行特征提取。利用多头注意力机制将虹膜和面部的多模态特征信息进行融合,再利用全连接层进行分类识别。试验结果表明,该方法识别性能优秀,识别准确性显著提升。 展开更多
关键词 计算机视觉 Vision Transformer 多特征融合 虹膜识别 人脸识别
下载PDF
局部加全局视角遮挡人脸表情识别方法 被引量:1
12
作者 南亚会 华庆一 《计算机工程与应用》 CSCD 北大核心 2024年第13期180-189,共10页
实际场景中各种遮挡增加了表情识别难度。为此,提出一种滑块局部加权卷积注意力和全局注意力池化的视觉Transformer结合的方法来解决遮挡问题。利用主干网络提取表情特征图,将表情特征图裁剪成多个区域块,利用局部Patch注意力单元通过... 实际场景中各种遮挡增加了表情识别难度。为此,提出一种滑块局部加权卷积注意力和全局注意力池化的视觉Transformer结合的方法来解决遮挡问题。利用主干网络提取表情特征图,将表情特征图裁剪成多个区域块,利用局部Patch注意力单元通过自适应计算局部特征的注意力权重来感知被遮挡的区域,提取表情局部特征。同时,表情特征图转换成Patch块,通过Patch级和Token级注意力池化的视觉Transformer,从全局角度捕获Patch块之间的相互作用和相关性。引导模型强调最具区别性的特征,而忽略遮挡减少不相关特征的影响。在三个表情数据集及其遮挡子集和一个遮挡数据集上进行实验,结果表明所提模型在遮挡表情识别上优于现有方法。 展开更多
关键词 遮挡人脸表情识别 滑块局部卷积注意力 Patch注意力池化 Token注意力池化 vision Transformer
下载PDF
细粒度图像分类上Vision Transformer的发展综述 被引量:2
13
作者 孙露露 刘建平 +3 位作者 王健 邢嘉璐 张越 王晨阳 《计算机工程与应用》 CSCD 北大核心 2024年第10期30-46,共17页
细粒度图像分类(fine-grained image classification,FGIC)一直是计算机视觉领域中的重要问题。与传统图像分类任务相比,FGIC的挑战在于类间对象极其相似,使任务难度进一步增加。随着深度学习的发展,Vision Transformer(ViT)模型在视觉... 细粒度图像分类(fine-grained image classification,FGIC)一直是计算机视觉领域中的重要问题。与传统图像分类任务相比,FGIC的挑战在于类间对象极其相似,使任务难度进一步增加。随着深度学习的发展,Vision Transformer(ViT)模型在视觉领域掀起热潮,并被引入到FGIC任务中。介绍了FGIC任务所面临的挑战,分析了ViT模型及其特性。主要根据模型结构全面综述了基于ViT的FGIC算法,包括特征提取、特征关系构建、特征注意和特征增强四方面内容,对每种算法进行了总结,并分析了它们的优缺点。通过对不同ViT模型在相同公用数据集上进行模型性能比较,以验证它们在FGIC任务上的有效性。最后指出了目前研究的不足,并提出未来研究方向,以进一步探索ViT在FGIC中的潜力。 展开更多
关键词 细粒度图像分类 Vision Transformer 特征提取 特征关系构建 特征注意 特征增强
下载PDF
运用多维视角融合视觉转换器的食品气调枕形包装漏气检测 被引量:1
14
作者 郭向东 刘天真 +1 位作者 李聪聪 滕桂法 《农业工程学报》 EI CAS CSCD 北大核心 2024年第3期313-320,共8页
食品气调枕形包装被广泛用于农产品的贮藏、运输和消费全流程,尽管工厂广泛使用的现代包装机械和人工检验手段减小了漏气风险,但是封口缺陷、贮藏和运输中的挤压、人工检验时的人为差错等造成漏气甚至瘪袋的情况时有发生,变质的袋内食... 食品气调枕形包装被广泛用于农产品的贮藏、运输和消费全流程,尽管工厂广泛使用的现代包装机械和人工检验手段减小了漏气风险,但是封口缺陷、贮藏和运输中的挤压、人工检验时的人为差错等造成漏气甚至瘪袋的情况时有发生,变质的袋内食品既影响了消费者身体健康又导致厂商声誉受损。该文针对食品气调枕形包装的漏气检测问题,提出了一种基于多维视角融合的Vision Transformer漏气检测方法(multi-dimentional fusion vision transformer,MdF-ViT)。通过包装袋的主视角、侧视角和俯视角的融合,提取3个视角包装袋轮廓特征,综合判断包装袋形变量,完成对枕形包装的漏气检测。对样本A、样本B、样本C的测试结果表明,该种模型准确率均达到97.5%,F1值分别达到97.6%、97.6%和97.4%。该研究提出的模型可以有效应用于工厂生产并节约成本。 展开更多
关键词 食品 气调包装 枕形包装袋 检测 Vision Transformer
下载PDF
M^(3)Res-Transformer:新冠肺炎胸部X-ray图像识别模型 被引量:1
15
作者 周涛 刘赟璨 +3 位作者 侯森宝 常晓玉 叶鑫宇 陆惠玲 《电子学报》 EI CAS CSCD 北大核心 2024年第2期589-601,共13页
新冠肺炎(COVID-19)自爆发以来严重影响人类生命健康,近年来残差神经网络广泛应用于COVID-19识别任务中,辅助医生快速地诊断COVID-19患者,但是COVID-19图像病变区域形状复杂、大小不一,与周围组织的边界模糊,导致网络难以提取有效特征.... 新冠肺炎(COVID-19)自爆发以来严重影响人类生命健康,近年来残差神经网络广泛应用于COVID-19识别任务中,辅助医生快速地诊断COVID-19患者,但是COVID-19图像病变区域形状复杂、大小不一,与周围组织的边界模糊,导致网络难以提取有效特征.本文针对上述问题,提出一种M^(3)Res-Transformer的新冠肺炎胸部X-ray图像识别模型,采用Res-Transformer作为模型的主干网络,结合ResNet和ViT,有效地整合局部病变特征和全局特征;设计混合残差注意力模块(mixed residual attention Module,mraM),同时考虑通道和空间位置的相互依赖性,增强网络的特征表达能力;为了增大感受野,提取多尺度特征,通过叠加具有不同扩张率的扩张卷积构造多尺度扩张残差模块(multiscale dilated residual Module,mdrM),根据不同层次特征尺度的差异,使用3个逐渐收缩尺度的mdrM进行多尺度特征提取;提出上下文交叉感知模块(contextual cross-awareness Module,ccaM),使用深层特征中的语义信息来引导浅层特征,然后将浅层特征中的空间信息嵌入深层特征中,采用交叉加权注意力机制高效聚合深层和浅层特征,获得更丰富的上下文信息.为了验证本文所提模型的有效性,在新冠肺炎胸部X-ray图像数据集上进行实验,与先进的CNN分类模型、融合不同注意力机制的ResNet50模型、基于Transformer的分类模型对比以及消融实验.结果表明,本文所提模型的Acc、Pre、Rec、F1-Score与Spe指标分别为96.33%、96.36%、96.33%、96.35%与96.26%,在COVID-19胸部X-ray图像识别任务中有效提升了识别精度,并通过可视化方法对其进行进一步验证,为COVID-19的辅助诊断提供重要的参考价值. 展开更多
关键词 COVID-19 胸部X-ray图像 残差神经网络 vision transformer 注意力机制
下载PDF
基于Local-Global-VIT细粒度分类算法的蝴蝶识别
16
作者 李建祥 李小林 +4 位作者 王荣 张元孜 陈淑武 张飞萍 黄世国 《昆虫学报》 CAS CSCD 北大核心 2024年第9期1251-1261,共11页
【目的】准确鉴别蝴蝶种类,动态观测蝴蝶群落多样性变化对生境质量评估、生态环境恢复等方面具有重要意义。针对现有蝴蝶识别方法仅依靠整体特征,忽略了局部特征导致识别生态图像能力不足的问题,本研究旨在开发一种Local-Global-VIT细... 【目的】准确鉴别蝴蝶种类,动态观测蝴蝶群落多样性变化对生境质量评估、生态环境恢复等方面具有重要意义。针对现有蝴蝶识别方法仅依靠整体特征,忽略了局部特征导致识别生态图像能力不足的问题,本研究旨在开发一种Local-Global-VIT细粒度分类算法的蝴蝶识别方法。【方法】本研究以5科200种共计25 279张蝴蝶图像为识别对象,采用多种数据增强方法扩充图像数据;通过视觉Transformer(vision transformer, VIT)层级结构及自注意力机制逐层选择局部令牌并保留至最后一层学习蝴蝶局部判别部位信息;聚合高层全局令牌消除复杂背景干扰;通过对比损失拉大类间距提高区分度。除此之外,使用合理的学习率调整策略和迁移学习方法,优化了模型收敛过程,在不增加参数量的情况下提高了性能。【结果】Local-Global-VIT算法在大规模细粒度公开数据集Butterfly-200上识别准确率达91.20%,较改进前提升了1.15%,比最优的一般害虫识别算法EfficientNet_b0和细粒度分类算法TransFG准确率分别高了1.83%和0.64%,F1分值分别提高了1.89%和0.88%。【结论】Local-Global-VIT算法以细粒度识别方式有效解决了蝴蝶类内差异大、类间差异小的分类难题,能准确地识别蝴蝶种类,有助于高效评估生境质量。 展开更多
关键词 蝴蝶 图像识别 细粒度分类 vision transformer 局部令牌选择 全局令牌聚合
下载PDF
基于Vision Transformer的小麦病害图像识别算法
17
作者 白玉鹏 冯毅琨 +3 位作者 李国厚 赵明富 周浩宇 侯志松 《中国农机化学报》 北大核心 2024年第2期267-274,共8页
小麦白粉病、赤霉病和锈病是危害小麦产量的三大病害。为提高小麦病害图像的识别准确率,构建一种基于Vision Transformer的小麦病害图像识别算法。首先,通过田间拍摄的方式收集包含小麦白粉病、赤霉病和锈病3种病害在内的小麦病害图像,... 小麦白粉病、赤霉病和锈病是危害小麦产量的三大病害。为提高小麦病害图像的识别准确率,构建一种基于Vision Transformer的小麦病害图像识别算法。首先,通过田间拍摄的方式收集包含小麦白粉病、赤霉病和锈病3种病害在内的小麦病害图像,并对原始图像进行预处理,建立小麦病害图像识别数据集;然后,基于改进的Vision Transformer构建小麦病害图像识别算法,分析不同迁移学习方式和数据增强对模型识别效果的影响。试验可知,全参数迁移学习和数据增强能明显提高Vision Transformer模型的收敛速度和识别精度。最后,在相同时间条件下,对比Vision Transformer、AlexNet和VGG16算法在相同数据集上的表现。试验结果表明,Vision Transformer模型对3种小麦病害图像的平均识别准确率为96.81%,相较于AlexNet和VGG16模型识别准确率分别提高6.68%和4.94%。 展开更多
关键词 小麦病害 Vision Transformer 迁移学习 图像识别 数据增强
下载PDF
基于多级区域选择与跨层特征融合的野生菌分类
18
作者 李俊仪 李向阳 +3 位作者 龙朝勋 李海燕 李红松 余鹏飞 《计算机工程》 CAS CSCD 北大核心 2024年第9期179-188,共10页
近年来误食有毒野生菌导致的中毒事件频发,严重危害人们的身体健康,这使得准确鉴别野生菌变得尤为重要。然而,现有的野生菌分类算法在处理背景噪声大、类间差异小和类内差异大的图片时容易出现识别错误的问题。为了解决这一问题,提出一... 近年来误食有毒野生菌导致的中毒事件频发,严重危害人们的身体健康,这使得准确鉴别野生菌变得尤为重要。然而,现有的野生菌分类算法在处理背景噪声大、类间差异小和类内差异大的图片时容易出现识别错误的问题。为了解决这一问题,提出一种基于Vision Transformer(ViT)架构结合多级区域选择和跨层特征融合的野生菌分类算法。该算法旨在捕获具有强鉴别力的特征,以确保网络能够聚焦在主要信息上,并提高分类的准确性。首先采用ViT作为网络框架,以提取野生菌图像的特征和全局上下文信息。其次设计多头自注意力选择模块,用于提取具有鉴别力的token,并通过自适应分配算法为不同层级的编码层确定抽取token的数量。最后为进一步提升分类性能,引入跨层特征融合策略和标签平滑损失进行拟合训练,从而减少细节信息的丢失。为使网络对野生菌图像特征的学习更具针对性,自建野生菌数据集。实验结果表明,所提出的算法与基线算法相比,分类精度有了显著提高,准确率达到98.65%。 展开更多
关键词 图像分类 Vision Transformer架构 特征选择 自适应分配 特征融合 标签平滑
下载PDF
改进知识蒸馏Transformer的新冠肺炎医学影像分类
19
作者 白浩田 谷宇 +7 位作者 杨立东 张宝华 李建军 吕晓琪 唐思源 张祥松 贾成一 贺群 《激光杂志》 CAS 北大核心 2024年第2期152-160,共9页
针对在筛查新型冠状病毒感染肺炎患者时核酸检测假阴性率较高的问题,提出了一种DRPL-ViT计算机辅助诊断网络。在Vision Transformer的基础上首先引入知识蒸馏机制,使Transformer结构在小数据集上训练取得更好的拟合效果;然后,在patches... 针对在筛查新型冠状病毒感染肺炎患者时核酸检测假阴性率较高的问题,提出了一种DRPL-ViT计算机辅助诊断网络。在Vision Transformer的基础上首先引入知识蒸馏机制,使Transformer结构在小数据集上训练取得更好的拟合效果;然后,在patches的位置信息编码上,通过更适合视觉任务的相对位置编码方式,使tokens之间的依赖关系能够被更好地捕捉;为了关注到更多的局部特征,在Transformer Encoder模块中引入了传统的卷积模块提取局部特征。实验在四分类测试集上平均分类准确率达到92.11%,对新冠肺炎分类准确率达到97.85%。实验结果表明,所提出的网络对新冠肺炎及其他肺部病变分类准确率较高,有一定的临床应用价值。 展开更多
关键词 医学图像分类 Vision Transformer架构 深度学习 计算机X线摄影 新冠肺炎
下载PDF
基于位置编码重叠切块嵌入和多尺度通道交互注意力的鱼类图像分类
20
作者 周雯 谌雨章 +1 位作者 温志远 王诗琦 《计算机应用》 CSCD 北大核心 2024年第10期3209-3216,共8页
水下鱼类图像分类是一项极具挑战性的任务。传统Vision Transformer(ViT)网络骨干的局限性较大,难以处理局部连续特征,在图像质量较低的鱼类分类中效果表现不佳。为解决此问题,提出一种基于位置编码的重叠切块嵌入(OPE)和多尺度通道交... 水下鱼类图像分类是一项极具挑战性的任务。传统Vision Transformer(ViT)网络骨干的局限性较大,难以处理局部连续特征,在图像质量较低的鱼类分类中效果表现不佳。为解决此问题,提出一种基于位置编码的重叠切块嵌入(OPE)和多尺度通道交互注意力(MCIA)的Transformer图像分类网络PIFormer(Positional overlapping and Interactive attention transFormer)。PIFormer采用多层级形式构建,每层以不同次数堆叠,利于提取不同深度的特征。首先,引入深度位置编码重叠切块嵌入(POPE)模块对特征图与边缘信息进行重叠切块,以保留鱼体的局部连续特征,并添加位置信息以排序,帮助PIFormer整合细节特征和构建全局映射;其次,提出MCIA模块并行处理局部与全局特征,并建立鱼体不同部位的长距离依赖关系;最后,由分组多层感知机(GMLP)分组处理高层次特征,以提升网络效率,并实现最终的鱼类分类。为验证PIFormer的有效性,提出自建东湖淡水鱼类数据集,并使用公共数据集Fish4Knowledge与NCFM(Nature Conservancy Fisheries Monitoring)以确保实验公平性。实验结果表明,所提网络在各数据集上的Top-1分类准确率分别达到了97.99%、99.71%和90.45%,与同级深度的ViT、Swin Transformer和PVT(Pyramid Vision Transformer)相比,参数量分别减少了72.62×10^(6)、14.34×10^(6)和11.30×10^(6),浮点运算量(FLOPs)分别节省了14.52×10^(9)、2.02×10^(9)和1.48×10^(9)。可见,PIFormer在较少的计算负荷下,具有较强的鱼类图像分类能力,取得了优越的性能。 展开更多
关键词 鱼类图像分类 位置编码 重叠切块嵌入 通道交互注意力 Vision Transformer
下载PDF
上一页 1 2 95 下一页 到第
使用帮助 返回顶部