期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于视觉自注意力模型的苗期玉米与杂草检测方法
1
作者 唐伯青 赵大勇 +1 位作者 熊锋 李德强 《南京农业大学学报》 CAS CSCD 北大核心 2024年第4期772-781,共10页
[目的]识别作物和杂草是农业智能化中自动除草的关键步骤。本文旨在解决作物与杂草识别精度低、检测模型实时性和鲁棒性差等问题。[方法]以叶龄处于3~8叶期的玉米及其伴生杂草为研究对象,提出一种高效准确的玉米苗与杂草的检测方法。该... [目的]识别作物和杂草是农业智能化中自动除草的关键步骤。本文旨在解决作物与杂草识别精度低、检测模型实时性和鲁棒性差等问题。[方法]以叶龄处于3~8叶期的玉米及其伴生杂草为研究对象,提出一种高效准确的玉米苗与杂草的检测方法。该方法以实时端到端目标检测视觉自注意力模型为基础框架,用小尺度卷积等效替代大尺度深度卷积的思想,以较小的精度损失降低推理耗时。引入一种包含上下文信息的自顶向下注意力机制,强化模型对小目标的检测效果。应用组合图像增强策略,提升模型精度与泛化能力。[结果]改进后模型的平均检测精度为90.11%,推理阶段单张图片耗时33.67 ms,模型参数量44.86 MB。改进后的模型比主流目标检测模型总体精度更高,且推理速度快。[结论]所提方法对于玉米苗与伴生杂草的整体检测性能优秀,能够提高杂草识别的准确性和效率。 展开更多
关键词 玉米 杂草 检测 实时视觉自注意力模型 等效卷积 图像增强
下载PDF
基于改进视觉自注意力模型的分心驾驶行为识别研究
2
作者 夏嗣礼 《无线互联科技》 2024年第7期13-16,67,共5页
针对分心驾驶行为识别问题,文章提出一种基于改进视觉自注意力模型的方法,构建了模型ViT_CR,用于估计驾驶员头部姿势,通过多任务学习提高角度预测精度,在数据集AFLW上预测误差MAE为4.61;运用ViT_CR处理连续视频帧,并基于分心驾驶识别原... 针对分心驾驶行为识别问题,文章提出一种基于改进视觉自注意力模型的方法,构建了模型ViT_CR,用于估计驾驶员头部姿势,通过多任务学习提高角度预测精度,在数据集AFLW上预测误差MAE为4.61;运用ViT_CR处理连续视频帧,并基于分心驾驶识别原则设定安全阈值与辅助参数判断驾驶员是否处于分心状态。实验表明,在真实驾驶数据集Dimags上,该方法能有效利用头部姿势的时序信息进行识别,为分心驾驶监测及预警提供了一种新的思路。 展开更多
关键词 分心驾驶 视觉自注意力模型 行为识别 头部姿势
下载PDF
基于L_(0)稀疏约束的视觉自注意力变换网络剪枝
3
作者 周伟 安永琪 +3 位作者 李敏 赵旭 李群智 王金桥 《计算机与网络》 2023年第23期67-73,共7页
视觉自注意力变换网络(Vision Transformer)模型在各种计算机视觉子任务上都取得了优异的性能表现。但其巨大的计算和存储需求阻碍了它在移动设备上的部署。因此提出了一种基于稀疏正则化约束的视觉自注意力变换网络结构化剪枝方法。为... 视觉自注意力变换网络(Vision Transformer)模型在各种计算机视觉子任务上都取得了优异的性能表现。但其巨大的计算和存储需求阻碍了它在移动设备上的部署。因此提出了一种基于稀疏正则化约束的视觉自注意力变换网络结构化剪枝方法。为了挖掘Vision视觉Transformer的余,采用了重参数化技巧来实现正则项的连续化。在模型的待剪枝部位添加门函数,利用稀疏约束将模型中非重要连接对应的门函数输出值稀疏至0。利用稀疏训练后得到的门函数值来获得修剪掩码矩阵,继而进行剪枝和微调。通过在ImageNet上进行实验,在保持原模型精度水平的情况下,该方法将DeiT-Base网络的参数量减少51%,推理速度提升90%。 展开更多
关键词 视觉自注意力变换网络 结构化剪枝 L_(0)正则化 稀疏 门函数
下载PDF
基于视觉自注意力机制的图像描述系统设计 被引量:1
4
作者 胡今朝 《信息与电脑》 2020年第17期77-79,共3页
现有基于深度学习的注意力机制的图像描述算法往往会过分关注输入图像中的主要对象,这会导致生成的描述产生细节缺失和单词重复的缺陷。笔者采用视觉自注意力机制来避免模型在不同时间将注意力重复集中在相同内容上。系统首先通过目标... 现有基于深度学习的注意力机制的图像描述算法往往会过分关注输入图像中的主要对象,这会导致生成的描述产生细节缺失和单词重复的缺陷。笔者采用视觉自注意力机制来避免模型在不同时间将注意力重复集中在相同内容上。系统首先通过目标检测算法Faster R-CNN获取实体的矩形边界,紧接着提取出各矩形区域及整张图片的特征向量,然后通过视觉自注意力机制处理特征向量得到图像的特征表示,最后将图像特征输入给由双层LSTM组成的语言模型,由语言模型输出图像的自然语言描述。本文选用图像描述领域最大的数据集Microsoft COCO验证设计系统的有效性,实验结果表明基于视觉自注意力机制的图像描述系统能够有效地抓住图像细节,生成通顺的描述语句。 展开更多
关键词 深度学习 注意力机制 图像描述 视觉自注意力机制 目标检测 语言模型
下载PDF
基于多尺度风格自适应的手写维文识别模型
5
作者 闫林 王磊 +2 位作者 艾孜麦提·艾尼瓦尔 杨雅婷 李晓 《计算机工程与设计》 北大核心 2024年第9期2749-2756,共8页
基于字符形态与书写风格的强关联性,提出一种多尺度风格自适应的手写维文识别模型,模型从浅层笔划到深层序列建模多尺度风格特征,提高对手写风格的自适应能力。针对手写维文特点改进Transformer提取多尺度笔划特征;构建多尺度风格自适... 基于字符形态与书写风格的强关联性,提出一种多尺度风格自适应的手写维文识别模型,模型从浅层笔划到深层序列建模多尺度风格特征,提高对手写风格的自适应能力。针对手写维文特点改进Transformer提取多尺度笔划特征;构建多尺度风格自适应模块提取序列特征;构建特征泛化融合模块对笔划特征和序列特征进行深度融合,提升识别效果。实验结果表明,该模型在真实手写维文测试集WER、CER分别下降3.75%、0.19%,在IAM数据集中验证了模型迁移性。 展开更多
关键词 手写维文识别 手写风格 多尺度 特征金字塔网络 视觉自注意力模型 长短期记忆网络 特征融合
下载PDF
融合多种参数高效微调技术的深度伪造检测方法
6
作者 张溢文 蔡满春 +2 位作者 陈咏豪 朱懿 姚利峰 《计算机科学与探索》 CSCD 北大核心 2024年第12期3335-3347,共13页
近年来,随着深度伪造技术趋于成熟,换脸软件、合成视频已经随处可见。尽管深度伪造技术为人们带来了娱乐,但同时也为不法分子提供了滥用的机会。因此,深度伪造检测技术的重要性也日益凸显。现有的深度伪造检测方法普遍存在跨压缩率鲁棒... 近年来,随着深度伪造技术趋于成熟,换脸软件、合成视频已经随处可见。尽管深度伪造技术为人们带来了娱乐,但同时也为不法分子提供了滥用的机会。因此,深度伪造检测技术的重要性也日益凸显。现有的深度伪造检测方法普遍存在跨压缩率鲁棒性差、跨数据集泛化性差以及模型训练开销大等问题。为解决上述问题,提出一种融合多种参数高效微调技术的深度伪造检测方法,使用以掩码图像建模(MIM)自监督方法预训练的视觉自注意力模型作为主干,使用克罗内克积改进的低秩自适应方法对预训练模型的自注意力模块参数进行微调,同时采用并行结构加入卷积适配器对图像局部纹理信息进行学习,以增强预训练模型在深度伪造检测任务中的适应能力,采用并行结构引入经典适配器对预训练模型的前馈网络微调以充分利用预训练阶段学习到的知识,使用多层感知机代替原预训练模型分类头实现深度伪造检测。在六个数据集上的实验结果表明,该模型在可训练参数仅有2×10^(7)的情况下,在六个主流数据集上实现了平均约0.996的帧水平AUC。在跨压缩率实验中,帧水平AUC的平均下降为0.135。在跨数据集泛化性实验中,帧水平AUC达到了平均0.765。 展开更多
关键词 深度伪造 视觉自注意力模型 自监督预训练模型 低秩自适应 参数高效微调
下载PDF
基于语义分割的视频鱼类特征提取方法研究
7
作者 李潇洋 陈健 常剑波 《水生态学杂志》 CSCD 北大核心 2024年第5期204-212,共9页
从视频图像中快速、准确提取水生生物(如鱼类)的特征信息,是信息科学与水生态研究结合的热点。基于Transformer的视觉模型,采用一种基于弱监督语义分割的视频鱼类特征提取方法,在无需预训练或微调的条件下,可以实现对鱼的身体、头部和鱼... 从视频图像中快速、准确提取水生生物(如鱼类)的特征信息,是信息科学与水生态研究结合的热点。基于Transformer的视觉模型,采用一种基于弱监督语义分割的视频鱼类特征提取方法,在无需预训练或微调的条件下,可以实现对鱼的身体、头部和鱼鳍3类形态区域标签的分割提取。采用DeepFish分割数据集构建计算机视觉自注意力模型(vision transformer,ViT),通过对水下拍摄的鱼类视频进行实验,结果实现了鱼体形态主体特征的有效提取,对拟定的3类形态标签区域进行了良好的分割标记。研究方法具有较高的效率、分割准确度和标记区域的连续平滑性,可提供良好的语义特征,为人工智能技术在鱼类等水生生物监测实践中提供了一种低成本、高效率的新方法。 展开更多
关键词 弱监督学习 语义分割 视觉自注意力模型 鱼类特征提取
下载PDF
基于深度学习的可食用野菜种类识别
8
作者 吴玉强 孙荀 +1 位作者 季呈明 胡乃娟 《中国瓜菜》 CAS 北大核心 2024年第11期57-66,共10页
可食用野菜兼具营养价值和药用价值,然而传统采摘可食用野菜的分辨主要依赖人为主观经验,效率低且错误风险高,因此对可食用野菜快速准确的识别对实现野菜产业开发和保障食用安全具有重要意义。以南京地区“七头一脑”共8种可食用野菜为... 可食用野菜兼具营养价值和药用价值,然而传统采摘可食用野菜的分辨主要依赖人为主观经验,效率低且错误风险高,因此对可食用野菜快速准确的识别对实现野菜产业开发和保障食用安全具有重要意义。以南京地区“七头一脑”共8种可食用野菜为研究对象,构建了8种野菜的2400张图像数据集,采用3种具有代表性的卷积神经网络(convolutional neural network,CNN)模型(AlexNet、VGG16和ResNet50)和3种视觉自注意力(vision transformer,ViT)模型(ViT、CaiT和DeiT)共6种不同的深度学习模型进行训练和验证,并通过梯度加权类激活映射(gradient-weighted class activation mapping,Grad-CAM)来分析深度学习模型的决策机制。结果表明,ResNet50在验证集上的准确率达到94.68%,精确率、召回值和F1分数分别为97.66%、97.74%和97.70%,在6个模型中表现最佳。随后,在最优模型ResNet50基础上添加卷积模块的注意力机制(convolutional block attention module,CBAM)和坐标注意力机制(coordinate attention,CA)模块进行模型优化,结果显示,CBAM-ResNet50准确率达到了97.67%,CA-ResNet50准确率达到了98.34%,分别提高了2.99个百分点和3.66个百分点。以上研究结果证实了CNN模型在数据集上能取得比ViT更好的结果,利用深度学习识别可食用野菜种类是可行的,且添加注意力模块能够实现更高的识别准确率。 展开更多
关键词 可食用野菜 种类识别 卷积神经网络 视觉自注意力 注意力机制模块
下载PDF
基于Vision Transformer的智能图像处理研究
9
作者 刘红娇 《自动化应用》 2024年第20期138-140,共3页
传统的图像处理模型依赖于手工设计的特征提取器,在处理全局上下文信息时存在困难,导致模型在理解图像整体语义时受限。因此,提出了一种基于视觉自注意力模型(ViT)的智能图像处理,并对其进行改进,通过引入多头自注意力机制和层级特征提... 传统的图像处理模型依赖于手工设计的特征提取器,在处理全局上下文信息时存在困难,导致模型在理解图像整体语义时受限。因此,提出了一种基于视觉自注意力模型(ViT)的智能图像处理,并对其进行改进,通过引入多头自注意力机制和层级特征提取模块,提高模型的处理能力。结果表明,所提模型在训练集数量为1200左右时的性能趋于稳定,且表现出较好的性能。其他算法在训练集数量为1200时未处于最佳性能。当训练集达到2000时,所提模型的结构相似度值为0.98。结果表明,所提模型在处理图像时表现出了较高的性能和处理效率,为图像处理领域的问题带来了新的解决方法。 展开更多
关键词 视觉自注意力模型 图像处理 多头自注意力 人工智能
下载PDF
多尺度时空特征融合的动态手势识别网络 被引量:2
10
作者 刘杰 王月 田明 《电子与信息学报》 EI CSCD 北大核心 2023年第7期2614-2622,共9页
由于动态手势数据具有时间复杂性以及空间复杂性,传统的机器学习算法难以提取准确的手势特征;现有的动态手势识别算法网络设计复杂、参数量大、手势特征提取不充分。为解决以上问题,该文提出一种基于卷积视觉自注意力模型(CvT)的多尺度... 由于动态手势数据具有时间复杂性以及空间复杂性,传统的机器学习算法难以提取准确的手势特征;现有的动态手势识别算法网络设计复杂、参数量大、手势特征提取不充分。为解决以上问题,该文提出一种基于卷积视觉自注意力模型(CvT)的多尺度时空特征融合网络。首先,将图片分类领域的CvT网络引入动态手势分类领域,用于提取单张手势图片的空间特征,将不同空间尺度的浅层特征与深层特征融合。其次,设计一种多时间尺度聚合模块,提取动态手势的时空特征,将CvT网络与多时间尺度聚合模块结合,抑制无效特征。最后为了弥补CvT网络中dropout层的不足,将R-Drop模型应用于多尺度时空特征融合网络。在Jester数据集上进行实验验证,与多种基于深度学习的动态手势识别方法进行对比,实验结果表明,该文方法在识别率上优于现有动态手势识别方法,在动态手势数据集Jester上识别率达到92.26%。 展开更多
关键词 动态手势识别 深度学习 卷积视觉自注意力模型 多尺度融合
下载PDF
Visual attention and clustering-based automatic selection of landmarks using single camera 被引量:1
11
作者 CHUHO Yi YONGMIN Shin JUNGWON Cho 《Journal of Central South University》 SCIE EI CAS 2014年第9期3525-3533,共9页
An improved method with better selection capability using a single camera was presented in comparison with previous method. To improve performance, two methods were applied to landmark selection in an unfamiliar indoo... An improved method with better selection capability using a single camera was presented in comparison with previous method. To improve performance, two methods were applied to landmark selection in an unfamiliar indoor environment. First, a modified visual attention method was proposed to automatically select a candidate region as a more useful landmark. In visual attention, candidate landmark regions were selected with different characteristics of ambient color and intensity in the image. Then, the more useful landmarks were selected by combining the candidate regions using clustering. As generally implemented, automatic landmark selection by vision-based simultaneous localization and mapping(SLAM) results in many useless landmarks, because the features of images are distinguished from the surrounding environment but detected repeatedly. These useless landmarks create a serious problem for the SLAM system because they complicate data association. To address this, a method was proposed in which the robot initially collected landmarks through automatic detection while traversing the entire area where the robot performed SLAM, and then, the robot selected only those landmarks that exhibited high rarity through clustering, which enhanced the system performance. Experimental results show that this method of automatic landmark selection results in selection of a high-rarity landmark. The average error of the performance of SLAM decreases 52% compared with conventional methods and the accuracy of data associations increases. 展开更多
关键词 simultaneous localization and mapping automatic landmark selection visual attention CLUSTERING
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部