期刊文献+
共找到1,392篇文章
< 1 2 70 >
每页显示 20 50 100
基于跨尺度Vision Transformer的深度哈希算法
1
作者 姚佩昀 于炯 +2 位作者 李雪 李梓杨 陈鹏程 《计算机应用研究》 CSCD 北大核心 2024年第11期3477-3483,共7页
为了解决当前深度哈希算法提取跨尺度特征能力不足以及难以拟合数据的全局相似度分布问题,提出了一种基于跨尺度Vision Transformer的深度哈希算法。首先,利用金字塔卷积和跨尺度注意力机制构建了一种多层次编码器,来捕获图像丰富的语... 为了解决当前深度哈希算法提取跨尺度特征能力不足以及难以拟合数据的全局相似度分布问题,提出了一种基于跨尺度Vision Transformer的深度哈希算法。首先,利用金字塔卷积和跨尺度注意力机制构建了一种多层次编码器,来捕获图像丰富的语义信息;其次,提出了一种基于代理的深度哈希算法,该算法为每个类别生成哈希代理,使得哈希码可以学习具有鉴别性的类别特征,从而缩小与同类别哈希代理的距离并拟合数据全局相似性分布;最后,在哈希代理与哈希码之间添加角度边距项,扩大类内相似性和类间差异性,以生成具有高判别性的哈希码。通过在CIFAR-10、ImageNet-100、NUS-Wide、MS COCO上进行的实验结果表明,该算法的平均检索精度比次优方法分别提升4.42%、19.61%、0.35%、15.03%,验证了该算法的有效性。 展开更多
关键词 深度哈希 视觉注意力 哈希代理 跨尺度 图像检索
下载PDF
基于改进Vision Transformer网络的农作物病害识别方法 被引量:1
2
作者 王杨 李迎春 +6 位作者 许佳炜 王傲 马唱 宋世佳 谢帆 赵传信 胡明 《小型微型计算机系统》 CSCD 北大核心 2024年第4期887-893,共7页
基于DCNN模型的农作物病害识别方法在实验室环境下识别准确率高,但面对噪声时缺少鲁棒性.为了兼顾农作物病害识别的精度和鲁棒性,本文在标准ViT模型基础上加入增强分块序列化和掩码多头注意力,解决标准ViT模型缺乏局部归纳偏置和视觉特... 基于DCNN模型的农作物病害识别方法在实验室环境下识别准确率高,但面对噪声时缺少鲁棒性.为了兼顾农作物病害识别的精度和鲁棒性,本文在标准ViT模型基础上加入增强分块序列化和掩码多头注意力,解决标准ViT模型缺乏局部归纳偏置和视觉特征序列的自注意力过于关注自身的问题.实验结果表明,本文的EPEMMSA-ViT模型对比标准ViT模型可以更高效的从零学习;当添加预训练权重训练网络时,EPEMMSA-ViT模型在数据增强的PlantVillage番茄子集上能够得到99.63%的分类准确率;在添加椒盐噪声的测试数据集上,对比ResNet50、DenseNet121、MobileNet和ConvNeXt的分类准确率分别提升了6.08%、9.78%、29.78%和12.41%;在添加均值模糊的测试数据集上,对比ResNet50、DenseNet121、MobileNet和ConvNeXt的分类准确率分别提升了18.92%、31.11%、20.37%和19.58%. 展开更多
关键词 农作物病害识别 深度卷积神经网络 视觉Transformer 自注意力 局部归纳偏置
下载PDF
基于改进Vision Transformer的道岔故障智能诊断
3
作者 王英琪 李刚 +1 位作者 胡启正 杨勇 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2024年第10期4321-4333,共13页
道岔故障种类繁多,特征复杂,存在检测难、分类难等问题,导致故障排查效率低下,对铁路运输安全构成威胁。Vision Transformer模型在图像分类方面具有较高准确度,但是其处理的是图像块,而不是传统的像素级特征,在某些情况下可能会影响曲... 道岔故障种类繁多,特征复杂,存在检测难、分类难等问题,导致故障排查效率低下,对铁路运输安全构成威胁。Vision Transformer模型在图像分类方面具有较高准确度,但是其处理的是图像块,而不是传统的像素级特征,在某些情况下可能会影响曲线局部信息的获取。针对上述情况,提出一种基于改进Vision Transformer模型的故障曲线分类算法。首先,对典型道岔故障及原因进行梳理分类,指出几种典型的道岔故障;其次,对使用道岔动作电流数据生成的图像尺寸进行调整并根据故障图像特点进行数据增强,使用ResNet网络取代原Vision Transformer模型中的故障图像分块机制进行特征提取,同时采用相对位置编码增强模型的适应性和泛化能力;最后,利用模型的多头自注意力机制,综合全局与局部信息进行分类,并得到分类权重。经过实验验证,本文道岔故障分类识别总体准确率达99.77%,各分类识别的平均精确率达99.78%,与原模型相比,在训练集和验证集上的识别精度分别提升了5.4%和2.4%。为了更好地理解模型的性能,采用Grad-CAM方法将迭代过程可视化,剖析了模型关注区域的变化过程,并在测试集上与VGG-16、DenseNet121等经典分类模型进行性能对比;通过ROC曲线评估分类效果,显示改进的模型取得更优结果。研究结果为道岔故障识别分类提供了新的理论支持,并为未来的研究提供了新的思路和方法。 展开更多
关键词 深度学习 图像分类 道岔故障识别 vision Transformer
下载PDF
基于Vision Transformer-LSTM(ViTL)的多时序遥感影像农作物分类方法
4
作者 张青云 杨辉 +1 位作者 李兴伍 武永闯 《安徽农业大学学报》 CAS CSCD 2024年第5期888-898,共11页
针对当前遥感农作物分类研究中深度学习模型对光谱时间和空间信息特征采样不足,农作物提取仍然存在边界模糊、漏提、误提的问题,提出了一种名为视觉Transformer-长短期记忆递归神经网络(Vision Transformer-long short term memory,ViTL... 针对当前遥感农作物分类研究中深度学习模型对光谱时间和空间信息特征采样不足,农作物提取仍然存在边界模糊、漏提、误提的问题,提出了一种名为视觉Transformer-长短期记忆递归神经网络(Vision Transformer-long short term memory,ViTL)的深度学习模型,ViTL模型集成了双路Vision-Transformer特征提取、时空特征融合和长短期记忆递归神经网络(LSTM)时序分类等3个关键模块,双路Vision-Transformer特征提取模块用于捕获图像的时空特征相关性,一路提取空间分类特征,一路提取时间变化特征;时空特征融合模块用于将多时特征信息进行交叉融合;LSTM时序分类模块捕捉多时序的依赖关系并进行输出分类。综合利用基于多时序卫星影像的遥感技术理论和方法,对黑龙江省齐齐哈尔市讷河市作物信息进行提取,研究结果表明,ViTL模型表现出色,其总体准确率(Overall Accuracy,OA)、平均交并比(Mean Intersection over Union,MIoU)和F1分数分别达到0.8676、0.6987和0.8175,与其他广泛使用的深度学习方法相比,包括三维卷积神经网络(3-D CNN)、二维卷积神经网络(2-D CNN)和长短期记忆递归神经网络(LSTM),ViTL模型的F1分数提高了9%~12%,显示出显著的优越性。ViTL模型克服了面对多时序遥感影像的农作物分类任务中的时间和空间信息特征采样不足问题,为准确、高效地农作物分类提供了新思路。 展开更多
关键词 农作物分类 vision Transformer(ViT) LSTM 深度学习 遥感监测
下载PDF
基于短时傅立叶变换和改进Vision Transformer的滚动轴承故障诊断方法
5
作者 袁新杰 孙飞越 《起重运输机械》 2024年第16期70-75,共6页
针对传统故障诊断技术在精确与高效地诊断减速器滚动轴承故障信号方面所面临的挑战,文中提出了一种基于短时傅里叶变换与改进Vision Transformer模型的故障诊断新方法。此方法有效融合了短时傅里叶变换在处理非线性和非平稳信号上的优... 针对传统故障诊断技术在精确与高效地诊断减速器滚动轴承故障信号方面所面临的挑战,文中提出了一种基于短时傅里叶变换与改进Vision Transformer模型的故障诊断新方法。此方法有效融合了短时傅里叶变换在处理非线性和非平稳信号上的优势以及Vision Transformer在图像分类任务上的卓越性能。通过短时傅里叶变换将一维的振动信号转化为包含时域和频域信息的二维图像数据,进而利用改进的Vision Transformer模型对这些图像数据进行处理,以实现对滚动轴承故障状态的精准诊断。在公开数据集上的实验结果验证了该方法的稳定性与高识别精度,展示了其在滚动轴承故障诊断领域的应用潜力。 展开更多
关键词 短时傅里叶变换 vision Transformer 深度学习 故障诊断 滚动轴承
下载PDF
Performance Comparison of Vision Transformer- and CNN-Based Image Classification Using Cross Entropy: A Preliminary Application to Lung Cancer Discrimination from CT Images
6
作者 Eri Matsuyama Haruyuki Watanabe Noriyuki Takahashi 《Journal of Biomedical Science and Engineering》 2024年第9期157-170,共14页
This study evaluates the performance and reliability of a vision transformer (ViT) compared to convolutional neural networks (CNNs) using the ResNet50 model in classifying lung cancer from CT images into four categori... This study evaluates the performance and reliability of a vision transformer (ViT) compared to convolutional neural networks (CNNs) using the ResNet50 model in classifying lung cancer from CT images into four categories: lung adenocarcinoma (LUAD), lung squamous cell carcinoma (LUSC), large cell carcinoma (LULC), and normal. Although CNNs have made significant advancements in medical imaging, their limited capacity to capture long-range dependencies has led to the exploration of ViTs, which leverage self-attention mechanisms for a more comprehensive global understanding of images. The study utilized a dataset of 748 lung CT images to train both models with standardized input sizes, assessing their performance through conventional metrics—accuracy, precision, recall, F1 score, specificity, and AUC—as well as cross entropy, a novel metric for evaluating prediction uncertainty. Both models achieved similar accuracy rates (95%), with ViT demonstrating a slight edge over ResNet50 in precision and F1 scores for specific classes. However, ResNet50 exhibited higher recall for LULC, indicating fewer missed cases. Cross entropy analysis showed that the ViT model had lower average uncertainty, particularly in the LUAD, Normal, and LUSC classes, compared to ResNet50. This finding suggests that ViT predictions are generally more reliable, though ResNet50 performed better for LULC. The study underscores that accuracy alone is insufficient for model comparison, as cross entropy offers deeper insights into the reliability and confidence of model predictions. The results highlight the importance of incorporating cross entropy alongside traditional metrics for a more comprehensive evaluation of deep learning models in medical image classification, providing a nuanced understanding of their performance and reliability. While the ViT outperformed the CNN-based ResNet50 in lung cancer classification based on cross-entropy values, the performance differences were minor and may not hold clinical significance. Therefore, it may be premature to consider replacing CNNs with ViTs in this specific application. 展开更多
关键词 Lung Cancer Classification vision Transformers Convolutional Neural Networks Cross Entropy deep Learning
下载PDF
基于Vision Transformer的高速公路监控场景天气识别
7
作者 符锌砂 胡弘毅 +1 位作者 莫宇蓉 曾彦杰 《公路交通科技》 CSCD 北大核心 2023年第7期164-169,共6页
针对高速公路场景的天气识别问题,提出了基于Vision Transformer的天气种类自动识别算法。采集了广东省多条高速公路的监控视频图像,建立了高速公路监控场景下天气分类数据库,包括晴天、雨天、浓雾等天气场景。为了分析Vision Transfor... 针对高速公路场景的天气识别问题,提出了基于Vision Transformer的天气种类自动识别算法。采集了广东省多条高速公路的监控视频图像,建立了高速公路监控场景下天气分类数据库,包括晴天、雨天、浓雾等天气场景。为了分析Vision Transformer自注意力机制的特性,利用特征图可视化手段对全连接层特征图的分类贡献作分析,分类贡献图像显示Vision Transformer分类网络的分类判断依据与人类视觉有相似之处,能有效关注到相同监控场景下不同天气图像的差异性。试验过程中,通过迁移学习方法以及数据增强的图片预处理方法提高了分类网络性能与鲁棒性,并测试对比了Vision Transformer与传统卷积神经网络在天气分类任务中的分类精度和识别速度。试验结果表明:由于具有自注意力机制,相比传统卷积神经网络,Vision Transformer特征提取能力更为高效,在天气图像分类任务中最高识别精度达到99.1%;在中小型数据集的分类任务中,压缩网络自注意力结构能保证识别精度的同时显著提高分类速度,达到与轻量化卷积神经网络相同的分类速度。试验过程中压缩自注意力层的Vision Transformer网络与原网络相比,识别精度仅降低了0.1%,识别速度提高了15.9%。 展开更多
关键词 交通工程 天气识别 深度学习 图像分类 卷积神经网络 vision Transformer
下载PDF
基于DeepLab V3+网络框架的上消化道溃疡内镜图像分割模型 被引量:1
8
作者 薛雨涵 周亦佳 +6 位作者 何宇 林嘉希 朱锦舟 刘晓琳 王玉 许春芳 殷民月 《中国医疗设备》 2023年第11期22-26,共5页
目的基于DeepLab V3+网络框架,构建深度学习计算机视觉模型,实现对上消化道溃疡内镜图片较精确的语义分割。方法DeepLab V3+网络框架的编码器首先通过多个并行的、具有不同采样率的空洞卷积层,之后通过一个全局平均池化层对图像进行特... 目的基于DeepLab V3+网络框架,构建深度学习计算机视觉模型,实现对上消化道溃疡内镜图片较精确的语义分割。方法DeepLab V3+网络框架的编码器首先通过多个并行的、具有不同采样率的空洞卷积层,之后通过一个全局平均池化层对图像进行特征提取,实现多尺度提取特征;而解码器部分对深度特征层进行4次上采样,与浅层特征层进行堆叠并调整堆叠层大小,使其和输入图像大小一致,得到模型的预测结果。结果在内部验证集中,该模型的准确度(Accuracy,ACC)为0.963,平均交并比(Mean Intersection Over Union,mIoU)为0.927;外部测试集中,该模型的ACC为0.958,mIoU为0.915;均优于传统算法U-Net(内部验证集ACC为0.810,mIoU为0.785;外部测试集ACC为0.779,mIoU为0.732)。结论DeepLab V3+网络框架在识别病灶方面准确度高,具有较好的临床实践性。 展开更多
关键词 计算机视觉 深度学习 deepLab V3+ 上消化道溃疡 消化内镜
下载PDF
基于改进DeepLabV3+在复杂环境下的道路裂缝检测 被引量:2
9
作者 陈宇平 范高 《广州大学学报(自然科学版)》 CAS 2023年第2期43-51,共9页
有效的道路裂缝检测是保障道路安全的关键。针对现有道路裂缝检测方法效率低,检测结果易受检测环境影响的问题,文章结合深度学习与计算机视觉技术,在DeepLabV3+架构的基础上提出了一种适用于复杂道路场景下的道路裂缝检测网络Crack-Deep... 有效的道路裂缝检测是保障道路安全的关键。针对现有道路裂缝检测方法效率低,检测结果易受检测环境影响的问题,文章结合深度学习与计算机视觉技术,在DeepLabV3+架构的基础上提出了一种适用于复杂道路场景下的道路裂缝检测网络Crack-Deeplab。Crack-Deeplab引入新颖的网络模块和结构设计,具有轻量化、强泛化的特点以及精细分割的能力。文章基于数据集Crack500进行试验,验证和测试数据集的裂缝交并比(Intersection over Union,IoU)分别达到了0.67和0.58,比现有的网络有明显提高;另外,采用复杂环境下拍摄的广州大学校内道路图片对该网络进行实际工程验证,基于Crack500数据训练的Crack-Deeplab在无需新增附加训练数据的情况下,能精准识别和分割出不同场景及环境下校内道路的裂缝,证明了该方法的有效性和鲁棒性,以及在实际工程中的应用价值。 展开更多
关键词 裂缝检测 深度学习 语义分割 计算机视觉
下载PDF
Vision Transformer的瞳孔定位方法
10
作者 王利 王长元 《西安工业大学学报》 CAS 2023年第6期561-567,共7页
为了解决现有瞳孔定位方法易受瞳孔图像质量的约束,采用CNN提取图像的局部特征,通过Transformer的编码器获得全局依赖关系,发掘出更为准确的瞳孔中心信息,在公开数据集上对比了主流的DeepEye和VCF瞳孔定位模型。结果表明:提出的基于混... 为了解决现有瞳孔定位方法易受瞳孔图像质量的约束,采用CNN提取图像的局部特征,通过Transformer的编码器获得全局依赖关系,发掘出更为准确的瞳孔中心信息,在公开数据集上对比了主流的DeepEye和VCF瞳孔定位模型。结果表明:提出的基于混合结构的Vision Transformer瞳孔定位方法在5像素误差内瞳孔中心的检测率比DeepEye提升了30%,比VCF提升了20%。 展开更多
关键词 深度学习 瞳孔定位 视觉转换器 分散注意力残差网络
下载PDF
基于改进U-net的少样本煤岩界面图像分割方法 被引量:1
11
作者 卢才武 宋义良 +3 位作者 江松 章赛 王懋 纪凡 《金属矿山》 CAS 北大核心 2024年第1期149-157,共9页
煤岩图像语义分割技术是煤岩界面识别的重要研究方向,现有的语义分割模型通常依赖于大样本数据集进行训练,然而目前已标注的煤岩图像数据样本难以获取,并且缺乏公开数据集。针对以上问题,提出了一种基于改进U-net模型的样本煤岩界面图... 煤岩图像语义分割技术是煤岩界面识别的重要研究方向,现有的语义分割模型通常依赖于大样本数据集进行训练,然而目前已标注的煤岩图像数据样本难以获取,并且缺乏公开数据集。针对以上问题,提出了一种基于改进U-net模型的样本煤岩界面图像分割模型。将裁剪后具有更强特征提取能力且结构上更为简单的VGG16替换U-net的原始骨干特征提取网络,提升对图像信息的特征提取能力并获得更快的训练速度,在U-net网络的跳跃连接和解码器上采样部分引入注意力机制模块,对提取的特征层进行处理,提升模型对煤岩界面图像关键特征的提取能力,提高分割精度。使用迁移学习方法对改进的模型进行预训练,提高模型泛化能力同时避免过拟合,使模型更适用于小样本数据集训练。通过使用自制的煤岩界面数据集对所改进的网络模型性能进行验证,并将该模型与经典Unet、DeepLabv3+、PspNet、HrNet网络模型进行了对比。试验结果表明:在同样使用由125幅煤岩界面图片构建的小样本数据集进行训练的情况下,所提改进模型相较于经典U-net模型在分割精确度和检测效率方面都有显著提升,模型精确度提高了1.84%,平均交并比提高了5.34%,类别平均像素准确率提高了0.48%,检测速度增幅为5.3%。同时,与其他网络模型相比,所提改进模型在小样本煤岩界面图像的语义分割中优势显著,表明所提改进思路的有效性。 展开更多
关键词 煤岩识别 语义分割 少样本学习 U-net 深度学习 机器视觉技术
下载PDF
基于浮选泡沫图像预测精矿品位的研究进展 被引量:1
12
作者 卜显忠 杨怡琳 宛鹤 《金属矿山》 CAS 北大核心 2024年第2期25-38,共14页
随着人工智能技术在矿业生产的广泛应用,利用计算机视觉技术提高精矿品位预测的准确性和效率已成为必然趋势。在综述了传统图像处理算法和深度学习算法在精矿品位预测中的应用与发展历程基础上,并探讨了未来的发展趋势和挑战。传统图像... 随着人工智能技术在矿业生产的广泛应用,利用计算机视觉技术提高精矿品位预测的准确性和效率已成为必然趋势。在综述了传统图像处理算法和深度学习算法在精矿品位预测中的应用与发展历程基础上,并探讨了未来的发展趋势和挑战。传统图像处理技术通过提取泡沫图像的尺寸、颜色、纹理和流速等特征,结合分水岭分割、颜色矩、灰度共生矩阵和局部点特征匹配等算法进行特征提取。这些特征在计算资源有限的场景中具有一定的应用价值,但在应对精矿品位预测任务时精度较低。深度学习技术通过构建合适的模型架构并利用大量数据进行训练,能够提取高层语义特征,具有较高的预测精度,与图形处理单元(GPU)等高效运算设备配合使用,可实现高性能和高效率的统一。介绍了支持向量机(SVM)、极限学习机(ELM)等机器学习算法以及多层感知器(MLP)、全连接层和多尺度特征融合等深度学习算法在特征映射和品位预测中的应用,以及深度学习模型的发展历程。最后综述了工业界视觉检测系统的应用现状,并从数据驱动模型、多模态数据融合、算法实时性和数据集规模等方面分析了该领域所面临的挑战和未来发展趋势。 展开更多
关键词 精矿品位预测 浮选泡沫 图像处理 计算机视觉 深度学习
下载PDF
基于深度学习与机器视觉的起重机吊装安全监测方法 被引量:1
13
作者 薛志钢 许晨旭 +1 位作者 巫波 闻东东 《科技创新与应用》 2024年第2期1-5,共5页
随着我国经济的快速发展,各类大型工程层出不穷,对起重机吊装作业的需求不断增加。然而,吊装作业过程中依然存在众多的安全隐患,极易造成人员伤亡等安全事故。因此,该文提出一种基于深度学习和机器视觉的起重机吊装安全监测方法。将深... 随着我国经济的快速发展,各类大型工程层出不穷,对起重机吊装作业的需求不断增加。然而,吊装作业过程中依然存在众多的安全隐患,极易造成人员伤亡等安全事故。因此,该文提出一种基于深度学习和机器视觉的起重机吊装安全监测方法。将深度学习与机器视觉相结合对监控图像中的被吊物和工人进行识别和定位,同时可自主判断工人是否佩戴安全帽。根据监测模型的识别和定位信息,获得工人与被吊物之间的空间关系,为起重机吊装过程提供安全预警信息。为了提高所提方法的实用性和便携性,开发一个起重机吊装安全智能监测系统,不仅可以实时显示监控图像的识别结果,而且能够输出场景的语义描述、发出安全预警信号。 展开更多
关键词 深度学习 机器视觉 吊装监测 智能监测 安全预警
下载PDF
基于自适应聚合循环递归的稠密点云重建网络 被引量:1
14
作者 王江安 黄乐 +2 位作者 庞大为 秦林珍 梁温茜 《图学学报》 CSCD 北大核心 2024年第1期230-239,共10页
为了解决弱纹理重建难、资源消耗大和重建时间长等问题,提出了一种基于自适应聚合循环递归卷积的多阶段稠密点云重建网络,即A2R2-MVSNet(adaptive aggregation recurrent recursive multi view stereo net)。该方法首先引入一种基于多... 为了解决弱纹理重建难、资源消耗大和重建时间长等问题,提出了一种基于自适应聚合循环递归卷积的多阶段稠密点云重建网络,即A2R2-MVSNet(adaptive aggregation recurrent recursive multi view stereo net)。该方法首先引入一种基于多尺度循环递归残差的特征提取模块,聚合上下文语义信息,以解决弱纹理或无纹理区域特征提取难的问题。在代价体正则化部分,提出一种残差正则化模块,该模块在略微增加内存消耗的前提下,提高了3D CNN提取和聚合上下文语意的能力。实验结果表明,提出的方法在DTU数据集上的综合指标排名靠前,在重建细节上有着更好的体现,且在BlendedMVS数据集上生成了不错的深度图和点云结果,此外网络还在自采集的大规模高分辨率数据集上进行了泛化测试。归功于由粗到细的多阶段思想和我们提出的模块,网络在生成高准确性和完整性深度图的同时,还能进行高分辨率重建以适用于实际问题。 展开更多
关键词 深度学习 计算机视觉 三维重建 稠密重建 多视图立体 递归神经网络
下载PDF
基于改进YOLOv8和GMM图像点集匹配的双目测距方法 被引量:1
15
作者 胡欣 常娅姝 +2 位作者 秦皓 肖剑 程鸿亮 《图学学报》 CSCD 北大核心 2024年第4期714-725,共12页
针对无人塔吊系统的研究需求,提出一种基于改进YOLOv8和GMM图像点集匹配的双目测距方法,对驾驶室外环境中的塔吊吊钩进行检测识别并测距。通过双目摄像头进行图像采集,引入FasterNet骨干网络和Slim-neck颈部连接层,对YOLOv8目标检测算... 针对无人塔吊系统的研究需求,提出一种基于改进YOLOv8和GMM图像点集匹配的双目测距方法,对驾驶室外环境中的塔吊吊钩进行检测识别并测距。通过双目摄像头进行图像采集,引入FasterNet骨干网络和Slim-neck颈部连接层,对YOLOv8目标检测算法进行改进,有效检测画面中的塔吊吊钩并获取检测框的二维坐标信息;采用局部敏感哈希方法,并融合分阶段匹配策略,提升GMM图像点集匹配模型的匹配效率,针对检测框中的塔吊吊钩,进行特征点匹配;最后通过双目相机三角测量原理计算得出塔吊吊钩的深度信息。实验结果表明,改进后的YOLOv8算法与原算法相比,精确率P提高了2.9%,平均精度AP50提高了2.2%,模型复杂度降低了10.01 GFLops,参数量减少了3.37 M,在提升检测精度的同时实现了模型的轻量化。改进后的图像点集匹配算法与原算法相比,各个指标表现出更加良好的鲁棒性。最后在工程现场对塔吊吊钩进行识别与测距,误差可接受范围内有效完成了塔吊吊钩的检测识别与测距任务,验证了本方法的可行性。 展开更多
关键词 YOLOv8目标检测 高斯混合模型 点集匹配 深度学习 双目视觉 智慧工地可视化
下载PDF
基于VAE优化的YOLO-ResNeXt二阶段草莓熟度分析方法
16
作者 田宏伟 徐云龙 +2 位作者 杨艳红 刘雪兰 任艳 《计算机应用与软件》 北大核心 2024年第10期149-154,共6页
草莓作为高价值经济作物,其自动化采摘需要进行目标发现及熟度判断,传统草莓采摘分析方法主要使用色度和大小分析等简单图像处理方法,误报率高。提出二阶段检测网络YOLO-ResNeXt,并根据互联网图片及产地实拍创建Strawberry3000数据集,... 草莓作为高价值经济作物,其自动化采摘需要进行目标发现及熟度判断,传统草莓采摘分析方法主要使用色度和大小分析等简单图像处理方法,误报率高。提出二阶段检测网络YOLO-ResNeXt,并根据互联网图片及产地实拍创建Strawberry3000数据集,在此基础上,创新性采用变分自编码器(Variational Auto-Encoder,VAE)进行网络部分结构的快速搜索,该方案效率高且对简单结构搜索起到了较好的效果。经测试,该算法能够有效检测草莓目标并分析草莓熟度,在准确率及召回率等指标上对比通用计算机视觉算法有着很大提高,将有效促进高价值经济作物采摘工作的发展。 展开更多
关键词 计算机视觉 深度学习 目标检测
下载PDF
基于ViT-改进YOLOv7的稻田杂草识别
17
作者 陈学深 吴昌鹏 +4 位作者 党佩娜 张恩造 陈彦学 汤存耀 齐龙 《农业工程学报》 EI CAS CSCD 北大核心 2024年第10期185-193,共9页
为解决光线遮蔽、藻萍干扰以及稻叶尖形状相似等复杂环境导致稻田杂草识别效果不理想问题,该研究提出一种基于组合深度学习的杂草识别方法。引入MSRCP(multi-scale retinex with color preservation)对图像进行增强,以提高图像亮度及对... 为解决光线遮蔽、藻萍干扰以及稻叶尖形状相似等复杂环境导致稻田杂草识别效果不理想问题,该研究提出一种基于组合深度学习的杂草识别方法。引入MSRCP(multi-scale retinex with color preservation)对图像进行增强,以提高图像亮度及对比度;加入ViT分类网络去除干扰背景,以提高模型在复杂环境下对小目标杂草的识别性能。在YOLOv7模型中主干特征提取网络替换为GhostNet网络,并引入CA注意力机制,以增强主干特征提取网络对杂草特征提取能力及简化模型参数计算量。消融试验表明:改进后的YOLOv7模型平均精度均值为88.2%,较原YOLOv7模型提高了3.3个百分点,参数量减少10.43 M,计算量减少66.54×109次/s。识别前先经过MSRCP图像增强后,与原模型相比,改进YOLOv7模型的平均精度均值提高了2.6个百分点,光线遮蔽、藻萍干扰以及稻叶尖形状相似的复杂环境下平均精度均值分别提高5.3、3.6、3.1个百分点,加入ViT分类网络后,较原模型平均精度均值整体提升了4.4个百分点,光线遮蔽、藻萍干扰一级稻叶尖形状相似的复杂环境下的平均精度均值较原模型整体提升了6.2、6.1、5.7个百分点。ViT-改进YOLOv7模型的平均精度均值为92.6%,相比于YOLOv5s、YOLOXs、MobilenetV3-YOLOv7、YOLOv8和改进YOLOv7分别提高了11.6、10.1、5.0、4.2、4.4个百分点。研究结果可为稻田复杂环境的杂草精准识别提供支撑。 展开更多
关键词 机器视觉 深度学习 YOLOv7 VIT 稻田杂草 识别
下载PDF
基于深度学习的计算机视觉在隧道衬砌病害检测中的应用综述
18
作者 张令心 王茂岑 +2 位作者 谢贤鑫 沈俊凯 李宁 《建筑结构》 北大核心 2024年第20期143-155,142,共14页
隧道衬砌作为隧道的重要支撑结构,对其中存在的病害进行检测显得十分重要。然而,传统的隧道病害检测方法高度依赖人工,效率低下,并且存在一定的安全风险,因此,如何高效、安全地实现病害的自动检测成为了热门的方向之一。深度学习(DL)和... 隧道衬砌作为隧道的重要支撑结构,对其中存在的病害进行检测显得十分重要。然而,传统的隧道病害检测方法高度依赖人工,效率低下,并且存在一定的安全风险,因此,如何高效、安全地实现病害的自动检测成为了热门的方向之一。深度学习(DL)和计算机视觉(CV)被视为实现隧道衬砌病害自动检测的具有发展前景的方法。为了阐明DL技术和CV技术在病害检测中的研究与应用,总结了隧道衬砌病害检测技术的发展历程;基于数据对于DL模型训练的重要性,总结了衬砌病害数据集的建立过程;随后,总结了基于DL的CV技术在隧道衬砌表面病害和内部病害检测方面的方法和应用;最后,讨论了目前研究中存在的问题,并对未来的发展进行了展望。 展开更多
关键词 隧道工程 隧道衬砌 病害检测 计算机视觉 深度学习
下载PDF
基于深度卷积神经网络的电子玻璃缺陷分类方法
19
作者 李苑 于浩 +5 位作者 金良茂 曹志强 陈家睿 郑际杰 韩高荣 刘涌 《中国建材科技》 CAS 2024年第S01期17-23,共7页
电子玻璃是信息显示产业的关键基础材料之一。近年来,显示产业向大尺寸化、超高清和轻薄化发展,对于电子玻璃基板的质量提出了更高的要求。机器视觉检测具有速度快、精度高、成本低、稳定性好等优点,被广泛应用于各种工业场景中。图像... 电子玻璃是信息显示产业的关键基础材料之一。近年来,显示产业向大尺寸化、超高清和轻薄化发展,对于电子玻璃基板的质量提出了更高的要求。机器视觉检测具有速度快、精度高、成本低、稳定性好等优点,被广泛应用于各种工业场景中。图像处理算法、识别分类算法是机器视觉检测的关键技术。本文针对基于深度卷积神经网络的整图分类方法在电子玻璃表面缺陷检测领域的应用,从图像数据处理、卷积神经网络构建、训练调参、评价标准等方面介绍其研究进展,并总结部分应用实例,对电子玻璃缺陷分类未来的研究方向进行展望。 展开更多
关键词 电子玻璃 机器视觉 深度卷积神经网络 缺陷分类
下载PDF
基于细粒度特征提纯的穿戴目标快速检测方法
20
作者 韩晓微 吴浩铭 +2 位作者 周育竹 谢英红 贾旭 《沈阳大学学报(自然科学版)》 CAS 2024年第4期321-330,共10页
为了解决人体穿戴目标的视觉检测中尺寸变化、光线明暗、部分遮挡,尤其是相似目标区分等导致的识别速度慢、抗干扰能力差、误检漏检等问题,提出了一种基于细粒度特征提纯的穿戴目标快速检测方法(fast fine-grained feature with vision ... 为了解决人体穿戴目标的视觉检测中尺寸变化、光线明暗、部分遮挡,尤其是相似目标区分等导致的识别速度慢、抗干扰能力差、误检漏检等问题,提出了一种基于细粒度特征提纯的穿戴目标快速检测方法(fast fine-grained feature with vision transformer,F 3ViT),在CBAM结构中增加跳跃连接,获取具有空间与通道双重特性的特征图,同时保留了更丰富的原始信息;融合自注意力机制和卷积神经网络,提升主干网络对于全局信息的感知;设计了一种有利于多尺寸目标检测的特征金字塔网络,同时提取浅层位置信息和深层语义信息,大幅提高了检测精度。在MS COCO数据集上进行了消融实验,验证了各个模块对网络的影响,同时在对比实验中证明了所提方法具有有效性和先进性。在MS COCO 2017数据集上AP50值达到60.5,AP值达到35.0,检测速度5.7 ms。对比YOLOv5s在精度相似的同时检测速度提高18.6%,算力需求降低33.3%,参数量降低16.7%。本方法在高空安全带数据集上的AP值达到62.5,优于主流深度学习的目标检测方法。 展开更多
关键词 深度学习 机器视觉 注意力机制 细粒度目标检测 穿戴目标检测
下载PDF
上一页 1 2 70 下一页 到第
使用帮助 返回顶部