期刊文献+
共找到1,476篇文章
< 1 2 74 >
每页显示 20 50 100
基于改进Vision Transformer网络的农作物病害识别方法 被引量:3
1
作者 王杨 李迎春 +6 位作者 许佳炜 王傲 马唱 宋世佳 谢帆 赵传信 胡明 《小型微型计算机系统》 CSCD 北大核心 2024年第4期887-893,共7页
基于DCNN模型的农作物病害识别方法在实验室环境下识别准确率高,但面对噪声时缺少鲁棒性.为了兼顾农作物病害识别的精度和鲁棒性,本文在标准ViT模型基础上加入增强分块序列化和掩码多头注意力,解决标准ViT模型缺乏局部归纳偏置和视觉特... 基于DCNN模型的农作物病害识别方法在实验室环境下识别准确率高,但面对噪声时缺少鲁棒性.为了兼顾农作物病害识别的精度和鲁棒性,本文在标准ViT模型基础上加入增强分块序列化和掩码多头注意力,解决标准ViT模型缺乏局部归纳偏置和视觉特征序列的自注意力过于关注自身的问题.实验结果表明,本文的EPEMMSA-ViT模型对比标准ViT模型可以更高效的从零学习;当添加预训练权重训练网络时,EPEMMSA-ViT模型在数据增强的PlantVillage番茄子集上能够得到99.63%的分类准确率;在添加椒盐噪声的测试数据集上,对比ResNet50、DenseNet121、MobileNet和ConvNeXt的分类准确率分别提升了6.08%、9.78%、29.78%和12.41%;在添加均值模糊的测试数据集上,对比ResNet50、DenseNet121、MobileNet和ConvNeXt的分类准确率分别提升了18.92%、31.11%、20.37%和19.58%. 展开更多
关键词 农作物病害识别 深度卷积神经网络 视觉Transformer 自注意力 局部归纳偏置
下载PDF
基于跨尺度Vision Transformer的深度哈希算法
2
作者 姚佩昀 于炯 +2 位作者 李雪 李梓杨 陈鹏程 《计算机应用研究》 CSCD 北大核心 2024年第11期3477-3483,共7页
为了解决当前深度哈希算法提取跨尺度特征能力不足以及难以拟合数据的全局相似度分布问题,提出了一种基于跨尺度Vision Transformer的深度哈希算法。首先,利用金字塔卷积和跨尺度注意力机制构建了一种多层次编码器,来捕获图像丰富的语... 为了解决当前深度哈希算法提取跨尺度特征能力不足以及难以拟合数据的全局相似度分布问题,提出了一种基于跨尺度Vision Transformer的深度哈希算法。首先,利用金字塔卷积和跨尺度注意力机制构建了一种多层次编码器,来捕获图像丰富的语义信息;其次,提出了一种基于代理的深度哈希算法,该算法为每个类别生成哈希代理,使得哈希码可以学习具有鉴别性的类别特征,从而缩小与同类别哈希代理的距离并拟合数据全局相似性分布;最后,在哈希代理与哈希码之间添加角度边距项,扩大类内相似性和类间差异性,以生成具有高判别性的哈希码。通过在CIFAR-10、ImageNet-100、NUS-Wide、MS COCO上进行的实验结果表明,该算法的平均检索精度比次优方法分别提升4.42%、19.61%、0.35%、15.03%,验证了该算法的有效性。 展开更多
关键词 深度哈希 视觉注意力 哈希代理 跨尺度 图像检索
下载PDF
基于改进Vision Transformer的道岔故障智能诊断
3
作者 王英琪 李刚 +1 位作者 胡启正 杨勇 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2024年第10期4321-4333,共13页
道岔故障种类繁多,特征复杂,存在检测难、分类难等问题,导致故障排查效率低下,对铁路运输安全构成威胁。Vision Transformer模型在图像分类方面具有较高准确度,但是其处理的是图像块,而不是传统的像素级特征,在某些情况下可能会影响曲... 道岔故障种类繁多,特征复杂,存在检测难、分类难等问题,导致故障排查效率低下,对铁路运输安全构成威胁。Vision Transformer模型在图像分类方面具有较高准确度,但是其处理的是图像块,而不是传统的像素级特征,在某些情况下可能会影响曲线局部信息的获取。针对上述情况,提出一种基于改进Vision Transformer模型的故障曲线分类算法。首先,对典型道岔故障及原因进行梳理分类,指出几种典型的道岔故障;其次,对使用道岔动作电流数据生成的图像尺寸进行调整并根据故障图像特点进行数据增强,使用ResNet网络取代原Vision Transformer模型中的故障图像分块机制进行特征提取,同时采用相对位置编码增强模型的适应性和泛化能力;最后,利用模型的多头自注意力机制,综合全局与局部信息进行分类,并得到分类权重。经过实验验证,本文道岔故障分类识别总体准确率达99.77%,各分类识别的平均精确率达99.78%,与原模型相比,在训练集和验证集上的识别精度分别提升了5.4%和2.4%。为了更好地理解模型的性能,采用Grad-CAM方法将迭代过程可视化,剖析了模型关注区域的变化过程,并在测试集上与VGG-16、DenseNet121等经典分类模型进行性能对比;通过ROC曲线评估分类效果,显示改进的模型取得更优结果。研究结果为道岔故障识别分类提供了新的理论支持,并为未来的研究提供了新的思路和方法。 展开更多
关键词 深度学习 图像分类 道岔故障识别 vision Transformer
下载PDF
基于Vision Transformer-LSTM(ViTL)的多时序遥感影像农作物分类方法
4
作者 张青云 杨辉 +1 位作者 李兴伍 武永闯 《安徽农业大学学报》 CAS CSCD 2024年第5期888-898,共11页
针对当前遥感农作物分类研究中深度学习模型对光谱时间和空间信息特征采样不足,农作物提取仍然存在边界模糊、漏提、误提的问题,提出了一种名为视觉Transformer-长短期记忆递归神经网络(Vision Transformer-long short term memory,ViTL... 针对当前遥感农作物分类研究中深度学习模型对光谱时间和空间信息特征采样不足,农作物提取仍然存在边界模糊、漏提、误提的问题,提出了一种名为视觉Transformer-长短期记忆递归神经网络(Vision Transformer-long short term memory,ViTL)的深度学习模型,ViTL模型集成了双路Vision-Transformer特征提取、时空特征融合和长短期记忆递归神经网络(LSTM)时序分类等3个关键模块,双路Vision-Transformer特征提取模块用于捕获图像的时空特征相关性,一路提取空间分类特征,一路提取时间变化特征;时空特征融合模块用于将多时特征信息进行交叉融合;LSTM时序分类模块捕捉多时序的依赖关系并进行输出分类。综合利用基于多时序卫星影像的遥感技术理论和方法,对黑龙江省齐齐哈尔市讷河市作物信息进行提取,研究结果表明,ViTL模型表现出色,其总体准确率(Overall Accuracy,OA)、平均交并比(Mean Intersection over Union,MIoU)和F1分数分别达到0.8676、0.6987和0.8175,与其他广泛使用的深度学习方法相比,包括三维卷积神经网络(3-D CNN)、二维卷积神经网络(2-D CNN)和长短期记忆递归神经网络(LSTM),ViTL模型的F1分数提高了9%~12%,显示出显著的优越性。ViTL模型克服了面对多时序遥感影像的农作物分类任务中的时间和空间信息特征采样不足问题,为准确、高效地农作物分类提供了新思路。 展开更多
关键词 农作物分类 vision Transformer(ViT) LSTM 深度学习 遥感监测
下载PDF
基于短时傅立叶变换和改进Vision Transformer的滚动轴承故障诊断方法
5
作者 袁新杰 孙飞越 《起重运输机械》 2024年第16期70-75,共6页
针对传统故障诊断技术在精确与高效地诊断减速器滚动轴承故障信号方面所面临的挑战,文中提出了一种基于短时傅里叶变换与改进Vision Transformer模型的故障诊断新方法。此方法有效融合了短时傅里叶变换在处理非线性和非平稳信号上的优... 针对传统故障诊断技术在精确与高效地诊断减速器滚动轴承故障信号方面所面临的挑战,文中提出了一种基于短时傅里叶变换与改进Vision Transformer模型的故障诊断新方法。此方法有效融合了短时傅里叶变换在处理非线性和非平稳信号上的优势以及Vision Transformer在图像分类任务上的卓越性能。通过短时傅里叶变换将一维的振动信号转化为包含时域和频域信息的二维图像数据,进而利用改进的Vision Transformer模型对这些图像数据进行处理,以实现对滚动轴承故障状态的精准诊断。在公开数据集上的实验结果验证了该方法的稳定性与高识别精度,展示了其在滚动轴承故障诊断领域的应用潜力。 展开更多
关键词 短时傅里叶变换 vision Transformer 深度学习 故障诊断 滚动轴承
下载PDF
跨域环境下特定多目标跟踪算法的改进
6
作者 穆晓芳 李毫 +2 位作者 刘嘉骥 刘振宇 李越 《太原理工大学学报》 北大核心 2025年第1期165-173,共9页
【目的】针对监控视频跨域环境下的多目标跟踪画面中,频繁遮挡、轨迹开始终止时刻未知、目标太小、目标间交互、表观相似以及摄像头视角变化等问题,提出一种改进的多目标跟踪算法。【方法】该算法最大化利用低分检测对象,将未匹配的低... 【目的】针对监控视频跨域环境下的多目标跟踪画面中,频繁遮挡、轨迹开始终止时刻未知、目标太小、目标间交互、表观相似以及摄像头视角变化等问题,提出一种改进的多目标跟踪算法。【方法】该算法最大化利用低分检测对象,将未匹配的低分对象进行二次匹配,目标跨域后,依据摄像头拓扑排序规则,以及相邻摄像头的未匹配跟踪轨迹,同时对检测器YOLOv5算法进行优化改进,通过信息流的层层递进,有效解决多尺度问题和小目标信息提取不充分等问题,在相邻的摄像头中快速匹配到跟踪对象,以提高跨域环境下特定多目标跟踪的精度。【结果】对比消融试验表明,本改进算法MOTA达到了62.8%,IDswitch也显著降低。 展开更多
关键词 多目标跟踪 YOLO 计算机视觉 深度学习
下载PDF
基于卷积神经网络的立体匹配算法研究
7
作者 郭北涛 刘瀚齐 +1 位作者 刘琪 张丽秀 《组合机床与自动化加工技术》 北大核心 2025年第1期69-73,78,共6页
在基于深度学习的立体匹配问题中,模型的网络结构、参数设置对匹配精度和匹配效率起到决定性作用。针对现有模型参数量大,精度低的问题,设计一种基于卷积神经网络的视差回归模型。首先,提出了基于扩张卷积和空间池化金字塔的多尺度特征... 在基于深度学习的立体匹配问题中,模型的网络结构、参数设置对匹配精度和匹配效率起到决定性作用。针对现有模型参数量大,精度低的问题,设计一种基于卷积神经网络的视差回归模型。首先,提出了基于扩张卷积和空间池化金字塔的多尺度特征提取网络,提高弱纹理区域的匹配精度;其次,改进了代价体相似度计算步骤,在保证匹配精度的同时,降低模型的参数量;最后,通过采取视差梯度信息和视差回归损失函数相结合的策略,有效地解决了在视差不连续区域中存在的边界信息保留不完整的问题。使用Middlebury数据集对模型进行验证,实验结果表明,相较于现有的立体匹配算法,在精度和速度方面都有所提升。 展开更多
关键词 机器视觉 立体匹配 卷积神经网络 深度学习
下载PDF
Performance Comparison of Vision Transformer- and CNN-Based Image Classification Using Cross Entropy: A Preliminary Application to Lung Cancer Discrimination from CT Images
8
作者 Eri Matsuyama Haruyuki Watanabe Noriyuki Takahashi 《Journal of Biomedical Science and Engineering》 2024年第9期157-170,共14页
This study evaluates the performance and reliability of a vision transformer (ViT) compared to convolutional neural networks (CNNs) using the ResNet50 model in classifying lung cancer from CT images into four categori... This study evaluates the performance and reliability of a vision transformer (ViT) compared to convolutional neural networks (CNNs) using the ResNet50 model in classifying lung cancer from CT images into four categories: lung adenocarcinoma (LUAD), lung squamous cell carcinoma (LUSC), large cell carcinoma (LULC), and normal. Although CNNs have made significant advancements in medical imaging, their limited capacity to capture long-range dependencies has led to the exploration of ViTs, which leverage self-attention mechanisms for a more comprehensive global understanding of images. The study utilized a dataset of 748 lung CT images to train both models with standardized input sizes, assessing their performance through conventional metrics—accuracy, precision, recall, F1 score, specificity, and AUC—as well as cross entropy, a novel metric for evaluating prediction uncertainty. Both models achieved similar accuracy rates (95%), with ViT demonstrating a slight edge over ResNet50 in precision and F1 scores for specific classes. However, ResNet50 exhibited higher recall for LULC, indicating fewer missed cases. Cross entropy analysis showed that the ViT model had lower average uncertainty, particularly in the LUAD, Normal, and LUSC classes, compared to ResNet50. This finding suggests that ViT predictions are generally more reliable, though ResNet50 performed better for LULC. The study underscores that accuracy alone is insufficient for model comparison, as cross entropy offers deeper insights into the reliability and confidence of model predictions. The results highlight the importance of incorporating cross entropy alongside traditional metrics for a more comprehensive evaluation of deep learning models in medical image classification, providing a nuanced understanding of their performance and reliability. While the ViT outperformed the CNN-based ResNet50 in lung cancer classification based on cross-entropy values, the performance differences were minor and may not hold clinical significance. Therefore, it may be premature to consider replacing CNNs with ViTs in this specific application. 展开更多
关键词 Lung Cancer Classification vision Transformers Convolutional Neural Networks Cross Entropy deep Learning
下载PDF
基于深度学习的基础设施表面裂纹检测方法研究进展
9
作者 胡翔坤 李华 +3 位作者 冯毅雄 钱松荣 李键 李少波 《计算机工程与应用》 北大核心 2025年第1期1-23,共23页
民用基础设施在长期使用后容易发生物理结构或性能状态的改变,对其功能和使用安全造成一定的损害,因此,对这类设施的结构健康监测是十分必要的。裂纹检测是结构健康监测中极其重要的一部分,及时检测并识别这类损伤,能有效避免事故的发... 民用基础设施在长期使用后容易发生物理结构或性能状态的改变,对其功能和使用安全造成一定的损害,因此,对这类设施的结构健康监测是十分必要的。裂纹检测是结构健康监测中极其重要的一部分,及时检测并识别这类损伤,能有效避免事故的发生。基于计算机视觉的表面裂纹检测方法操作简单、检测速度快、准确率高,被广泛应用于民用基础设施的表面裂纹检测。从图像分类、目标检测、语义分割三个不同的检测方向综述了基于深度学习的基础设施表面裂纹检测方法,总结了常见的数据采集方法和常用的公共裂纹数据集。最后讨论了基于深度学习的基础设施表面裂纹检测方法存在的困难与挑战,并展望了未来可能的发展方向。 展开更多
关键词 结构健康监测 裂纹检测 计算机视觉 深度学习
下载PDF
用于雨线和雨滴去除的像素级核预测网络
10
作者 李克文 姚贤哲 +1 位作者 蒋衡杰 刘文龙 《计算机工程与设计》 北大核心 2025年第1期182-189,共8页
针对现有的图像去雨算法通常需要设计先验知识和多阶段优化框架导致算法适应场景单一的问题,提出一种基于图像过滤统一去除雨线和雨滴的去雨核预测网络(RKPN)。有雨图像通过RKPN估计像素级去雨内核。采用空洞卷积提取多尺度特征,提出一... 针对现有的图像去雨算法通常需要设计先验知识和多阶段优化框架导致算法适应场景单一的问题,提出一种基于图像过滤统一去除雨线和雨滴的去雨核预测网络(RKPN)。有雨图像通过RKPN估计像素级去雨内核。采用空洞卷积提取多尺度特征,提出一个多分支特征聚合模块。通过数据增强构建一个雨线和雨滴混合数据集(RDRS),提升现实世界复杂场景中图像去雨算法的效果。对4个公开数据集和RDRS数据集的广泛实验结果表明,所提模型取得均高于MPRNet等主流网络的峰值信噪比和结构相似度。 展开更多
关键词 深度学习 图像去雨 核预测网络 计算机视觉 混合雨模式 图像过滤 注意力机制
下载PDF
计算机视觉与深度学习技术在烟叶生产上的研究进展
11
作者 邢卓冉 丁松爽 +4 位作者 张凯 马明 郭文龙 刘旭东 时向东 《中国农业科技导报(中英文)》 北大核心 2025年第1期96-106,共11页
计算机视觉与深度学习技术在众多场景(如物体识别,图像分类)取得了显著进展,近年来这项技术在烟叶生产中展现出广泛的应用空间与发展潜力。综述了计算机视觉与深度学习技术在烟叶生产上的应用现状,重点讨论了其在解决烟叶病害识别、烟... 计算机视觉与深度学习技术在众多场景(如物体识别,图像分类)取得了显著进展,近年来这项技术在烟叶生产中展现出广泛的应用空间与发展潜力。综述了计算机视觉与深度学习技术在烟叶生产上的应用现状,重点讨论了其在解决烟叶病害识别、烟叶采收调制、烟叶分级等问题方面的方法。通过分析不同的算法及其在烟叶生产关键阶段的运用,并考虑这项技术在烟叶生产领域所面临的挑战与发展方向,为智能化烟叶生产提供理论支持和参考。 展开更多
关键词 计算机视觉 深度学习 卷积神经网络 烟草 应用
下载PDF
基于深度学习的高效率烤烟等级识别模型研究
12
作者 冯川 祝诗平 +2 位作者 黄华 严森垚 于丽敏 《西南大学学报(自然科学版)》 CAS 北大核心 2025年第1期213-225,共13页
烤烟的等级识别是烟草产业的一个关键环节,为了降低烟农烤烟分级劳动强度,减少主观因素,提高识别精度,需要实现烤烟的自动分级。研究了深度学习中多种卷积神经网络的多层特征提取方法,并基于ShuffleNetV2网络提出一种改进的网络模型(Shu... 烤烟的等级识别是烟草产业的一个关键环节,为了降低烟农烤烟分级劳动强度,减少主观因素,提高识别精度,需要实现烤烟的自动分级。研究了深度学习中多种卷积神经网络的多层特征提取方法,并基于ShuffleNetV2网络提出一种改进的网络模型(ShuffleNetV2_FTC)。ShuffleNetV2_FTC网络是将ShuffleNetV2网络的主干单元进行更改,并引入CBAM(Convolutional Block Attention Module)注意力机制和SiLU激活函数。应用该模型对27种类别的烤烟图像进行识别分类。该模型的最佳测试准确率为93.09%,检测帧率达到每秒15.3张。相对原模型获得了0.24%(0.5×)、6.06%(1×)和4.73%(1.5×)的准确率提升,每秒检测12.3张图片到15.3张图片的检测帧率提升。ShuffleNetV2_FTC网络结合机器视觉技术可以很好地识别烤烟等级,为优化烤烟的收购、烘干和加工等流程奠定基础。 展开更多
关键词 烤烟等级 图像处理 机器视觉 深度学习 ShuffleNetV2网络
下载PDF
基于轻量化卷积神经网络的桥梁斜拉索PE护套损伤识别方法
13
作者 刘啸宇 黄永 +1 位作者 徐峰 李惠 《土木与环境工程学报(中英文)》 北大核心 2025年第1期167-178,共12页
深度神经网络和计算机视觉技术近年来在结构健康监测中发挥了越来越重要的作用。利用无人机航拍采集的桥梁斜拉索损伤图像数据,研究基于深度学习技术的斜拉索PE护套损伤识别方法。为实现在较低运算能力设备上对大跨度桥梁斜拉索表面局... 深度神经网络和计算机视觉技术近年来在结构健康监测中发挥了越来越重要的作用。利用无人机航拍采集的桥梁斜拉索损伤图像数据,研究基于深度学习技术的斜拉索PE护套损伤识别方法。为实现在较低运算能力设备上对大跨度桥梁斜拉索表面局部损伤的智能快速识别,解决传统深度卷积神经网络的运算效率相对较低、模型参数规模较大的问题,提出轻量化处理的区域推荐型卷积神经网络模型。介绍区域推荐网络与其轻量化改进方法的理论基础,分析轻量化模型处理的必要性,其能在保证识别精度的前提下降低模型训练与预测的设备性能需求,达到节约计算资源与时间的目的;通过数据增广等多手段解决损伤样本数据量不足的问题,设置对比试验,统计分析结果,验证了轻量化神经网络模型的优越性。结果表明,轻量化网络在牺牲少量识别准确度的前提下,能够在较大程度上实现对模型复杂度与计算量的改进,在工程应用中能有效拓展神经网络的实用性。 展开更多
关键词 桥梁斜拉索 智能损伤识别 轻量化神经网络 计算机视觉 深度学习
下载PDF
视觉富文档理解预训练综述 被引量:1
14
作者 张剑 李晖 +2 位作者 张晟铭 吴杰 彭滢 《计算机科学》 北大核心 2025年第1期259-276,共18页
视觉富文档指语义结构不仅由文本内容决定,还与排版格式和表格结构等视觉元素相关的文档。现实生活中的票据理解和证件识别等应用场景,都需要对视觉富文档进行自动化的阅读、分析和处理。这一过程即为视觉富文档理解,属于自然语言处理... 视觉富文档指语义结构不仅由文本内容决定,还与排版格式和表格结构等视觉元素相关的文档。现实生活中的票据理解和证件识别等应用场景,都需要对视觉富文档进行自动化的阅读、分析和处理。这一过程即为视觉富文档理解,属于自然语言处理和计算机视觉的交叉领域。近年来,视觉富文档理解领域的预训练技术在打破下游任务的训练壁垒和提升模型表现上取得了重大的进展。然而,目前对现有的预训练模型的归纳总结和深入分析仍然有所欠缺。为此,对视觉富文档理解领域预训练技术的相关研究进行了全面总结。首先,介绍了预训练技术的数据预处理阶段,包括预训练数据集和光学字符识别引擎。然后,对预训练技术的模型预训练阶段进行了阐述,提炼出单模态表示学习、多模态特征融合和预训练任务3个关键的技术模块,并基于上述模块归纳了预训练模型之间的共性和差异。此外,简要介绍了多模态大模型在视觉富文档理解领域的应用。接着,对预训练模型在下游任务上的表现进行了对比分析。最后,探讨了预训练技术面临的挑战和未来的研究方向。 展开更多
关键词 文档智能 预训练模型 自然语言处理 计算机视觉 深度学习
下载PDF
基于3D视觉的产品缺陷检测技术研究
15
作者 凌均健 徐东华 《广东水利电力职业技术学院学报》 2025年第1期11-16,共6页
针对电子/半导体等行业的工业产品缺陷区弱小、难检测问题,研究基于高性能工业相机的高分辨3D缺陷成像技术;面向种类繁多、形状复杂的缺陷,研究基于深度学习的高精度、高鲁棒性的缺陷检测方法。研究的技术及方法可实现工业产品表面缺陷... 针对电子/半导体等行业的工业产品缺陷区弱小、难检测问题,研究基于高性能工业相机的高分辨3D缺陷成像技术;面向种类繁多、形状复杂的缺陷,研究基于深度学习的高精度、高鲁棒性的缺陷检测方法。研究的技术及方法可实现工业产品表面缺陷样本的快速采集、缺陷区域的准确检测及缺陷产品的智能分拣。 展开更多
关键词 半导体 3D视觉 深度学习 缺陷检测
下载PDF
基于改进的YOLOv7小目标检测算法
16
作者 鞠伟强 曹立华 《计算机工程与设计》 北大核心 2025年第1期145-151,共7页
为提高小目标的检测精度,提出一种基于改进的YOLOv7的目标检测算法(SM-YOLOv7)。使用Swin Transformer(STR)模块替换主干特征提取网络中的E-ELEN模块,将SPPCSPC网络改进为SPPCSPF网络,在预测部分增加小目标检测头,设计MPC3模块避免网络... 为提高小目标的检测精度,提出一种基于改进的YOLOv7的目标检测算法(SM-YOLOv7)。使用Swin Transformer(STR)模块替换主干特征提取网络中的E-ELEN模块,将SPPCSPC网络改进为SPPCSPF网络,在预测部分增加小目标检测头,设计MPC3模块避免网络定位空间信息丢失。通过NWD代替YOLOv7网络模型中的CIoU损失函数,输出端采用SE-Net注意力机制。在Okahublot公开的FloW-Img数据集上验证,实验结果表明,SM-YOLOv7平均精度均值mAP为84.8%,相比基线YOLOv7网络模型提升了6.6%,检测性能优于原网络模型与传统经典目标检测网络模型。 展开更多
关键词 小目标检测 YOLOv7网络模型 损失函数 深度学习 机器视觉 SE-Net注意力机制 Swin Transformer
下载PDF
面向计算机视觉任务的无线图像传输
17
作者 王丽娟 吴晓红 +1 位作者 杨红 卿粼波 《通信技术》 2025年第1期19-25,共7页
随着信息技术的融合创新及智慧城市等领域的迅猛发展,机器视觉任务和图像数据传输需求逐渐增加。语义通信技术通过提取和传输数据的语义信息,而非原始比特流,以提高数据的传输效率。卷积神经网络(Convolutional Neural Networks,CNN)和T... 随着信息技术的融合创新及智慧城市等领域的迅猛发展,机器视觉任务和图像数据传输需求逐渐增加。语义通信技术通过提取和传输数据的语义信息,而非原始比特流,以提高数据的传输效率。卷积神经网络(Convolutional Neural Networks,CNN)和Transformer结构的结合为图像语义通信领域带来了新的突破。CNN在提取图像局部特征方面表现出色,而Transformer则擅长捕捉长距离依赖和全局特征。聚焦于图像的传输与处理,基于CNN和Transformer结构对于特征提取的优势,并加入注意力机制,提出了一种高效的端到端图像语义通信方案,以在优化传输性能的同时满足智能任务对图像数据传输的需求。结果显示,所提方案与现有方法相比不仅提高了计算效率,还具有更强的鲁棒性和适应性。 展开更多
关键词 计算机视觉 语义通信 深度学习 无线图像传输
下载PDF
沙尘图像视觉增强技术综述
18
作者 司亚中 张旭龙 +3 位作者 杨帆 王健宗 程宁 肖京 《大数据》 2025年第1期117-134,共18页
沙尘图像视觉增强技术旨在提高沙尘暴天气下成像设备捕获数据的视觉感知清晰度,以辅助高级视觉算法提高从数据中获取关键特征的能力。随着沙尘天气出现频次的增多,沙尘图像视觉增强技术逐渐成为图像处理领域的研究热点,在遥感勘测、无... 沙尘图像视觉增强技术旨在提高沙尘暴天气下成像设备捕获数据的视觉感知清晰度,以辅助高级视觉算法提高从数据中获取关键特征的能力。随着沙尘天气出现频次的增多,沙尘图像视觉增强技术逐渐成为图像处理领域的研究热点,在遥感勘测、无人驾驶、智慧交通等人工智能相关行业有着十分广泛的应用前景。为了更好地了解当前沙尘图像处理领域的研究进展,详细阐述了基于传统技术的沙尘图像增强算法和基于大气散射模型的沙尘图像复原算法,总结了基于数据驱动的沙尘图像重构算法,对当前公开数据集的构建进行了细致的研究和分析,并简单梳理了图像增强领域常用的评价指标。最后对所述内容做出总结,指出当前研究中存在的困难,并对未来沙尘图像增强技术的发展方向进行了展望。 展开更多
关键词 图像增强 沙尘图像 计算机视觉 深度学习
下载PDF
基于计算机视觉与深度学习的摩崖石刻裂缝检测
19
作者 康东洋 梁子鸣 孙明 《中阿科技论坛(中英文)》 2025年第1期97-101,共5页
摩崖石刻由于长期暴露于自然环境中,遭受着多种病害的侵扰,其保存状况值得关注。其中,裂缝是石刻常见的病害形式,不仅削弱了石刻的观赏价值,更可能导致石刻上的文字难以辨认。因此,石刻裂缝的检测对于其保护与传承具有重要意义。传统的... 摩崖石刻由于长期暴露于自然环境中,遭受着多种病害的侵扰,其保存状况值得关注。其中,裂缝是石刻常见的病害形式,不仅削弱了石刻的观赏价值,更可能导致石刻上的文字难以辨认。因此,石刻裂缝的检测对于其保护与传承具有重要意义。传统的裂缝检测方式为人工检测,但人工检测耗时费力,且成本较高。随着计算机技术的快速发展,计算机视觉与深度学习技术为石刻裂缝检测开辟了全新途径。文章旨在探索利用这些技术实现石刻裂缝自动检测的可行性,收集了湖南省永州市祁阳浯溪碑林风景名胜区的摩崖石刻图像资料,通过采用YOLO v11算法,构建了一个能够自动识别图像中石刻裂缝的计算机视觉模型。研究结果表明,该模型的识别准确率高达88%,为快速、高效地检测石刻裂缝提供了技术支持,也为后续的石刻修复工作奠定了坚实的基础。 展开更多
关键词 摩崖石刻 裂缝检测 计算机视觉 深度学习 YOLO v11
下载PDF
融合多尺度特征注意力的双目立体匹配算法
20
作者 张嫡 李泽平 +1 位作者 赵勇 杨文帮 《计算机工程与设计》 北大核心 2025年第1期30-36,共7页
针对现有的立体匹配算法在反光、反射、纹理模糊、纹理复杂边缘等区域推理精度不高的问题,提出一种融合多尺度特征注意力的立体匹配网络。采用改进的金字塔池化模块,将金字塔池化结合U型架构,加强边缘区域有效特征信息的提取;在网络中... 针对现有的立体匹配算法在反光、反射、纹理模糊、纹理复杂边缘等区域推理精度不高的问题,提出一种融合多尺度特征注意力的立体匹配网络。采用改进的金字塔池化模块,将金字塔池化结合U型架构,加强边缘区域有效特征信息的提取;在网络中引入多尺度特征融合的注意力模块,融合多尺度代价体和注意力机制增强代价体中不同层次信息量,同时捕获在不同维度间的信息依赖关系,抑制代价体中无关信息;采用多阶段的视差精化得到最终的视差图。实验结果表明,MFANet预测的精度相比基准网络GwcNet在SceneFlow、KITTI 2012和KITTI 2015分别提高了18.8%、11.6%、12%。 展开更多
关键词 深度学习 立体匹配 双目视觉 特征提取 多尺度特征注意力 改进金字塔池化 视差优化
下载PDF
上一页 1 2 74 下一页 到第
使用帮助 返回顶部