期刊文献+
共找到809篇文章
< 1 2 41 >
每页显示 20 50 100
基于S-YOLO V5和Vision Transformer的视频内容描述算法 被引量:1
1
作者 徐鹏 李铁柱 职保平 《印刷与数字媒体技术研究》 CAS 北大核心 2023年第4期212-222,共11页
视频内容描述的自动生成是结合计算机视觉和自然语言处理等相关技术提出的一种新型交叉学习任务。针对当前视频内容生成描述模型可读性不佳的问题,本研究提出一种基于S-YOLO V5和Vison Transformer(ViT)的视频内容描述算法。首先,基于... 视频内容描述的自动生成是结合计算机视觉和自然语言处理等相关技术提出的一种新型交叉学习任务。针对当前视频内容生成描述模型可读性不佳的问题,本研究提出一种基于S-YOLO V5和Vison Transformer(ViT)的视频内容描述算法。首先,基于神经网络模型KATNA提取关键帧,以最少帧数进行模型训练;其次,利用S-YOLO V5模型提取视频帧中的语义信息,并结合预训练ResNet101模型和预训练C3D模型提取视频静态视觉特征和动态视觉特征,并对两种模态特征进行融合;然后,基于ViT结构的强大长距离编码能力,构建模型编码器对融合特征进行长距离依赖编码;最后,将编码器的输出作为LSTM解码器的输入,依次输出预测词,生成最终的自然语言描述。通过在MSR-VTT数据集上进行测试,本研究模型的BLEU-4、METEOR、ROUGEL和CIDEr分别为42.9、28.8、62.4和51.4;在MSVD数据集上进行测试,本研究模型的BLEU-4、METEOR、ROUGEL和CIDEr分别为56.8、37.6、74.5以及98.5。与当前主流模型相比,本研究模型在多项评价指标上表现优异。 展开更多
关键词 视频内容描述 S-YOLO V5 vision Transformer 多头注意力
下载PDF
Global Calibration Method of Multi-sensor Vision System Using Skew Laser Lines 被引量:7
2
作者 LIU Qianzhe SUN Junhua +1 位作者 LIU Zhen ZHANG Guangjun 《Chinese Journal of Mechanical Engineering》 SCIE EI CAS CSCD 2012年第2期405-410,共6页
Multi-sensor vision system plays an important role in the 3D measurement of large objects.However,due to the widely distribution of sensors,the problem of lacking common fields of view(FOV) arises frequently,which m... Multi-sensor vision system plays an important role in the 3D measurement of large objects.However,due to the widely distribution of sensors,the problem of lacking common fields of view(FOV) arises frequently,which makes the global calibration of the vision system quite difficult.The primary existing solution relies on large-scale surveying equipments,which is ponderous and inconvenient for field calibrations.In this paper,a global calibration method of multi-sensor vision system is proposed and investigated.The proposed method utilizes pairs of skew laser lines,which are generated by a group of laser pointers,as the calibration objects.Each pair of skew laser lines provides a unique coordinate system in space which can be reconstructed in certain vision sensor's coordinates by using a planar pattern.Then the geometries of sensors are computed under rigid transformation constrains by taking coordinates of each skew lines pair as the intermediary.The method is applied on both visual cameras with synthetic data and a real two-camera vision system;results show the validity and good performance.The prime contribution of this paper is taking skew laser lines as the global calibration objects,which makes the method simple and flexible.The method need no expensive equipments and can be used in large-scale calibration. 展开更多
关键词 multi-vision system global calibration non-overlapping cameras skew laser lines
下载PDF
基于改进Tracktor的行人多目标跟踪算法 被引量:1
3
作者 谌海云 黄忠义 +1 位作者 王海川 余鸿皓 《计算机工程与应用》 CSCD 北大核心 2024年第8期242-249,共8页
在多目标视频跟踪中,针对受交互遮挡等影响导致检测偏差从而致使目标身份丢失的问题,提出一种基于改进Tracktor的行人多目标跟踪算法DUTracktor。在检测框回归中设计一个动态更新模块,利用孪生网络对建议框进一步检测定位;利用时序信息... 在多目标视频跟踪中,针对受交互遮挡等影响导致检测偏差从而致使目标身份丢失的问题,提出一种基于改进Tracktor的行人多目标跟踪算法DUTracktor。在检测框回归中设计一个动态更新模块,利用孪生网络对建议框进一步检测定位;利用时序信息增强模块更新当前帧更适合的模板,建立全局上下文关系;并通过像素相关进行特征融合,从而增强目标边缘信息和尺度信息;利用相机运动补偿和融合相似矩阵构建二级关联跟踪机制,建立检测框和轨迹更强大的关联性,提高目标跟踪的鲁棒性。在公开的MOT16数据集上进行实验测试,并与当前主流算法相比,该算法跟踪精度表现较优,具有良好的鲁棒性,FPS稳定在24帧。 展开更多
关键词 计算机视觉 多目标跟踪 Tracktor 孪生网络
下载PDF
用于实时语义分割的丰富语义提取器网络
4
作者 赵珊 田楷文 孙君顶 《河南理工大学学报(自然科学版)》 CAS 北大核心 2024年第6期146-155,共10页
目的由于推理速度限制,网络深度较浅,实时语义分割网络提取的语义特征信息不足。此外,较浅的网络深度也限制了特征提取网络的能力,降低了其鲁棒性和适应能力。为此,方法提出一种用于实时语义分割的丰富语义提取器网络。首先针对语义特... 目的由于推理速度限制,网络深度较浅,实时语义分割网络提取的语义特征信息不足。此外,较浅的网络深度也限制了特征提取网络的能力,降低了其鲁棒性和适应能力。为此,方法提出一种用于实时语义分割的丰富语义提取器网络。首先针对语义特征信息提取不足的问题,引入丰富语义提取器,丰富语义提取器包括多尺度全局语义提取模块和语义融合模块。其次,利用多尺度全局语义提取模块可以提取丰富的多尺度全局语义,扩大网络的有效感受野,同时语义融合模块将多尺度局部语义与多尺度全局语义高效融合,使网络拥有更全面更丰富的语义信息。最后针对细节分支和语义分支的特点设计空间重构聚合模块,建模细节特征的上下文信息,增强特征表示,使2个分支高效聚合。结果在Cityscapes和ADE20K数据集上进行全面实验,所提出的RSENet分别以76帧/s和67帧/s的推理速度达到了75.6%和35.7%的MIoU。结论实验结果表明,在复杂场景语义信息的提取方面,本文所提出的网络能够深入挖掘并准确捕捉图像中语义信息。同时,在精度与速度的平衡方面也展现出了卓越的性能,不仅能够实现高精度的语义分割,而且推理速度非常快。这种高效的图像分割能力使得网络在实际应用场景中具有极高的实用性和可操作性。 展开更多
关键词 语义分割 多尺度特征 视觉Transformer 特征融合
下载PDF
基于视觉-语言预训练模型的零样本迁移学习方法综述
5
作者 孙仁科 许靖昊 +2 位作者 皇甫志宇 李仲年 许新征 《计算机工程》 CAS CSCD 北大核心 2024年第10期1-15,共15页
近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模... 近年来随着人工智能(AI)技术在计算机视觉与自然语言处理等单模态领域表现出愈发优异的性能,多模态学习的重要性和必要性逐渐展现出来,其中基于视觉-语言预训练模型的零样本迁移(ZST)方法得到了国内外研究者的广泛关注。得益于预训练模型强大的泛化性能,使用视觉-语言预训练模型不仅能提高零样本识别任务的准确率,而且能够解决部分传统方法无法解决的零样本下游任务问题。对基于视觉-语言预训练模型的ZST方法进行概述,首先介绍了零样本学习(FSL)的传统方法,并对其主要形式加以总结;然后阐述了基于视觉-语言预训练模型的ZST和FSL的区别及其可以解决的新任务;其次介绍了基于视觉-语言预训练模型的ZST方法在样本识别、目标检测、语义分割、跨模态生成等下游任务中的应用情况;最后对现有的基于视觉-语言预训练模型的ZST方法存在的问题进行分析并对未来的研究方向进行展望。 展开更多
关键词 零样本学习 视觉-语言预训练模型 零样本迁移 多模态 计算机视觉
下载PDF
大型锻件尺寸在线测量技术研究
6
作者 陈思 《科技创新与应用》 2024年第31期185-188,共4页
随着制造业自动化程度越来越高,传统的尺寸测量设备和方法已难以满足大型高温锻件尺寸在线测量的要求。该文阐述大型高温锻件尺寸在线测量系统的重要性,介绍大尺寸工件在线测量的发展现状,指出目前大型高温锻件尺寸在线测量存在的问题,... 随着制造业自动化程度越来越高,传统的尺寸测量设备和方法已难以满足大型高温锻件尺寸在线测量的要求。该文阐述大型高温锻件尺寸在线测量系统的重要性,介绍大尺寸工件在线测量的发展现状,指出目前大型高温锻件尺寸在线测量存在的问题,提出一种基于多目视觉的大型长轴类锻件尺寸测量方法,对测量系统进行架构设计,建立计算的数学模型,总结该测量方法特点与局限性,并指出未来进一步探索的方向。 展开更多
关键词 大型锻件 长轴类 在线测量 多目视觉 测量技术
下载PDF
基于视觉和SLAM技术的家用多功能捡拾机器人设计
7
作者 赵萌 潘之遥 +4 位作者 施展 林蔚然 陈开峰 陈凯 初晓 《机电工程技术》 2024年第10期152-156,共5页
随着人工智能和物联网技术的发展,家庭智能清洁机器人逐渐成为家庭助手的重要组成部分。首先阐述了捡拾机器人的应用背景和研究意义,详细介绍了机器人的系统架构和关键技术。在系统架构方面,采用树莓派作为主控制器,利用计算机视觉技术... 随着人工智能和物联网技术的发展,家庭智能清洁机器人逐渐成为家庭助手的重要组成部分。首先阐述了捡拾机器人的应用背景和研究意义,详细介绍了机器人的系统架构和关键技术。在系统架构方面,采用树莓派作为主控制器,利用计算机视觉技术进行物体识别,并结合SLAM技术实现自主导航。在关键技术方面,采用计算机视觉识别和分类家庭物品,SLAM技术则支持机器人在未知环境中的实时定位和路径规划。对捡拾机器人的机械结构进行了优化设计,使其能够适应不同形状和大小的物体,并通过“扫入”方式提升捡拾效率。此外,还采用了视觉传感器和导航技术,实现了实时地图构建和更新。本研究为基于机器人实践竞赛的项目式教学,展示了一种创新的机器人设计思路,为家庭机器人领域提供了新的设计方向,并拓展了机器人的应用范围。通过实验验证,捡拾机器人能够在多种家庭环境中稳定工作,展现出较高的准确性和可靠性,相较于传统清洁工具,具有显著的创新性和实用性。 展开更多
关键词 家用机器人 多功能捡拾 计算机视觉 项目式教学
下载PDF
结合视角矫正和改进ViViT的驾驶员睡意判断方法
8
作者 傅由甲 孟雪莹 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第6期172-179,共8页
针对传统检测方法中摄像头视角受限问题,提出了一种结合面部姿态矫正和改进ViViT的多视角下人脸疲倦检测方法。采用Mediapipe Face Mesh定位面部三维特征点并将其矫正为正面,利用提出的FGR-ViViT模型来捕捉矫正后的眼睛、眉毛、嘴巴线... 针对传统检测方法中摄像头视角受限问题,提出了一种结合面部姿态矫正和改进ViViT的多视角下人脸疲倦检测方法。采用Mediapipe Face Mesh定位面部三维特征点并将其矫正为正面,利用提出的FGR-ViViT模型来捕捉矫正后的眼睛、眉毛、嘴巴线条图像帧序列变化。FGR-ViViT通过在ViViT的Temporal Transformer Encoder中添加部件选择模块来捕捉特征在时间维度中的细微差异,同时融合2次dropout和改进的对比损失函数来调整样本的相似性,降低模型过拟合风险并提高泛化能力。实验结果表明,提出的方法在YawDD和DROZY矫正后的线条图像帧的测试集上,F1-分数达到了94.5%和97.6%,相较于原始人脸图像帧分别提高了3.2%和10.4%,其FGR-ViViT相较于原始ViViT分别提高了6.1%和0.7%。所提方法适用于摄像头灵活摆放的多种应用场景,对解决多视角人脸睡意判断具有积极意义。 展开更多
关键词 疲劳检测 多视角 Video vision Transformer 部件选择模块
下载PDF
多品种医疗试板自动包装系统研发
9
作者 徐金瑜 陆玉 +1 位作者 刘继斌 王婷 《机械设计与制造》 北大核心 2024年第10期178-182,共5页
为满足异形医疗试板热封设备的精度及快速需求,研发一种多品种、高精度、高效率的热封包装控制系统。分析了包装机的工艺流程和控制要求,采用RBF-PID温度控制算法提升热封效果及效率,运用机器视觉系统采集预制袋特征数据,经图像处理实... 为满足异形医疗试板热封设备的精度及快速需求,研发一种多品种、高精度、高效率的热封包装控制系统。分析了包装机的工艺流程和控制要求,采用RBF-PID温度控制算法提升热封效果及效率,运用机器视觉系统采集预制袋特征数据,经图像处理实现47种异形试板检测。基于欧姆龙NJ系列运动控制PLC和两种工业以太网的控制方式进行系统硬、软件设计,改进优化了上料、装袋、热封、检测、出料等运动过程,开发了人机交互界面实现装置和生产状态的可视化。经过设备投产验证,该系统在高温、振动的工作环境中运行稳定,平均包装速度高达1806个/h,平均合格率高达98.1%,平均温度误差仅±0.88℃,其可靠性和准确性显著提升。 展开更多
关键词 医疗试板包装机 RBF-PID 多品种 机器视觉
下载PDF
基于自适应聚合循环递归的稠密点云重建网络 被引量:1
10
作者 王江安 黄乐 +2 位作者 庞大为 秦林珍 梁温茜 《图学学报》 CSCD 北大核心 2024年第1期230-239,共10页
为了解决弱纹理重建难、资源消耗大和重建时间长等问题,提出了一种基于自适应聚合循环递归卷积的多阶段稠密点云重建网络,即A2R2-MVSNet(adaptive aggregation recurrent recursive multi view stereo net)。该方法首先引入一种基于多... 为了解决弱纹理重建难、资源消耗大和重建时间长等问题,提出了一种基于自适应聚合循环递归卷积的多阶段稠密点云重建网络,即A2R2-MVSNet(adaptive aggregation recurrent recursive multi view stereo net)。该方法首先引入一种基于多尺度循环递归残差的特征提取模块,聚合上下文语义信息,以解决弱纹理或无纹理区域特征提取难的问题。在代价体正则化部分,提出一种残差正则化模块,该模块在略微增加内存消耗的前提下,提高了3D CNN提取和聚合上下文语意的能力。实验结果表明,提出的方法在DTU数据集上的综合指标排名靠前,在重建细节上有着更好的体现,且在BlendedMVS数据集上生成了不错的深度图和点云结果,此外网络还在自采集的大规模高分辨率数据集上进行了泛化测试。归功于由粗到细的多阶段思想和我们提出的模块,网络在生成高准确性和完整性深度图的同时,还能进行高分辨率重建以适用于实际问题。 展开更多
关键词 深度学习 计算机视觉 三维重建 稠密重建 多视图立体 递归神经网络
下载PDF
语义增强的多视立体视觉方法
11
作者 韩燮 王若蓝 赵融 《计算机技术与发展》 2024年第3期41-48,共8页
针对在基于深度学习技术的特征提取网络中,深层次的卷积神经网络提取的特征缺乏低级语义信息的问题,该文提出了语义增强的多视立体视觉方法。首先,提出了一种ConvLSTM(Convolutional Long Short-Term Memory)语义聚合网络,通过使用ConvL... 针对在基于深度学习技术的特征提取网络中,深层次的卷积神经网络提取的特征缺乏低级语义信息的问题,该文提出了语义增强的多视立体视觉方法。首先,提出了一种ConvLSTM(Convolutional Long Short-Term Memory)语义聚合网络,通过使用ConvLSTM网络结构,对多个卷积层提取的特征图进行预测,得到融合每层语义信息的特征图,有助于在空间上层层抽取图像的高级特征时,利用长短期记忆神经网络结构的记忆功能来增强高层特征图中的低级语义信息,提高了弱纹理区域的重建效果,提高了3D重建的鲁棒性和完整性;其次,提出了一种可见性网络,在灰度图的基础上,通过突出特征图上可见区域的特征,加深了可见区域在特征图中的影响,有助于提高三维重建效果;最后,提取图像的纹理信息,并进入ConvLSTM语义聚合网络提取深层次特征,提高了弱纹理区域的重建效果。与主流的多视立体视觉重建方法相比,重建效果较好。 展开更多
关键词 三维重建 深度学习 多视立体视觉 特征提取 语义聚合网络
下载PDF
涉水视觉
12
作者 李学龙 《电子学报》 EI CAS CSCD 北大核心 2024年第4期1041-1082,共42页
地球表面有约71%的面积被江河湖海等水体覆盖,陆地上的成像也会受到云雪雨雾等水体影响,但是,当前常见的机器视觉科研工作和应用系统基本只围绕空气和真空介质中的视觉任务展开,涉及不同形态水体的视觉工作没有得到系统的研究.涉水视觉(... 地球表面有约71%的面积被江河湖海等水体覆盖,陆地上的成像也会受到云雪雨雾等水体影响,但是,当前常见的机器视觉科研工作和应用系统基本只围绕空气和真空介质中的视觉任务展开,涉及不同形态水体的视觉工作没有得到系统的研究.涉水视觉(water-related vision)作为涉水光学技术在视觉领域的具象化体现,重点研究光与水的物质相互作用及跨介质传播过程中,涉水视觉影像信号智能处理与分析方面的科学问题,以及先进智能涉水视觉装备研制方面的工程技术问题.本文从“为什么大海是蓝色的?”这一具有普适意义的问题出发,系统介绍了水对光的吸收、散射、衰减作用机理,对涉水视觉任务造成的影响,以及现有的涉水图像处理与解析方法.本文基于水体光学特性及成像退化机理,介绍了团队在探索涉水成像和图像解析等涉水视觉关键技术及装备方面的成果,先后研制了全海深超高清相机“海瞳”、全海深3D相机、全海深高清摄像机等,形成了从色彩、强度、偏振、光谱等全方位、体系化的水下观测解析装备研制能力,填补了我国全海深光学视觉技术的空白,推动了我国涉水视觉领域技术的升级,应用价值和社会效益显著. 展开更多
关键词 涉水视觉 涉水光学 多模态认知计算 机器视觉 图像视频信号处理 地外海洋
下载PDF
光学运动捕捉实验中参考相机的选择方法研究
13
作者 杜海 孟娟 +1 位作者 熊伟 崔丽飞 《实验科学与技术》 2024年第5期7-13,共7页
针对运动捕捉实验过程中多目视觉系统的标定优化问题,通过对摄像机参数估计过程的误差分析,探索了参考相机的选择对于光束平差迭代计算的影响,并在此基础上提出了一种Q值评测方法,该方法运用有权无向图获得相机节点之间的最短连通路径,... 针对运动捕捉实验过程中多目视觉系统的标定优化问题,通过对摄像机参数估计过程的误差分析,探索了参考相机的选择对于光束平差迭代计算的影响,并在此基础上提出了一种Q值评测方法,该方法运用有权无向图获得相机节点之间的最短连通路径,利用反投影误差和均方差的加权平均值来评估参考相机选择的合理性。在实验中,使用了多台摄像机组成多目视觉系统对所提出的参考相机选择方法进行了验证。实验结果表明,所提出的Q值评测方法是有效的,可进一步提高系统标定的精度,对运动测试实验精度控制具有重要的参考价值。 展开更多
关键词 运动捕捉 多目视觉系统 无向图 摄像机标定 光束平差
下载PDF
一种密集多尺度特征引导代价聚合的改进立体匹配网络
14
作者 张博 张美灵 +1 位作者 李雪 朱磊 《西安工程大学学报》 CAS 2024年第1期121-130,共10页
针对目前立体匹配算法在重复纹理、无纹理、边缘等不适定性区域仍存在匹配不准确的问题,提出了一种基于PSMNet的密集多尺度特征引导代价聚合的立体匹配算法—DGNet(Dense multi-scale features Guided aggregation Network)。首先,基于... 针对目前立体匹配算法在重复纹理、无纹理、边缘等不适定性区域仍存在匹配不准确的问题,提出了一种基于PSMNet的密集多尺度特征引导代价聚合的立体匹配算法—DGNet(Dense multi-scale features Guided aggregation Network)。首先,基于密集连接空洞空间金字塔池化结构设计了密集多尺度特征提取模块,该模块利用不同膨胀率的空洞卷积提取不同尺度的区域级特征,并通过密集连接方式有效整合不同尺度的图像特征,使网络捕获丰富的上下文关系;其次,在每个视差等级下将左右特征图串联形成初始代价体,再提出密集多尺度特征引导代价聚合结构,在聚合代价体的同时自适应融合代价体和密集多尺度特征,从而使后续的解码层在多尺度上下文信息的引导下解码出更加精确和高分辨率的几何信息;最后,将全局优化后的高分辨率代价体送入视差回归模块以获得视差图。实验结果表明:所提算法在KITTI 2015和KITTI 2012数据集上的误匹配率分别降至1.76%和1.24%,SceneFlow数据集上的端点误差降至0.56 px,与GWCNet、CPOP-Net等先进算法相比,所提算法在不适定区域有明显改善。 展开更多
关键词 双目视觉 立体匹配 密度多尺度特征 自适应融合
下载PDF
基于Bytetrack的多目标跟踪算法在斑马鱼毒性行为识别中的应用 被引量:2
15
作者 赵海翔 崔鸿武 +4 位作者 黄桢铭 王磊 李皓 崔正国 曲克明 《渔业科学进展》 CSCD 北大核心 2024年第2期136-149,共14页
利用计算机视觉技术识别斑马鱼(Danio rerio)在不同污染物暴露下的行为变化是水质毒性评价的常用方法之一,但传统方法存在效率低、面对遮挡和复杂环境时性能差等缺陷。针对这些问题,本研究使用基于Bytetrack的多目标跟踪算法追踪斑马鱼... 利用计算机视觉技术识别斑马鱼(Danio rerio)在不同污染物暴露下的行为变化是水质毒性评价的常用方法之一,但传统方法存在效率低、面对遮挡和复杂环境时性能差等缺陷。针对这些问题,本研究使用基于Bytetrack的多目标跟踪算法追踪斑马鱼在4种污染物(Zn、Pb、Cr和苯酚)暴露2 h后的行为变化,对斑马鱼在4种浓度梯度中的平均速度、最大速度、最低速度、平均碰撞次数和行为轨迹等指标进行分析。结果显示,算法的追踪精度、漏检率和检测时间(每300帧)分别能达到90.26%、16.33%和0.19 min,检测时间和精度相比于传统目标检测方法有较大提升。同时,根据污染物不同,该方法能准确识别特定污染物环境中斑马鱼相应的运动状态及轨迹变化,可实现精确识别和实时响应,在鱼类毒性行为识别领域具有重要参考意义。 展开更多
关键词 计算机视觉 多目标跟踪 斑马鱼 行为分析
下载PDF
基于改进DDNet的皮带输送机位移故障诊断研究
16
作者 高飞 《计算机测量与控制》 2024年第8期47-54,共8页
针对煤矿带式输送机皮带位移故障诊断中存在局限性大、耗时长的问题,将故障数据进行多源异构处理,并在数据处理的基础上将边缘检测算法与深度细节网络,构建了一种结合边缘检测算法与改进深度细节网络的多源异构数据故障诊断模型;首先利... 针对煤矿带式输送机皮带位移故障诊断中存在局限性大、耗时长的问题,将故障数据进行多源异构处理,并在数据处理的基础上将边缘检测算法与深度细节网络,构建了一种结合边缘检测算法与改进深度细节网络的多源异构数据故障诊断模型;首先利用边缘检测算法提取输送机图像中的边缘特征,然后结合多源异构数据,并通过改进后的深度细节网络进行故障识别,并构建故障诊断模型;结果表明检测模型在皮带边缘图像数据处理的检测准确率平均值为95.27%,比目标检测算法和K最邻近分类算法的准确率高出了5.34%和10.21%;同时检测模型的图像数据查全率平均值为93.46%,比目标检测算法和K最邻近分类算法的查全率高出了4.09%和7.18%;这说明研究构建的多源异构数据故障诊断模型能够显著提升皮带位移检测的可靠性和鲁棒性,具有重要的研究价值和实际应用前景。 展开更多
关键词 DDNet网络 皮带输送机 机器视觉模块 多源异构数据 位移故障
下载PDF
基于改进YOLOX与多级数据关联的行人多目标跟踪算法研究 被引量:2
17
作者 韩锟 彭晶莹 《铁道科学与工程学报》 EI CAS CSCD 北大核心 2024年第1期94-105,共12页
目标跟踪是计算机视觉领域的基本问题,行人多目标跟踪在智能监控、智慧交通等多个领域有着广泛的应用前景。然而实际跟踪场景中存在频繁遮挡、尺度变化等情况,给多目标跟踪算法带来了极大的挑战。为了进一步提升跟踪精度,在DeepSORT的... 目标跟踪是计算机视觉领域的基本问题,行人多目标跟踪在智能监控、智慧交通等多个领域有着广泛的应用前景。然而实际跟踪场景中存在频繁遮挡、尺度变化等情况,给多目标跟踪算法带来了极大的挑战。为了进一步提升跟踪精度,在DeepSORT的基础上,提出一种基于改进YOLOX与多级数据关联的行人多目标跟踪算法。对于检测器,为了增强网络的特征表达能力,提高检测精度,在YOLOX骨架网络与颈部网络分别引入ECA通道注意力模块与ASFF自适应特征融合模块。对于身份识别特征,为了减少数据关联步骤的错误匹配数量,提高跟踪效率,使用轻量的OSNet重识别网络与NSA卡尔曼滤波获取目标特征。对于数据关联,为了减少身份切换次数,避免目标丢失,将检测与跟踪都进行分类处理,使用不同的相似性计算方法,实现基于检测置信度与轨迹状态的多级数据关联。实验结果表明:与改进前YOLOX与DeepSORT简单结合的算法相比,在YOLOX中引入ECA模块与ASFF模块使误检数量大幅降低,使用YOLOX-s模型时降幅可达17%;结合OSNet模型与NSA卡尔曼滤波的特征提取方法能提高跟踪稳定性,IDF1指标提高0.77%,IDSW减少947;基于检测置信度与轨迹状态的多级数据关联算法可以明显改善跟踪性能,MOTA指标提升3.36%。算法最终在MOT17与MOT20测试集上的MOTA达80.4%与77.7%,IDF1达78.4%与76.7%。提出的行人多目标跟踪方法相较于其他先进算法在跟踪精度与跟踪速度上达到更好的平衡,可为工业上在线行人多目标跟踪应用提供参考。 展开更多
关键词 多目标跟踪 目标检测 注意力机制 数据关联 计算机视觉
下载PDF
ViT和注意力融合的类别不均衡PCB缺陷检测方法
18
作者 陈俊英 李朝阳 +1 位作者 席月芸 刘冲 《仪器仪表学报》 EI CAS CSCD 北大核心 2024年第4期294-306,共13页
针对实际环境下印刷电路板(PCB)缺陷样本难以收集造成的数据长尾分布和检测精度低以及ViT用于检测时计算复杂度高等问题,提出多尺度ViT特征提取和注意力特征融合的端到端PCB缺陷检测算法。首先结合ViT和部分卷积构建多尺度特征提取网络... 针对实际环境下印刷电路板(PCB)缺陷样本难以收集造成的数据长尾分布和检测精度低以及ViT用于检测时计算复杂度高等问题,提出多尺度ViT特征提取和注意力特征融合的端到端PCB缺陷检测算法。首先结合ViT和部分卷积构建多尺度特征提取网络,利用层级多头注意力对不同尺度的特征图执行自适应的注意力操作,使网络能够更好地捕捉局部和全局信息进而增强其特征提取能力,部分卷积可以降低计算开销。其次,基于能量空域抑制的无参数注意力机制将多尺度特征有效融合,提升网络融合特征图的表达能力。最后,引入对类别不均衡敏感的分类函数对网络的损失函数进行改进,增强网络对类别不平衡数据的拟合程度,提高网络的泛化能力。在3种不同类型的公开PCB数据集上的实验结果表明,所提出的检测算法在PCB表面缺陷数据集的平均精度均值(mAP)均有提升,分别为99.13%、98.67%,99.82%;在类别不均衡的PCB缺陷检测任务上,相较于改进前方法,mAP提升了11.94%,网络检测速度达到25 FPS,为PCB缺陷的检测提供了一种快速、有效的方法。 展开更多
关键词 缺陷检测 印刷电路板 vision Transformer 注意力机制 多尺度特征提取
下载PDF
中厚板多层多道焊视觉测量与工艺规划
19
作者 王天琪 张树浩 +1 位作者 龙斌 王克宽 《天津工业大学学报》 CAS 北大核心 2024年第3期75-81,共7页
针对中厚板多层多道焊的焊道测量问题,提出利用焊缝检测和焊道尺寸视觉测量的信息融合自适应微调焊枪位置的方法。首先基于结构光视觉传感器系统采集焊缝图像,在典型图像处理算法的基础上,结合FROSAC提取算法提取焊缝特征信息;将提取到... 针对中厚板多层多道焊的焊道测量问题,提出利用焊缝检测和焊道尺寸视觉测量的信息融合自适应微调焊枪位置的方法。首先基于结构光视觉传感器系统采集焊缝图像,在典型图像处理算法的基础上,结合FROSAC提取算法提取焊缝特征信息;将提取到的特征点进行坐标转换,采用视觉测量获得焊道轮廓和尺寸信息,来修正机器人的运动路径;根据焊缝特征信息分析工艺参数对焊道成型的影响,确定焊道层数、各焊道的工艺参数以及焊枪的偏移量,完成多层多道焊接工艺规划;最后基于搭建的机器人焊接视觉系统在12 mm母材上进行V形坡口多层多道焊接试验。结果表明:该方法下坡口填充良好,焊道尺寸平均测量误差小于0.2 mm,满足多层多道焊接工业应用需求。 展开更多
关键词 多层多道规划 结构光视觉传感器 三维检测 FROSAC算法 焊接工艺参数
下载PDF
基于多维投影时空事件帧的动态视觉传感手势识别
20
作者 康来 张亚坤 《系统仿真学报》 CAS CSCD 北大核心 2024年第3期649-658,共10页
基于视觉的手势识别是虚拟现实、游戏仿真等领域常用的人机交互手段。在实际应用中,手势动作快速变化将导致传统RGB相机或深度相机成像模糊,给手势识别带来巨大挑战。针对上述问题,利用动态视觉传感器捕捉高速手势运动信息,提出一种基... 基于视觉的手势识别是虚拟现实、游戏仿真等领域常用的人机交互手段。在实际应用中,手势动作快速变化将导致传统RGB相机或深度相机成像模糊,给手势识别带来巨大挑战。针对上述问题,利用动态视觉传感器捕捉高速手势运动信息,提出一种基于多维投影时空事件帧(spatiotemporal event frame,STEF)的动态视觉数据手势识别方法。将时空信息嵌入到数据投影面融合形成多维投影时空事件帧,克服现有动态视觉信息事件帧表达方法时域信息丢失的局限性,提升动态视觉传感数据的特征表达能力。在此基础上,采用先进的脉冲神经网络对时空事件帧进行分类实现手势识别。在公开数据集上的识别精度达到96.67%,性能优于同类方法,表明该方法可显著提升动态视觉传感数据手势识别准确率。 展开更多
关键词 动态视觉传感器 手势识别 多维投影 时空事件帧 脉冲神经网络
下载PDF
上一页 1 2 41 下一页 到第
使用帮助 返回顶部