期刊文献+
共找到321篇文章
< 1 2 17 >
每页显示 20 50 100
基于KINECT FUSION的室内目标三维重建系统
1
作者 杜航 牟莉 《计算机与数字工程》 2023年第6期1256-1259,1265,共5页
三维重建是计算机科学领域研究的热点,从一门尖端且难以摸索的学科到逐步与大众市场接轨,三维重建技术渐渐地融入到人们的工作、学习和生活当中。以微软公司推出的Kinect传感器为代表的深度图像采集设备被普遍采用到三维重建领域,基于Ki... 三维重建是计算机科学领域研究的热点,从一门尖端且难以摸索的学科到逐步与大众市场接轨,三维重建技术渐渐地融入到人们的工作、学习和生活当中。以微软公司推出的Kinect传感器为代表的深度图像采集设备被普遍采用到三维重建领域,基于Kinect Fusion的三维重建技术在该领域得到了广泛的应用。Kinect Fusion是一种操作简便、速度较快且成本低廉的三维重建方法,使用Kinect传感器作为采集深度图像的输入设备,经过对原始深度图像的去噪、平滑以及表面重建等一系列方法,最终可以获得目标物体在三维空间中的点云模型。 展开更多
关键词 Kinect fusion 三维重建 深度图像 点云
下载PDF
基于跨模态注意力融合的煤炭异物检测方法 被引量:1
2
作者 曹现刚 李虎 +3 位作者 王鹏 吴旭东 向敬芳 丁文韬 《工矿自动化》 CSCD 北大核心 2024年第1期57-65,共9页
为解决原煤智能化洗选过程中煤流中夹杂的异物对比度低、相互遮挡导致异物图像检测时特征提取不充分的问题,提出了一种基于跨模态注意力融合的煤炭异物检测方法。通过引入Depth图像构建RGB图像与Depth图像的双特征金字塔网络(DFPN),采... 为解决原煤智能化洗选过程中煤流中夹杂的异物对比度低、相互遮挡导致异物图像检测时特征提取不充分的问题,提出了一种基于跨模态注意力融合的煤炭异物检测方法。通过引入Depth图像构建RGB图像与Depth图像的双特征金字塔网络(DFPN),采用浅层的特征提取策略提取Depth图像的低级特征,用深度边缘与深度纹理等基础特征辅助RGB图像深层特征,以有效获得2种特征的互补信息,从而丰富异物特征的空间与边缘信息,提高检测精度;构建了基于坐标注意力与改进空间注意力的跨模态注意力融合模块(CAFM),以协同优化并融合RGB特征与Depth特征,增强网络对特征图中被遮挡异物可见部分的关注度,提高被遮挡异物检测精度;使用区域卷积神经网络(R-CNN)输出煤炭异物的分类、回归与分割结果。实验结果表明:在检测精度方面,该方法的AP相较两阶段模型中较优的Mask transfiner高3.9%;在检测效率方面,该方法的单帧检测时间为110.5 ms,能够满足异物检测实时性需求。基于跨模态注意力融合的煤炭异物检测方法能够以空间特征辅助色彩、形状与纹理等特征,准确识别煤炭异物之间及煤炭异物与输送带之间的差异,从而有效提高对复杂特征异物的检测精度,减少误检、漏检现象,实现复杂特征下煤炭异物的精确检测与像素级分割。 展开更多
关键词 煤炭异物检测 实例分割 双特征金字塔网络 跨模态注意力融合 depth图像 坐标注意力 改进空间注意力
下载PDF
BEV特征下激光雷达和单目相机融合的目标检测算法研究
3
作者 李文礼 喻飞 +2 位作者 石晓辉 唐远航 杨果 《计算机工程与应用》 CSCD 北大核心 2024年第11期182-193,共12页
为提高自动驾驶汽车对周围目标物的检测精度,提出了一种激光雷达和单目图像数据在鸟瞰图特征上融合的目标物检测算法(monocular-bird’s eye view fusion,Mono-BEVFusion)。为构建相机BEV特征,搭建了简单高效的深度预测网络预测相机特... 为提高自动驾驶汽车对周围目标物的检测精度,提出了一种激光雷达和单目图像数据在鸟瞰图特征上融合的目标物检测算法(monocular-bird’s eye view fusion,Mono-BEVFusion)。为构建相机BEV特征,搭建了简单高效的深度预测网络预测相机特征的深度,基于显式监督的方法用深度真值对其进行监督。构建激光雷达BEV特征时,将激光点云体素化为柱状网格转化到BEV特征下,设计BEV特征融合网络将激光点云BEV特征和相机BEV特征融合,将融合特征输入到目标检测框架得到目标物(汽车、行人和骑行人)检测结果。利用KITTI数据集和实车路采数据对Mono-BEVFusion融合算法进行评估,实验结果表明该算法相较于现有融合算法综合平均精度提升了2.90个百分点,其中汽车类和行人类单项检测精度分别提升3.38个百分点和4.13个百分点。Mono-BEVFusion融合算法对遮挡目标或者距离较远的目标有较稳定的检测效果,能够有效避免单传感器的漏检现象,具有较好的实际应用价值。 展开更多
关键词 自动驾驶汽车 目标物检测算法 深度预测 BEV特征融合 KITTI数据集
下载PDF
基于区域预推荐和特征富集的SOD R-CNN交通标志检测网络
4
作者 周楝淞 邵发明 +3 位作者 杨洁 彭泓力 李赛野 孙夏声 《信息安全与通信保密》 2024年第10期115-126,共12页
基于区域的快速卷积神经网络存在资源的浪费和无法有效应对小目标检测的问题,提出基于高可能性区域推荐网络及特征富集的区域的小目标检测卷积神经网络架构。首先,采用区域推荐网络对锚点区域进行筛选,节约分类阶段的处理时间,提高了系... 基于区域的快速卷积神经网络存在资源的浪费和无法有效应对小目标检测的问题,提出基于高可能性区域推荐网络及特征富集的区域的小目标检测卷积神经网络架构。首先,采用区域推荐网络对锚点区域进行筛选,节约分类阶段的处理时间,提高了系统的处理速度。其次,为了解决无法有效检测小目标的问题,提出了融合视觉几何组16层网络的第三、第四、第五层特征信息的方法来强化特征表达的策略。最后,提出次要感兴趣区域的概念,将交通标志的上下文信息融合到目标特征表达中。这些策略提高了目标检测的准确率和速度。 展开更多
关键词 目标检测 深度特征 感兴趣区域 特征融合 锚点
下载PDF
基于激光雷达与相机融合的树干检测方法 被引量:1
5
作者 刘洋 冀杰 +3 位作者 赵立军 冯伟 贺庆 王小康 《西南大学学报(自然科学版)》 CSCD 北大核心 2024年第2期183-196,共14页
针对传统传感器在树干检测中的局限性和单一性,提出一种基于激光雷达与相机融合的树干检测方法.首先,利用深度图对激光雷达点云进行处理,实现地面点云去除以及树干点云聚类,并在聚类中设置横、纵向自适应阈值,去除聚类中墙体、杂草、树... 针对传统传感器在树干检测中的局限性和单一性,提出一种基于激光雷达与相机融合的树干检测方法.首先,利用深度图对激光雷达点云进行处理,实现地面点云去除以及树干点云聚类,并在聚类中设置横、纵向自适应阈值,去除聚类中墙体、杂草、树叶等多余信息;然后,利用YOLOv3算法对相机图像进行分析,基于树干特征实现目标识别并返回检测框与类别信息;最后,基于交并比方法(IoU)对2种传感器的检测结果进行融合,识别树干并返回其三维信息与位置信息.以无人割草机为载体开展场地测试,实验结果表明:融合算法的树干检测准确率在93.1%左右,树干定位横、纵向平均误差分别为0.075 m和0.078 m,能够满足无人割草机的树干检测要求,为智能农机的环境感知提供了一种新的方法. 展开更多
关键词 树干检测 激光雷达 相机 深度图 传感器融合
下载PDF
基于多尺度深度图自适应融合的单目深度估计 被引量:1
6
作者 郑游 王磊 杨紫文 《武汉工程大学学报》 CAS 2024年第1期85-90,共6页
深度估计网络通常具有较多的网络层数,图像特征在网络编码和解码过程中会丢失大量信息,因此预测的深度图缺乏对象结构细节且边缘轮廓不清晰。本文提出了一种基于多尺度深度图自适应融合的单目深度估计方法,可有效保留对象的细节和几何... 深度估计网络通常具有较多的网络层数,图像特征在网络编码和解码过程中会丢失大量信息,因此预测的深度图缺乏对象结构细节且边缘轮廓不清晰。本文提出了一种基于多尺度深度图自适应融合的单目深度估计方法,可有效保留对象的细节和几何轮廓。首先,引入压缩与激励残差网络(SE-ResNet),利用注意力机制对不同通道的特征进行编码,从而保留远距离平面深度图的更多细节信息。然后,利用多尺度特征融合网络,融合不同尺度的特征图,得到具有丰富几何特征和语义信息的特征图。最后,利用多尺度自适应深度融合网络为不同尺度特征图生成的深度图添加可学习的权重参数,对不同尺度的深度图进行自适应融合,增加了预测深度图中的目标信息。本文方法在NYU Depth V2数据集上预测的深度图具有更高的准确度和丰富的物体信息,绝对相对误差为0.115,均方根误差为0.525,精确度最高达到99.3%。 展开更多
关键词 单目深度估计 注意力机制 多尺度特征融合网络 多尺度深度自适应融合网络
下载PDF
多模态融合的三维语义分割算法研究
7
作者 晁琪 赵燕东 刘圣波 《红外与激光工程》 EI CSCD 北大核心 2024年第5期253-267,共15页
如何高效提取稠密感知的图像特征信息以及真实三维感知的点云特征信息并充分利用其各自优势进行信息互补是提升三维目标识别的关键。本文提出了一种图像和点云融合的多模态框架用于三维语义分割任务。图像与点云特征提取分支相互独立,... 如何高效提取稠密感知的图像特征信息以及真实三维感知的点云特征信息并充分利用其各自优势进行信息互补是提升三维目标识别的关键。本文提出了一种图像和点云融合的多模态框架用于三维语义分割任务。图像与点云特征提取分支相互独立,设计深度估计融合网络用于图像分支,将稠密感知的图像语义信息与真值显式监督的深度特征信息有效融合,对点云的无序及稀疏性进行补偿。并改进体素特征提取方法,减少点云体素化带来的信息损失。图像、点云分支提取多尺度特征后通过动态特征融合模块提升网络对关键特征的提取能力,更有效的获取全局特征。同时本文提出点级的多模态融合数据增强策略,提升样本多样性的同时有效缓解样本不均衡问题。在Pandaset公开数据集上进行对比实验,本文的多模态融合框架展现出更优的性能和更强的鲁棒性,尤其在小样本小目标上性能提升更为明显。 展开更多
关键词 图像点云融合 深度估计融合 体素特征 语义分割 数据增强
下载PDF
基于锚点的快速三维手部关键点检测算法
8
作者 秦晓飞 何文 +2 位作者 班东贤 郭宏宇 于景 《电子科技》 2024年第4期77-86,共10页
在人机协作任务中,手部关键点检测为机械臂提供目标点坐标,A2J(Anchor-to-Joint)是具有代表性的一种利用锚点进行关键点检测的方法。A2J以深度图为输入,可实现较好的检测效果,但对全局特征获取能力不足。文中设计了全局-局部特征融合模... 在人机协作任务中,手部关键点检测为机械臂提供目标点坐标,A2J(Anchor-to-Joint)是具有代表性的一种利用锚点进行关键点检测的方法。A2J以深度图为输入,可实现较好的检测效果,但对全局特征获取能力不足。文中设计了全局-局部特征融合模块(Global-Local Feature Fusion,GLFF)对骨干网络浅层和深层的特征进行融合。为了提升检测速度,文中将A2J的骨干网络替换为ShuffleNetv2并对其进行改造,用5×5深度可分离卷积替换3×3深度可分离卷积,增大感受野,有效提升了骨干网络对全局特征的提取能力。文中在锚点权重估计分支引入高效通道注意力模块(Efficient Channel Attention,ECA),提升了网络对重要锚点的关注度。在主流数据集ICVL和NYU上进行的训练和测试结果表明,相比于A2J,文中所提方法的平均误差分别降低了0.09 mm和0.15 mm。在GTX1080Ti显卡上实现了151 frame·s^(-1)的检测速率,满足人机协作任务对于实时性的要求。 展开更多
关键词 人机协作 三维手部关键点检测 锚点 深度图 全局-局部特征融合 ShuffleNetv2 深度可分离卷积 高效通道注意力
下载PDF
MCFNet:融合上下文信息的多尺度视网膜动静脉分类网络
9
作者 崔颖 朱佳 +2 位作者 高山 陈立伟 张广 《应用科技》 CAS 2024年第2期105-111,共7页
针对由于血管类间具有强相似性造成的动静脉错误分类问题,提出了一种新的融合上下文信息的多尺度视网膜动静脉分类网络(multi-scale retinal artery and vein classification network,MCFNet),该网络使用多尺度特征(multi-scale feature... 针对由于血管类间具有强相似性造成的动静脉错误分类问题,提出了一种新的融合上下文信息的多尺度视网膜动静脉分类网络(multi-scale retinal artery and vein classification network,MCFNet),该网络使用多尺度特征(multi-scale feature,MSF)提取模块及高效的全局上下文信息融合(efficient global contextual information aggregation,EGCA)模块结合U型分割网络进行动静脉分类,抑制了倾向于背景的特征并增强了血管的边缘、交点和末端特征,解决了段内动静脉错误分类问题。此外,在U型网络的解码器部分加入3层深度监督,使浅层信息得到充分训练,避免梯度消失,优化训练过程。在2个公开的眼底图像数据集(DRIVE-AV,LES-AV)上,与3种现有网络进行方法对比,该模型的F1评分分别提高了2.86、1.92、0.81个百分点,灵敏度分别提高了4.27、2.43、1.21个百分点,结果表明所提出的模型能够很好地解决动静脉分类错误的问题。 展开更多
关键词 多类分割 动静脉分类 视网膜图像 多尺度特征提取 血管分割 全局信息融合 卷积神经网络 深度监督
下载PDF
复杂场景下自适应注意力机制融合实时语义分割
10
作者 陈丹 刘乐 +2 位作者 王晨昊 白熙茹 王子晨 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第8期3334-3342,共9页
实现高准确度和低计算负担是卷积神经网络(CNN)实时语义分割面临的严峻挑战。针对复杂城市街道场景目标种类众多、光照变化大等特点,该文设计了一种高效的实时语义分割自适应注意力机制融合网络(AAFNet)分别提取图像空间细节和语义信息... 实现高准确度和低计算负担是卷积神经网络(CNN)实时语义分割面临的严峻挑战。针对复杂城市街道场景目标种类众多、光照变化大等特点,该文设计了一种高效的实时语义分割自适应注意力机制融合网络(AAFNet)分别提取图像空间细节和语义信息,再经过特征融合网络(FFN)获得准确语义图像。AAFNet采用扩展的深度可分离卷积(DDW)可增大语义特征提取感受野,提出自适应平均池化(Avp)和自适应最大池化(Amp)构成自适应注意力机制融合模块(AAFM),可细化目标边缘分割效果并降低小目标的漏分率。最后在复杂城市街道场景Cityscapes和CamVid数据集上分别进行了语义分割实验,所设计的AAFNet以32帧/s(Cityscapes)和52帧/s(CamVid)的推理速度获得73.0%和69.8%的平均分割精度(mIoU),且与扩展的空间注意力网络(DSANet)、多尺度上下文融合网络(MSCFNet)以及轻量级双边非对称残差网络(LBARNet)相比,AAFNet平均分割精度最高。 展开更多
关键词 卷积神经网络 复杂城市街道场景 扩展的深度可分离卷积 自适应注意力机制融合 分割精度
下载PDF
基于高深约束与边缘融合的单目3D目标检测
11
作者 浦斌 梁正友 孙宇 《计算机科学》 CSCD 北大核心 2024年第8期192-199,共8页
单目3D目标检测旨在通过单目图像完成3D目标检测,现有的单目3D目标检测算法大多基于经典的2D目标检测算法。针对单目3D目标检测算法中通过直接回归的实例深度估计不准,导致检测精度较差的问题,提出了一种基于高深约束与边缘特征融合的单... 单目3D目标检测旨在通过单目图像完成3D目标检测,现有的单目3D目标检测算法大多基于经典的2D目标检测算法。针对单目3D目标检测算法中通过直接回归的实例深度估计不准,导致检测精度较差的问题,提出了一种基于高深约束与边缘特征融合的单目3D目标检测算法。在实例深度估计方法上采用几何投影关系下的实例3D高度与2D高度计算高深约束,将实例深度的预测转化为对目标的2D高度以及3D高度的预测;针对单目图像存在图像边缘截断目标,采用基于深度可分离卷积的边缘融合模块来加强对边缘目标的特征提取;对于图像中目标的远近造成的目标多尺度问题,设计了基于空洞卷积的多尺度混合注意力模块,增强了对最高层特征图的多尺度特征提取。实验结果表明,所提方法在KITTI数据集上的汽车类别检测精度相比基准模型提升了7.11%,优于当前的方法。 展开更多
关键词 单目3D目标检测 高深约束 边缘融合 多尺度特征 注意力机制
下载PDF
基于真实场景的情绪识别研究
12
作者 熊昆洪 贾贞超 +3 位作者 高峰 文虹茜 卿粼波 高励 《现代计算机》 2024年第1期18-25,共8页
情绪识别研究从实验室环境推进到无约束的真实场景中时面临很多问题。真实场景中不受限制的个体活动和复杂环境使面部图像、语音等单一模态的数据无法可靠获取,并且在真实场景中人们自发的情绪更加微妙,表达强度不大,导致识别难度增加... 情绪识别研究从实验室环境推进到无约束的真实场景中时面临很多问题。真实场景中不受限制的个体活动和复杂环境使面部图像、语音等单一模态的数据无法可靠获取,并且在真实场景中人们自发的情绪更加微妙,表达强度不大,导致识别难度增加。因此,为了更加稳健地识别真实场景中的个体情绪,针对个体活动的特点,设计了特征提取网络充分挖掘面部、骨架、姿态及场景等多模态数据中的情绪信息进行相互补充;同时,关注不同数据间的联系,设计了特征融合模块融合多种特征。网络在具有挑战性的公共空间真实场景的PLPS-E数据集上取得了最佳识别性能,VAD维度情绪识别准确率达到了74.62%、79.15%、87.94%;网络在相对简单的真实场景FABE数据集上也达到了相当的性能,维度V的识别准确率达到了98.39%。实验表明了算法的有效性。 展开更多
关键词 情绪识别 真实场景 多模态 特征深度融合
下载PDF
基于多域信息融合与深度分离卷积的轴承故障诊断网络模型 被引量:3
13
作者 王同 许昕 潘宏侠 《机电工程》 北大核心 2024年第1期22-32,共11页
针对传统卷积神经网络(CNN)对滚动轴承振动信号的故障识别准确率不高这一问题,提出了一种基于多域信息融合结合深度分离卷积(MDIDSC)的轴承故障诊断方法。首先,利用自适应噪声的完全集合经验模态分解(CEEMDAN)算法对轴承振动信号进行了... 针对传统卷积神经网络(CNN)对滚动轴承振动信号的故障识别准确率不高这一问题,提出了一种基于多域信息融合结合深度分离卷积(MDIDSC)的轴承故障诊断方法。首先,利用自适应噪声的完全集合经验模态分解(CEEMDAN)算法对轴承振动信号进行了分解;然后,利用分解出的本征模态函数(IMF)的各个分量构建了多空间状态矩阵,并将该多空间状态矩阵输入该深度分离卷积模型中,进行了卷积训练;同时,在该深度分离卷积模型中添加了残差结构,对数据特征进行了复利用,并对卷积核进行了深度分离,解决了深度模型的网络退化问题;最后,提出了一种空间特征提取方法,对模型参数进行了修剪,采用一种自适应学习率退火方法进行了梯度优化,以避免模型陷入局部最优。研究结果表明:通过对多个轴承故障数据集进行对比分析可知,MDIDSC在轴承故障诊断方面的准确率和稳定性明显优于其他方法,MDIDSC的最高测试准确率为100%,平均测试准确率为99.07%;同时,在测试集中的最大损失和平均损失分别为0.1345和0.0841;该结果表明MDIDSC在轴承故障诊断方面具有一定的优越性。 展开更多
关键词 深度分离卷积 信息融合 参数修剪 残差网络 卷积神经网络 自适应噪声的完全集合经验模态分解 本征模态函数 多域信息融合结合深度分离卷积
下载PDF
特征选择融合和增强的轻量级深度估计方法
14
作者 陈磊 梁正友 孙宇 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2182-2187,共6页
目前大部分的单目深度估计网络存在网络参数庞大,消耗硬件资源多等问题.针对这些问题提出一种特征选择融合和特征增强的轻量级深度估计方法.首先,设计了特征选择融合模块来对编码器输出的多尺度特征进行选择融合,在解码器中融入编码器... 目前大部分的单目深度估计网络存在网络参数庞大,消耗硬件资源多等问题.针对这些问题提出一种特征选择融合和特征增强的轻量级深度估计方法.首先,设计了特征选择融合模块来对编码器输出的多尺度特征进行选择融合,在解码器中融入编码器底层位置特征信息,提高不同尺度特征信息的利用率;其次,设计了一个Sobel特征增强模块来加强模型对场景边界信息的感知,提高场景边界深度信息的估计精度.实验结果表明,该方法的模型参数量在仅有4.2M(M为百万),在NUY Depth V2数据集上取得δ1指标0.823的先进性能.该方法不但兼顾了推理速度和估计精度,而且对场景边缘信息有较强预测能力以及模型有较强鲁棒性. 展开更多
关键词 深度估计 多尺度特征融合 特征增强 编码器解码器 轻量级网络
下载PDF
引入Transformer的道路小目标检测
15
作者 李丽芬 黄如 《计算机工程与设计》 北大核心 2024年第1期95-101,共7页
针对道路场景中检测小目标时漏检率较高、检测精度低的问题,提出一种引入Transformer的道路小目标检测算法。在原YOLOv4算法基础上,对多尺度检测进行改进,把浅层特征信息充分利用起来;设计ICvT(improved convolutional vision transform... 针对道路场景中检测小目标时漏检率较高、检测精度低的问题,提出一种引入Transformer的道路小目标检测算法。在原YOLOv4算法基础上,对多尺度检测进行改进,把浅层特征信息充分利用起来;设计ICvT(improved convolutional vision transformer)模块捕获特征内部的相关性,获得上下文信息,提取更加全面丰富的特征;在网络特征融合部分嵌入改进后的空间金字塔池化模块,在保持较小计算量的同时增加特征图的感受野。实验结果表明,在KITTI数据集上,算法检测精度达到91.97%,与YOLOv4算法相比,mAP提高了2.53%,降低了小目标的漏检率。 展开更多
关键词 小目标检测 深度学习 YOLOv4算法 多尺度检测 TRANSFORMER 空间金字塔池化 特征融合
下载PDF
融合场景深度估计和视觉传达的复杂光照图像虚拟重建
16
作者 柴萍 柴金娣 《激光杂志》 CAS 北大核心 2024年第2期129-134,共6页
复杂光照图像虚拟中受到光照强度不均衡性影响导致重建效果不好,为了提高复杂光照图像虚拟重建效果,提出基于融合场景深度估计和视觉传达的复杂光照图像虚拟重建方法。针对不同场景深度混频光照的相互干扰采用相关匹配降噪方法实现图像... 复杂光照图像虚拟中受到光照强度不均衡性影响导致重建效果不好,为了提高复杂光照图像虚拟重建效果,提出基于融合场景深度估计和视觉传达的复杂光照图像虚拟重建方法。针对不同场景深度混频光照的相互干扰采用相关匹配降噪方法实现图像降噪处理,以光照图像低亮度区域内亮度值中位数作为场景深度的参考值,采用全局特性和局部细节特征拟合的方法实现对复杂光照图像的场景深度检测和视觉跟踪拟合,采用HSV空间特征分解方法实现对不同场景中光照图片亮度通道融合处理,提取场景物体边缘、纹理等细节信息,根据场景深度检测和全局对比度融合下的视觉传达效果实现复杂光照图像虚拟重建。测试结果得知,采用该方法进行复杂光照图像虚拟重建的视觉表达能力较好,重建后的图像细节展示能力较强,能准确重建暗区域内隐藏的图像信息,两个数据集图像的峰值信噪比较高,均方根误差较低,分别为45.63 dB、53.21 dB和0.366、0.265,且重建时长短,仅为1.5 s,具有较强的重建性能。 展开更多
关键词 融合场景深度 视觉传达 复杂光照图像 虚拟重建 细节特征
下载PDF
基于转置注意力的多尺度深度融合单目深度估计
17
作者 程亚子 雷亮 +1 位作者 陈瀚 赵毅然 《计算机与现代化》 2024年第9期121-126,共6页
单目深度估计是计算机视觉领域中一项基础任务,其目标是通过单张图像预测深度图,并获取每个像素位置的深度信息。本文提出一种新的单目深度估计网络结构,旨在进一步提高网络的预测准确性。转置注意力机制在降低参数量和计算量的同时引... 单目深度估计是计算机视觉领域中一项基础任务,其目标是通过单张图像预测深度图,并获取每个像素位置的深度信息。本文提出一种新的单目深度估计网络结构,旨在进一步提高网络的预测准确性。转置注意力机制在降低参数量和计算量的同时引入了自注意力机制,以关注图像中的特定区域,并结合不同通道之间的信息。这种机制能够有效地关注到图像中的细小区域和边缘信息,并进行学习。本文还提出一种改进的转置注意力机制,以更少的参数量保留语义信息。多尺度深度融合根据不同通道提取不同深度特征的特点,计算每个通道的平均深度,以增强模型的深度感知能力。此外,它能够建模垂直距离的长距离关系,有效地分离物体之间的边缘,有助于减少细粒度信息的损失。最后,本文在NYU Depth V2数据集和KITTI数据集上进行实验,验证了所提出模块的有效性,并取得了出色的性能表现。 展开更多
关键词 深度学习 单目深度估计 转置注意力 多尺度深度融合 通道平均深度
下载PDF
融合摄食过程声像特征的鱼类摄食强度量化方法研究
18
作者 郑金存 叶章颖 +4 位作者 赵建 张慧 黄平 覃斌毅 庞毅 《海洋与湖沼》 CAS CSCD 北大核心 2024年第3期577-588,共12页
基于鱼类摄食行为反馈的精准投喂是确保饲料高效利用与降低水体污染的有效手段,针对当前单一传感器难以精确测量鱼群摄食强度的难题,提出一种基于摄食过程声像特征融合的鱼类摄食强度量化方法。首先利用深度图包含的三维空间信息分析水... 基于鱼类摄食行为反馈的精准投喂是确保饲料高效利用与降低水体污染的有效手段,针对当前单一传感器难以精确测量鱼群摄食强度的难题,提出一种基于摄食过程声像特征融合的鱼类摄食强度量化方法。首先利用深度图包含的三维空间信息分析水体表层摄食鱼类数量,设计基于帧间差分运算的深度图能量变化测量系统表征鱼群摄食活跃程度;进而利用近红外光源因水面反射而导致的高亮度饱和点在近红外图中的位置变化测量水体流场的波动程度;同时利用音轨记录仪存储摄食音频。最后通过加权融合方式,综合摄食动态、水体流场变化、摄食音频三类具有不同物理属性的特征信息,精确量化了鱼群摄食强度,总体识别精确度达到97%。本文采用新的成像技术,取得分析速度与分析精度的最佳平衡,为精准投喂提供了一种鲁棒性强、分析速度快的实用方法。 展开更多
关键词 鱼摄食强度 近红外图 深度图 摄食音频 加权融合
下载PDF
基于Depth from Focus的图像三维重建 被引量:7
19
作者 王金岩 史文华 敬忠良 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2007年第2期181-186,共6页
应用改进Laplacian聚焦算子实现序列图像的融合显示,用高斯插值算法得到图像三维重建中的高度图,并设计一种轮廓线算法对高度索引图进行了三维重建;成功地应用于摄像机拍摄序列图像的三维重建,弥补了摄像机物镜焦深范围有限不能采样清... 应用改进Laplacian聚焦算子实现序列图像的融合显示,用高斯插值算法得到图像三维重建中的高度图,并设计一种轮廓线算法对高度索引图进行了三维重建;成功地应用于摄像机拍摄序列图像的三维重建,弥补了摄像机物镜焦深范围有限不能采样清晰大幅图像的不足。理论和实验结果证明,用该方法生成的二维融合图像和三维显示图像,恢复出比较精确的物体表面深度信息,提高了图像的清晰度。 展开更多
关键词 图像融合 图像三维重建 聚焦深度 序列图像
下载PDF
基于时空流特征融合的俯视视角下奶牛跛行自动检测方法
20
作者 代昕 王军号 +4 位作者 张翼 王鑫杰 李晏兴 戴百生 沈维政 《智慧农业(中英文)》 CSCD 2024年第4期18-28,共11页
[目的/意义]奶牛跛行检测是规模化奶牛养殖过程中亟待解决的重要问题,现有方法的检测视角主要以侧视为主。然而,侧视视角存在着难以消除的遮挡问题。本研究主要解决侧视视角下存在的遮挡问题。[方法]提出一种基于时空流特征融合的俯视... [目的/意义]奶牛跛行检测是规模化奶牛养殖过程中亟待解决的重要问题,现有方法的检测视角主要以侧视为主。然而,侧视视角存在着难以消除的遮挡问题。本研究主要解决侧视视角下存在的遮挡问题。[方法]提出一种基于时空流特征融合的俯视视角下奶牛跛行检测方法。首先,通过分析深度视频流中跛行奶牛在运动过程中的位姿变化,构建空间流特征图像序列。通过分析跛行奶牛行走时躯体前进和左右摇摆的瞬时速度,利用光流捕获奶牛运动的瞬时速度,构建时间流特征图像序列。将空间流与时间流特征图像组合构建时空流融合特征图像序列。其次,利用卷积块注意力模块(Convolutional Block Attention Module, CBAM)改进PP-TSMv2 (PaddlePaddle-Temporal Shift Module v2)视频动作分类网络,构建奶牛跛行检测模型Cow-TSM (Cow-Temporal Shift Module)。最后,分别在不同输入模态、不同注意力机制、不同视频动作分类网络和现有方法 4个方面对比,进行奶牛跛行实验,以探究所提出方法的优劣性。[结果和讨论]共采集处理了180段奶牛图像序列数据,跛行奶牛与非跛行奶牛视频段数比例为1∶1,所提出模型识别精度达到88.7%,模型大小为22 M,离线推理时间为0.046 s。与主流视频动作分类模型TSM、PP-TSM、PP-TSMv2、SlowFast和TimesFormer模型相比,综合表现最好。同时,以时空流融合特征图像作为输入时,识别精度分别比单时间模态与单空间模态分别提升12%与4.1%,证明本研究中模态融合的有效性。通过与通道注意力(Squeeze-and-Excitation, SE)、卷积核注意力(Selective Kernel, SK)、坐标注意力(Coordinate Attention, CA)与CBAM不同注意力机制进行消融实验,证明利用CBAM注意力机制构建奶牛跛行检测模型效果最佳。最后,与现有跛行检测方法进行对比,所提出的方法同时具有较好的性能和实用性。[结论]本研究能够避免侧视视角下检测跛行奶牛时出现的遮挡问题,对于减少奶牛跛行发生率、提高牧场经济效益具有重要意义,符合牧场规模化建设的需求。 展开更多
关键词 奶牛跛行检测 时空融合 视频动作分类 深度图像 注意力机制 TSM
下载PDF
上一页 1 2 17 下一页 到第
使用帮助 返回顶部