-
题名面向多模态交互式融合与渐进式优化的三维视觉理解
被引量:1
- 1
-
-
作者
何鸿添
陈晗
刘洋
周礼亮
张敏
雷印杰
-
机构
四川大学电子信息学院
中国科学院光电技术研究所中国科学院光束控制重点实验室
中国电子科技集团公司第十研究所航空电子信息系统技术重点实验室
-
出处
《计算机应用研究》
CSCD
北大核心
2024年第5期1554-1561,共8页
-
基金
国家自然科学基金面上项目(62276176)。
-
文摘
三维视觉理解旨在智能地感知和解释三维场景,实现对物体、环境和动态变化的深入理解与分析。三维目标检测作为其核心技术,发挥着不可或缺的作用。针对当前的三维检测算法对于远距离目标和小目标检测精度较低的问题,提出了一种面向多模态交互式融合与渐进式优化的三维目标检测方法MIFPR。在特征提取阶段,首先引入自适应门控信息融合模块。通过把点云的几何特征融入图像特征中,能够获取对光照变化更有辨别力的图像表示。随后提出基于体素质心的可变形跨模态注意力模块,以驱使图像中丰富的语义特征和上下文信息融合到点云特征中。在目标框优化阶段,提出渐进式注意力模块,通过学习、聚合不同阶段的特征,不断增强模型对于精细化特征的提取与建模能力,逐步优化目标框,以提升对于远距离、小目标的检测精度,进而提高对于视觉场景理解的能力。在KITTI数据集上,所提方法对于pedestrian和cyclist等小目标的检测精度较最优基线有明显提升,证实了该方法的有效性。
-
关键词
三维视觉理解
多模态
交互式融合
渐进式注意力
目标检测
-
Keywords
3D visual understanding
multimodal
interactive fusion
progressive attention
object detection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于距离视图表示与逐点细化结合的点云语义分割方法
- 2
-
-
作者
陈晗
何鸿添
雷印杰
-
机构
四川大学电子信息学院
-
出处
《现代计算机》
2024年第4期16-22,共7页
-
基金
国家自然科学基金面上项目(62276176)。
-
文摘
三维点云语义分割是机器实现环境感知的重要途径。在现有的研究中,基于体素的算法和基于点的算法在面对大规模的点云数据时计算效率低下。而基于距离视图的算法,在对点云进行投影和反投影时会不可避免地造成精度损失。针对上述问题,提出了基于距离视图表示与逐点细化结合的点云语义分割新框架RPNet。充分的实验表明,所提出的方法在三维点云室外场景数据集SemanticKITTI上的平均交并比达到64.2%,推理速度达到58帧/秒,兼顾了高精度和高速度。
-
关键词
语义分割
三维点云
距离视图
逐点细化
-
Keywords
semantic segmentation
3D point cloud
range view
point⁃wise refinement
-
分类号
TN958.98
[电子电信—信号与信息处理]
-