在自动驾驶场景下的3D目标检测任务中,探索毫米波雷达数据作为RGB图像输入的补充正成为多模态融合的新兴趋势。然而,现有的毫米波雷达-相机融合方法高度依赖于相机的一阶段检测结果,导致整体性能不够理想。本文提供了一种不依赖于相机...在自动驾驶场景下的3D目标检测任务中,探索毫米波雷达数据作为RGB图像输入的补充正成为多模态融合的新兴趋势。然而,现有的毫米波雷达-相机融合方法高度依赖于相机的一阶段检测结果,导致整体性能不够理想。本文提供了一种不依赖于相机检测结果的鸟瞰图下双向融合方法(BEV-radar)。对于来自不同域的两个模态的特征,BEV-radar设计了一个双向的基于注意力的融合策略。具体地,以基于BEV的3D目标检测方法为基础,我们的方法使用双向转换器嵌入来自两种模态的信息,并根据后续的卷积块强制执行局部空间关系。嵌入特征后,BEV特征在3D对象预测头中解码。我们在nu Scenes数据集上评估了我们的方法,实现了48.2 m AP和57.6 NDS。结果显示,与仅使用相机的基础模型相比,不仅在精度上有所提升,特别地,速度预测误差项有了相当大的改进。代码开源于https://github.com/Etah0409/BEV-Radar。展开更多
文摘在自动驾驶场景下的3D目标检测任务中,探索毫米波雷达数据作为RGB图像输入的补充正成为多模态融合的新兴趋势。然而,现有的毫米波雷达-相机融合方法高度依赖于相机的一阶段检测结果,导致整体性能不够理想。本文提供了一种不依赖于相机检测结果的鸟瞰图下双向融合方法(BEV-radar)。对于来自不同域的两个模态的特征,BEV-radar设计了一个双向的基于注意力的融合策略。具体地,以基于BEV的3D目标检测方法为基础,我们的方法使用双向转换器嵌入来自两种模态的信息,并根据后续的卷积块强制执行局部空间关系。嵌入特征后,BEV特征在3D对象预测头中解码。我们在nu Scenes数据集上评估了我们的方法,实现了48.2 m AP和57.6 NDS。结果显示,与仅使用相机的基础模型相比,不仅在精度上有所提升,特别地,速度预测误差项有了相当大的改进。代码开源于https://github.com/Etah0409/BEV-Radar。