文摘针对单帧RGB-D图像进行物体六自由度位姿估计时,在物体遮挡、光线情况不良、低纹理情况下性能不佳的问题,本文设计了一种基于多网络特征融合(颜色特征提取网络和点云特征提取网络)的深度学习网络.首先,使用颜色特征提取网络提取RGB图像中的纹理特征,使用点云特征提取网络计算深度图中的点云特征,进行几何特征与纹理特征计算后,回归计算点云的关键点投票及实例语义信息.然后,通过投票聚类方式计算每个实例的所属类别和关键点位置.将RGB-D图像中的颜色信息与几何信息分别计算,由于后续操作需要充分考虑像素及点云的局部信息与全局信息,分别使用改进后的残差神经网络和RIPoint(residuals inverted point)网络提取数据特征.采用神经网络中的特征融合方法将颜色信息与几何信息充分提取,为后续模块提供更有效的点云特征.使用深度霍夫投票算法与均值偏移聚类算法计算实例的三维关键点坐标.最后,利用最小二乘拟合方法计算预测三维关键点的物体位姿参数.在LineMOD数据集和YCB-Video数据集上进行测试,实验结果表明:与六自由度物体位姿估计方法相比,本文模型预测的物体位姿准确率高于其他方法,平均准确率分别达到99.5%和96.9%.网络同时基本满足实时性要求,完成一帧RGB-D图像的多实例物体位姿估计时间需0.06 s.