基于视觉的手部位姿估计技术应用于诸多领域,具备着广泛的国际应用市场前景和巨大发展潜力。然而,手部自身存在检测目标过小、手指高自由度以及手部自遮挡等问题。通过对目前存在的难点分析,将手部位姿估计任务分为手部检测和手部关键...基于视觉的手部位姿估计技术应用于诸多领域,具备着广泛的国际应用市场前景和巨大发展潜力。然而,手部自身存在检测目标过小、手指高自由度以及手部自遮挡等问题。通过对目前存在的难点分析,将手部位姿估计任务分为手部检测和手部关键点检测,提出基于改进的Faster R-CNN的手部位姿估计方法。首先提出基于改进的Faster R-CNN手部检测网络,将传统Faster R-CNN网络中的对ROI(regional of interest)的最大值池化,更改为ROI Align,并增加损失函数用于区分左右手。在此基础上增加了头网络分支用以训练输出MANO(hand model with articulated and non-rigid deformations)手部模型的姿态参数和形状参数,得到手部关键点三维坐标,最终得到手部的三维位姿估计结果。实验表明,手部检测结果中存在的自遮挡和尺度问题得到了解决,并且检测结果的准确性有所提高,本文手部检测算法准确率为85%,比传统Faster R-CNN算法提升13%。手部关键点提取算法在MSRA、ICVL、NYU三个数据集分别取得关键点坐标的均方误差值(key-point mean square error,KMSE)为7.50、6.32、8.50的结果。展开更多
文摘基于视觉的手部位姿估计技术应用于诸多领域,具备着广泛的国际应用市场前景和巨大发展潜力。然而,手部自身存在检测目标过小、手指高自由度以及手部自遮挡等问题。通过对目前存在的难点分析,将手部位姿估计任务分为手部检测和手部关键点检测,提出基于改进的Faster R-CNN的手部位姿估计方法。首先提出基于改进的Faster R-CNN手部检测网络,将传统Faster R-CNN网络中的对ROI(regional of interest)的最大值池化,更改为ROI Align,并增加损失函数用于区分左右手。在此基础上增加了头网络分支用以训练输出MANO(hand model with articulated and non-rigid deformations)手部模型的姿态参数和形状参数,得到手部关键点三维坐标,最终得到手部的三维位姿估计结果。实验表明,手部检测结果中存在的自遮挡和尺度问题得到了解决,并且检测结果的准确性有所提高,本文手部检测算法准确率为85%,比传统Faster R-CNN算法提升13%。手部关键点提取算法在MSRA、ICVL、NYU三个数据集分别取得关键点坐标的均方误差值(key-point mean square error,KMSE)为7.50、6.32、8.50的结果。