针对目前单目图像在深度估计中依然存在边缘以及深度最大区域预测不准确的问题,提出了一种基于金字塔分割注意力网络的单目深度估计方法(PS-Net)。首先,PS-Net以边界引导和场景聚合网络(BS-Net)为基础,引入金字塔分割注意力(PSA)模块处...针对目前单目图像在深度估计中依然存在边缘以及深度最大区域预测不准确的问题,提出了一种基于金字塔分割注意力网络的单目深度估计方法(PS-Net)。首先,PS-Net以边界引导和场景聚合网络(BS-Net)为基础,引入金字塔分割注意力(PSA)模块处理多尺度特征的空间信息并且有效建立多尺度通道注意力间的长期依赖关系,从而提取深度梯度变化剧烈的边界和深度最大的区域;然后,使用Mish函数作为解码器中的激活函数,以进一步提升网络的性能;最后,在NYUD v2(New York University Depth dataset v2)和iBims-1(independent Benchmark images and matched scans v1)数据集上进行训练评估。iBims-1数据集上的实验结果显示,所提网络在衡量定向深度误差(DDE)方面与BS-Net相比减小了1.42个百分点,正确预测深度像素的比例达到81.69%。以上表明所提网络在深度预测上具有较高的准确性。展开更多
文摘深度歧义是单帧图像多人3D姿态估计面临的重要挑战,提取图像上下文对缓解深度歧义极具潜力.自顶向下方法大多基于人体检测建模关键点关系,人体包围框粒度粗背景噪声占比较大,极易导致关键点偏移或误匹配,还将影响基于人体尺度因子估计绝对深度的可靠性.自底向上的方法直接检出图像中的人体关键点再逐一恢复3D人体姿态.虽然能够显式获取场景上下文,但在相对深度估计方面处于劣势.提出新的双分支网络,自顶向下分支基于关键点区域提议提取人体上下文,自底向上分支基于三维空间提取场景上下文.提出带噪声抑制的人体上下文提取方法,通过建模“关键点区域提议”描述人体目标,建模姿态关联的动态稀疏关键点关系剔除弱连接减少噪声传播.提出从鸟瞰视角提取场景上下文的方法,通过建模图像深度特征并映射鸟瞰平面获得三维空间人体位置布局;设计人体和场景上下文融合网络预测人体绝对深度.在公开数据集MuPoTS-3D和Human3.6M上的实验结果表明:与同类先进模型相比,所提模型HSC-Pose的相对和绝对3D关键点位置精度至少提高2.2%和0.5%;平均根关键点位置误差至少降低4.2 mm.
文摘针对目前单目图像在深度估计中依然存在边缘以及深度最大区域预测不准确的问题,提出了一种基于金字塔分割注意力网络的单目深度估计方法(PS-Net)。首先,PS-Net以边界引导和场景聚合网络(BS-Net)为基础,引入金字塔分割注意力(PSA)模块处理多尺度特征的空间信息并且有效建立多尺度通道注意力间的长期依赖关系,从而提取深度梯度变化剧烈的边界和深度最大的区域;然后,使用Mish函数作为解码器中的激活函数,以进一步提升网络的性能;最后,在NYUD v2(New York University Depth dataset v2)和iBims-1(independent Benchmark images and matched scans v1)数据集上进行训练评估。iBims-1数据集上的实验结果显示,所提网络在衡量定向深度误差(DDE)方面与BS-Net相比减小了1.42个百分点,正确预测深度像素的比例达到81.69%。以上表明所提网络在深度预测上具有较高的准确性。
基金National Natural Science Foundation of China(No.61561030)College Industry Support Plan Project of Gansu Provincial Department of Education(No.2021CYZC-04)+1 种基金Outstanding Graduate“Innovation Star”Project of Gansu Provincial Department of Education(No.2022CXZX-548)Educational Reform Fund of Lanzhou Jiaotong University(No.JG201928)。