街道场景视频实例分割是无人驾驶技术研究中的关键问题之一,可为车辆在街道场景下的环境感知和路径规划提供决策依据.针对现有方法存在多纵横比锚框应用单一感受野采样导致边缘特征提取不充分以及高层特征金字塔空间细节位置信息匮乏的...街道场景视频实例分割是无人驾驶技术研究中的关键问题之一,可为车辆在街道场景下的环境感知和路径规划提供决策依据.针对现有方法存在多纵横比锚框应用单一感受野采样导致边缘特征提取不充分以及高层特征金字塔空间细节位置信息匮乏的问题,本文提出锚框校准和空间位置信息补偿视频实例分割(Anchor frame calibration and Spatial position information compensation for Video Instance Segmentation,AS-VIS)网络.首先,在预测头3个分支中添加锚框校准模块实现同锚框纵横比匹配的多类型感受野采样,解决目标边缘提取不充分问题.其次,设计多感受野下采样模块将各种感受野采样后的特征融合,解决下采样信息缺失问题.最后,应用多感受野下采样模块将特征金字塔低层目标区域激活特征映射嵌入到高层中实现空间位置信息补偿,解决高层特征空间细节位置信息匮乏问题.在Youtube-VIS标准库中提取街道场景视频数据集,其中包括训练集329个视频和验证集53个视频.实验结果与YolactEdge检测和分割精度指标定量对比表明,锚框校准平均精度分别提升8.63%和5.09%,空间位置信息补偿特征金字塔平均精度分别提升7.76%和4.75%,AS-VIS总体平均精度分别提升9.26%和6.46%.本文方法实现了街道场景视频序列实例级同步检测、跟踪与分割,为无人驾驶车辆环境感知提供有效的理论依据.展开更多
密集场景下准确人群计数和定位,对于保障公共安全具有重要的意义。针对密集人群计数与定位易受人群分布不均、背景干扰等因素的影响,导致计数定位不准确的问题,提出一种基于区域感知校准的自适应人群计数与定位方法。通过构建金字塔结...密集场景下准确人群计数和定位,对于保障公共安全具有重要的意义。针对密集人群计数与定位易受人群分布不均、背景干扰等因素的影响,导致计数定位不准确的问题,提出一种基于区域感知校准的自适应人群计数与定位方法。通过构建金字塔结构提取人群图像的多尺度特征,增强特征关联性,并设计可变形几何自适应模块学习不同分布的人群几何特征,以增强对人群分布不均的适应性。在此基础上,提出区域感知和区域校准模块,提取全局上下文特征和区域特征,克服了背景干扰造成的定位与计数不准问题。接着通过双分支卷积预测通路,输出生成点的预测位置和置信度分数,以提高网络的定位与计数精度。最后提出改进二分图最大匹配Hopcroft-Karp算法对真值点与预测点进行匹配校准,从而完成人群定位与计数。实验结果表明,所提方法分别在公开的ShanghaiTech Part A和Part B数据集、NWPU-Crowd数据集、UCF-QNRF数据集上评价指标均优于对比算法,且定位精度较P2Pnet分别提高了3.5%、6.1%、11.3%和8.1%,能够有效提高人群定位与计数的准确度。展开更多
文摘街道场景视频实例分割是无人驾驶技术研究中的关键问题之一,可为车辆在街道场景下的环境感知和路径规划提供决策依据.针对现有方法存在多纵横比锚框应用单一感受野采样导致边缘特征提取不充分以及高层特征金字塔空间细节位置信息匮乏的问题,本文提出锚框校准和空间位置信息补偿视频实例分割(Anchor frame calibration and Spatial position information compensation for Video Instance Segmentation,AS-VIS)网络.首先,在预测头3个分支中添加锚框校准模块实现同锚框纵横比匹配的多类型感受野采样,解决目标边缘提取不充分问题.其次,设计多感受野下采样模块将各种感受野采样后的特征融合,解决下采样信息缺失问题.最后,应用多感受野下采样模块将特征金字塔低层目标区域激活特征映射嵌入到高层中实现空间位置信息补偿,解决高层特征空间细节位置信息匮乏问题.在Youtube-VIS标准库中提取街道场景视频数据集,其中包括训练集329个视频和验证集53个视频.实验结果与YolactEdge检测和分割精度指标定量对比表明,锚框校准平均精度分别提升8.63%和5.09%,空间位置信息补偿特征金字塔平均精度分别提升7.76%和4.75%,AS-VIS总体平均精度分别提升9.26%和6.46%.本文方法实现了街道场景视频序列实例级同步检测、跟踪与分割,为无人驾驶车辆环境感知提供有效的理论依据.
文摘密集场景下准确人群计数和定位,对于保障公共安全具有重要的意义。针对密集人群计数与定位易受人群分布不均、背景干扰等因素的影响,导致计数定位不准确的问题,提出一种基于区域感知校准的自适应人群计数与定位方法。通过构建金字塔结构提取人群图像的多尺度特征,增强特征关联性,并设计可变形几何自适应模块学习不同分布的人群几何特征,以增强对人群分布不均的适应性。在此基础上,提出区域感知和区域校准模块,提取全局上下文特征和区域特征,克服了背景干扰造成的定位与计数不准问题。接着通过双分支卷积预测通路,输出生成点的预测位置和置信度分数,以提高网络的定位与计数精度。最后提出改进二分图最大匹配Hopcroft-Karp算法对真值点与预测点进行匹配校准,从而完成人群定位与计数。实验结果表明,所提方法分别在公开的ShanghaiTech Part A和Part B数据集、NWPU-Crowd数据集、UCF-QNRF数据集上评价指标均优于对比算法,且定位精度较P2Pnet分别提高了3.5%、6.1%、11.3%和8.1%,能够有效提高人群定位与计数的准确度。