为降低人群聚集引发安全事故的概率,解决完全监督方法数据标注成本高,而现有弱监督方法性能欠佳的问题,提出一种基于Swin Transformer的弱监督人群计数模型。首先,引入具有全局感受野且能够有效提取语义人群信息的Transformer模型,来应...为降低人群聚集引发安全事故的概率,解决完全监督方法数据标注成本高,而现有弱监督方法性能欠佳的问题,提出一种基于Swin Transformer的弱监督人群计数模型。首先,引入具有全局感受野且能够有效提取语义人群信息的Transformer模型,来应对基于卷积神经网络(CNN)的弱监督人群计数方法感受野有限、性能欠佳的问题;然后,采用具有层级设计并且拥有多尺度、层次化计算图像特征能力的Swin Transformer模型作为主干网络,以加强对不同尺度特征的学习,使模型能够更好地应对人群尺度变化的问题;最后,选择只需要人群数量作为监督信息的弱监督方式进行训练,避免对图像中每个人的头部进行标注这一繁琐易错的工作。结果表明:所提模型在ShanghaiTech Part A、ShanghaiTech Part B、UCF-QNRF数据集上的平均绝对误差依次为66.1、8.7、97.1,均方误差依次为106.2、14.9、165.8,在主流数据集上计数性能较好;该模型的性能优于此前的弱监督方法和部分完全监督方法。展开更多
文摘为降低人群聚集引发安全事故的概率,解决完全监督方法数据标注成本高,而现有弱监督方法性能欠佳的问题,提出一种基于Swin Transformer的弱监督人群计数模型。首先,引入具有全局感受野且能够有效提取语义人群信息的Transformer模型,来应对基于卷积神经网络(CNN)的弱监督人群计数方法感受野有限、性能欠佳的问题;然后,采用具有层级设计并且拥有多尺度、层次化计算图像特征能力的Swin Transformer模型作为主干网络,以加强对不同尺度特征的学习,使模型能够更好地应对人群尺度变化的问题;最后,选择只需要人群数量作为监督信息的弱监督方式进行训练,避免对图像中每个人的头部进行标注这一繁琐易错的工作。结果表明:所提模型在ShanghaiTech Part A、ShanghaiTech Part B、UCF-QNRF数据集上的平均绝对误差依次为66.1、8.7、97.1,均方误差依次为106.2、14.9、165.8,在主流数据集上计数性能较好;该模型的性能优于此前的弱监督方法和部分完全监督方法。