时间动作检测是视频理解领域中具有挑战性的任务。先前的时间动作检测模型主要关注视频帧的分类,而忽略视频帧之间的时序关系,导致时间动作检测模型的性能下降。为此,提出融合时序关系和上下文信息的时间动作检测方法(temporal action d...时间动作检测是视频理解领域中具有挑战性的任务。先前的时间动作检测模型主要关注视频帧的分类,而忽略视频帧之间的时序关系,导致时间动作检测模型的性能下降。为此,提出融合时序关系和上下文信息的时间动作检测方法(temporal action detection based on enhanced temporal relationship and context information,ETRD)。首先,设计了基于增强局部时序关系注意力机制的全局特征编码器,关注相邻帧的时序关系;其次,构建基于上下文信息的时序特征增强模块,融合上下文信息;最后,通过头部输出分类和回归结果。实验结果表明,所提出的ETRD模型在THUMOS14和ActivityNet1.3数据集上的平均mAP(mean average precision,平均精度均值)分别达到了67.5%和36.0%。相比于Actionformer模型的66.8%和35.6%,ETRD模型的平均mAP分别提升了0.7%和0.4%。利用视觉传感器,所提出的模型可检测出行为类别和持续时间。同时,结合心率等生理信号,可实现个体健康状态管理,为远程医疗、智能监控等提供了一种解决方案。展开更多
行人重识别是计算机视觉领域中的一个重要研究方向,其目的是在不同的监控摄像头中识别并跟踪同一行人.由于视频帧间存在多种时间关系,从这些关系中可以获取到对象的运动模式以及细粒度特征,因此视频重识别相比图像重识别拥有更丰富的时...行人重识别是计算机视觉领域中的一个重要研究方向,其目的是在不同的监控摄像头中识别并跟踪同一行人.由于视频帧间存在多种时间关系,从这些关系中可以获取到对象的运动模式以及细粒度特征,因此视频重识别相比图像重识别拥有更丰富的时空线索,也更接近实际应用.问题的关键是如何挖掘这些时空线索作为视频重识别的特征.本文针对视频行人重识别问题,提出了一种基于Transformer的长短期时间关系网络(Long and Short Time Transformer,LSTT).该网络包含长短期时间关系模块,提取重要时序信息并强化特征表示.长期时间关系模块利用记忆线索存储每帧信息,并在每一帧建立全局联系;短期时间关系模块则考虑相邻帧之间交互,学习细粒度目标信息,提高特征表示能力.此外,为了提高模型对不同目标特征的适配性,本文还设计了一个包含不同规格卷积核的多尺度模块.该模块具有多种卷积感受野,能够更全面覆盖目标区域,从而进一步提高模型的泛化性能.在MARS、MARS_DL和iLIDS-VID 3个数据集上的实验结果表明,LSTT模型性能最优.展开更多
文摘时间动作检测是视频理解领域中具有挑战性的任务。先前的时间动作检测模型主要关注视频帧的分类,而忽略视频帧之间的时序关系,导致时间动作检测模型的性能下降。为此,提出融合时序关系和上下文信息的时间动作检测方法(temporal action detection based on enhanced temporal relationship and context information,ETRD)。首先,设计了基于增强局部时序关系注意力机制的全局特征编码器,关注相邻帧的时序关系;其次,构建基于上下文信息的时序特征增强模块,融合上下文信息;最后,通过头部输出分类和回归结果。实验结果表明,所提出的ETRD模型在THUMOS14和ActivityNet1.3数据集上的平均mAP(mean average precision,平均精度均值)分别达到了67.5%和36.0%。相比于Actionformer模型的66.8%和35.6%,ETRD模型的平均mAP分别提升了0.7%和0.4%。利用视觉传感器,所提出的模型可检测出行为类别和持续时间。同时,结合心率等生理信号,可实现个体健康状态管理,为远程医疗、智能监控等提供了一种解决方案。
文摘行人重识别是计算机视觉领域中的一个重要研究方向,其目的是在不同的监控摄像头中识别并跟踪同一行人.由于视频帧间存在多种时间关系,从这些关系中可以获取到对象的运动模式以及细粒度特征,因此视频重识别相比图像重识别拥有更丰富的时空线索,也更接近实际应用.问题的关键是如何挖掘这些时空线索作为视频重识别的特征.本文针对视频行人重识别问题,提出了一种基于Transformer的长短期时间关系网络(Long and Short Time Transformer,LSTT).该网络包含长短期时间关系模块,提取重要时序信息并强化特征表示.长期时间关系模块利用记忆线索存储每帧信息,并在每一帧建立全局联系;短期时间关系模块则考虑相邻帧之间交互,学习细粒度目标信息,提高特征表示能力.此外,为了提高模型对不同目标特征的适配性,本文还设计了一个包含不同规格卷积核的多尺度模块.该模块具有多种卷积感受野,能够更全面覆盖目标区域,从而进一步提高模型的泛化性能.在MARS、MARS_DL和iLIDS-VID 3个数据集上的实验结果表明,LSTT模型性能最优.