时序行为边界框生成任务的目的是定位未剪辑视频中行为的开始和结束时间.现有的生成行为边界框的方法存在两个缺点:所使用的特征不具有足够的时间全局信息,导致了边界框的不准确;特征提取和边界框生成的过程是分开的,导致生成的特征不...时序行为边界框生成任务的目的是定位未剪辑视频中行为的开始和结束时间.现有的生成行为边界框的方法存在两个缺点:所使用的特征不具有足够的时间全局信息,导致了边界框的不准确;特征提取和边界框生成的过程是分开的,导致生成的特征不完全适合边界框生成任务.为了解决上述问题,本文提出了时间全局相关网络(Temporal Global Correlation Network,TGCNet),利用时间全局相关(Temporal Global Correlation,TGC)模块获取全局信息.TGC模块主要包含动态相关结构和静态相关结构,分别编码动态和静态全局信息.TGCNet网络可以以端到端的方式训练,使得所学习到的特征更适合时序行为边界框生成任务.本文在两个具有挑战性的数据集THUMOS14和ActivityNet1.3上进行了实验,结果表明,所提出的TGCNet网络在这两个数据集上均达到了最好的时序行为边界框生成性能.展开更多
文摘时序行为边界框生成任务的目的是定位未剪辑视频中行为的开始和结束时间.现有的生成行为边界框的方法存在两个缺点:所使用的特征不具有足够的时间全局信息,导致了边界框的不准确;特征提取和边界框生成的过程是分开的,导致生成的特征不完全适合边界框生成任务.为了解决上述问题,本文提出了时间全局相关网络(Temporal Global Correlation Network,TGCNet),利用时间全局相关(Temporal Global Correlation,TGC)模块获取全局信息.TGC模块主要包含动态相关结构和静态相关结构,分别编码动态和静态全局信息.TGCNet网络可以以端到端的方式训练,使得所学习到的特征更适合时序行为边界框生成任务.本文在两个具有挑战性的数据集THUMOS14和ActivityNet1.3上进行了实验,结果表明,所提出的TGCNet网络在这两个数据集上均达到了最好的时序行为边界框生成性能.