基于视觉的自动驾驶任务挑战主要来自环境信息维度高和训练数据分布偏差大2个方面.针对环境信息维度高的挑战,融合时空特征的视觉自动驾驶算法(Space-Time Reinforce Learning Auto Driving,简称STRLAD)使用双流网络络进行特征提取,包含...基于视觉的自动驾驶任务挑战主要来自环境信息维度高和训练数据分布偏差大2个方面.针对环境信息维度高的挑战,融合时空特征的视觉自动驾驶算法(Space-Time Reinforce Learning Auto Driving,简称STRLAD)使用双流网络络进行特征提取,包含(ⅰ)感知网络:从摄像头中低速抽取RGB图片作为输入,完成图片整体特征提取;(ⅱ)运动网络:从视频中高速获取灰度图作为输入,完成物体运动特征提取;(ⅲ)感知网络和运动网络在各个特征层使用注意力机制进行融合,完成对环境的特征表示.针对训练数据分布偏差的问题,STRLAD算法以双流网络提取的特征为输入,使用Soft Actor-Critic算法学习驾驶策略,缓解数据偏差和泛化问题.STRLAD算法使用CARLA模拟器进行训练和验证,实验结果表明STRLAD算法能够在复杂的城市尤其多动态物体的环境中能够完成自动驾驶,完成率达到89%.展开更多
时序行为边界框生成任务的目的是定位未剪辑视频中行为的开始和结束时间.现有的生成行为边界框的方法存在两个缺点:所使用的特征不具有足够的时间全局信息,导致了边界框的不准确;特征提取和边界框生成的过程是分开的,导致生成的特征不...时序行为边界框生成任务的目的是定位未剪辑视频中行为的开始和结束时间.现有的生成行为边界框的方法存在两个缺点:所使用的特征不具有足够的时间全局信息,导致了边界框的不准确;特征提取和边界框生成的过程是分开的,导致生成的特征不完全适合边界框生成任务.为了解决上述问题,本文提出了时间全局相关网络(Temporal Global Correlation Network,TGCNet),利用时间全局相关(Temporal Global Correlation,TGC)模块获取全局信息.TGC模块主要包含动态相关结构和静态相关结构,分别编码动态和静态全局信息.TGCNet网络可以以端到端的方式训练,使得所学习到的特征更适合时序行为边界框生成任务.本文在两个具有挑战性的数据集THUMOS14和ActivityNet1.3上进行了实验,结果表明,所提出的TGCNet网络在这两个数据集上均达到了最好的时序行为边界框生成性能.展开更多
文摘时序行为边界框生成任务的目的是定位未剪辑视频中行为的开始和结束时间.现有的生成行为边界框的方法存在两个缺点:所使用的特征不具有足够的时间全局信息,导致了边界框的不准确;特征提取和边界框生成的过程是分开的,导致生成的特征不完全适合边界框生成任务.为了解决上述问题,本文提出了时间全局相关网络(Temporal Global Correlation Network,TGCNet),利用时间全局相关(Temporal Global Correlation,TGC)模块获取全局信息.TGC模块主要包含动态相关结构和静态相关结构,分别编码动态和静态全局信息.TGCNet网络可以以端到端的方式训练,使得所学习到的特征更适合时序行为边界框生成任务.本文在两个具有挑战性的数据集THUMOS14和ActivityNet1.3上进行了实验,结果表明,所提出的TGCNet网络在这两个数据集上均达到了最好的时序行为边界框生成性能.