随着机器学习特别是深度学习理论和算法的不断发展和视频数据的大量积累,采用无标签视频信息的无监督学习算法取得了长足进步。提出了一种融合光流信息的双流无监督学习视频目标分割网络。首先,将视频序列中的随机帧和与之对应的由光流...随着机器学习特别是深度学习理论和算法的不断发展和视频数据的大量积累,采用无标签视频信息的无监督学习算法取得了长足进步。提出了一种融合光流信息的双流无监督学习视频目标分割网络。首先,将视频序列中的随机帧和与之对应的由光流网络生成的光流图分别输入到残差神经(residual networks,ResNet)主干网络,形成帧特征图和对应的帧间光流特征图。其次,为克服共同移动的背景信息对分割精度的影响,设计了目标位置信息融合模块(position information fusion,PIF),将输入视频帧和光流进行位置信息融合,在得到主要目标位置的同时,降低了背景噪声信号对分割的影响。最后,设计空间通道上下文信息融合注意力机制模块(spatial channel context information fusion,SCCF),将帧特征和光流特征的上下文信息与经典的空间通道注意力机制进行了融合。在DAVIS-16数据集上的实验表明,文中网络的平均区域相似性指标可达89.6,平均边界精度指标可达87.0,两项指标均达到该领域的最高水平。展开更多
文摘随着机器学习特别是深度学习理论和算法的不断发展和视频数据的大量积累,采用无标签视频信息的无监督学习算法取得了长足进步。提出了一种融合光流信息的双流无监督学习视频目标分割网络。首先,将视频序列中的随机帧和与之对应的由光流网络生成的光流图分别输入到残差神经(residual networks,ResNet)主干网络,形成帧特征图和对应的帧间光流特征图。其次,为克服共同移动的背景信息对分割精度的影响,设计了目标位置信息融合模块(position information fusion,PIF),将输入视频帧和光流进行位置信息融合,在得到主要目标位置的同时,降低了背景噪声信号对分割的影响。最后,设计空间通道上下文信息融合注意力机制模块(spatial channel context information fusion,SCCF),将帧特征和光流特征的上下文信息与经典的空间通道注意力机制进行了融合。在DAVIS-16数据集上的实验表明,文中网络的平均区域相似性指标可达89.6,平均边界精度指标可达87.0,两项指标均达到该领域的最高水平。