-
题名极化自注意力调控的情景式视频实例多尺度分割
被引量:2
- 1
-
-
作者
黄滢
何自芬
杨宏宽
赵崇任
张印辉
-
机构
昆明理工大学机电工程学院
-
出处
《计算机学报》
EI
CAS
CSCD
北大核心
2022年第12期2605-2618,共14页
-
基金
国家自然科学基金(62061022,62171206)资助。
-
文摘
视频实例分割(Video Instance Segmentation)是开发智能机器人视觉系统的一项关键技术,部署视频实例分割算法的智能机器人能够精确地实现目标追踪、避障等高复杂度任务.机器人在特定情景下自主移动时的成像效果会受到自身速度、拍摄角度、距离远近及目标移动速度的影响,导致捕获的运动目标普遍存在拓扑形变和尺度缩放等随机性问题.对于在相同视频序列中跨静态帧的同一目标实例而言,模型所学习的可辨识特征往往具有多样性和不确定性.现有模型更多强调帧间掩膜传播或特征跟踪等时序交互方法,而忽略了对拓扑实例的深层语义解析和尺度目标的轮廓分辨,因此缺乏对高层细粒度特征的有效关注和低层空间信息的准确定位.本文提出一种极化自注意力调控的多尺度视频实例分割PSAM-Net(Polarized Self-Attention Manipulation Network)模型.首先,在残差网络中嵌入单级式和级联式的极化自注意力机制,以建立任意空间位置的非线性关联信息,及其正交方向的通道特征依赖关系,克服高层特征图中细粒度特征分布弥散问题,增强模型的区域特征聚焦能力,完成对拓扑实例的深层语义解析;其次,由特征金字塔自上而下的特征流动方式,所导致的低层特征空间位置和实例边缘信息匮乏问题,对聚合了多粒度信息的空间定位分支模型进行构建,以适应不同尺度下前景目标定位检测和轮廓分割需求.最后,从Youtube-VIS中划分出多个适用于动物场景下的数据集.交叉验证结果表明,相较于YolactEdge基准模型,PSAM-Net在平均检测和平均分割精度上分别提升6.08%和8.87%,达到44.06%和44.41%,测试速度高达80FPS,表现出较好的鲁棒性与稳定性.本文方法实现了视频序列输入下的实时高精度分割,为智能移动机器人的自主环境感知提供了有效理论依据和一定参考价值.
-
关键词
视频实例分割
拓扑形变
尺度缩放
psam-net
极化自注意力调控
空间定位分支
-
Keywords
video instance segmentation
topological deformation
scale scaling
psam-net
polarized self-attention manipulation
spatial positioning branch
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-