-
题名基于双分支多头注意力的场景图生成方法
- 1
-
-
作者
王立春
付芳玉
徐凯
徐洪波
尹宝才
-
机构
北京工业大学信息学部
北京工业大学多媒体与智能软件技术北京市重点实验室
-
出处
《北京工业大学学报》
CAS
CSCD
北大核心
2024年第10期1198-1205,共8页
-
基金
国家自然科学基金资助项目(62376014)
中国高校产学研创新基金资助项目(2021JQR023)。
-
文摘
针对已有场景图生成模型获取上下文信息有限的问题,提出一种有效的上下文融合模块,即双分支多头注意力(dual-stream multi-head attention, DMA)模块,并将DMA分别用于物体分类阶段和关系分类阶段,基于此提出基于双分支多头注意力的场景图生成网络(dual-stream multi-head attention-based scene graph generation network, DMA-Net)。该网络由目标检测、物体语义解析和关系语义解析3个模块组成。首先,通过目标检测模块定位图像中的物体并提取物体特征;其次,使用物体语义解析模块中的节点双分支多头注意力(object dual-stream multi-head attention, O-DMA)获取融合了节点上下文的特征,该特征经过物体语义解码器获得物体类别标签;最后,通过关系语义解析模块中的边双分支多头注意力(relationship dual-stream multi-head attention, R-DMA)输出融合了边上下文的特征,该特征经过关系语义解码器输出关系类别标签。在公开的视觉基因组(visual genome, VG)数据集上分别计算了DMA-Net针对场景图检测、场景图分类和谓词分类3个子任务的图约束召回率和无图约束召回率,并与主流的场景图生成方法进行比较。实验结果表明,所提出的方法能够充分挖掘场景中的上下文信息,基于上下文增强的特征表示有效提升了场景图生成任务的精度。
-
关键词
场景图生成
上下文融合
双分支多头注意力(dual-stream
multi-head
attention
DMA)
目标检测
物体分类
关系分类
-
Keywords
scene graph generation
context fusion
dual-stream multi-head attention(DMA)
object detection
object classification
relationship classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-