-
题名全景分割与多视觉特征协同的图像描述生成方法
- 1
-
-
作者
刘明明
陆劲夫
刘浩
张海燕
-
机构
江苏建筑职业技术学院智能制造学院
中国矿业大学计算机科学与技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2024年第11期308-317,共10页
-
基金
国家自然科学基金(61801198)
江苏省自然科学基金(BK20180174)。
-
文摘
现有基于Transformer架构的图像描述生成模型取得了较好的泛化性能,然而,大多数方法通常使用区域视觉特征进行编解码,导致无法全面利用整幅图像的细粒度信息,且存在视觉特征混淆问题。为此,将全景分割引入图像描述生成过程,使用基于全景分割的掩膜视觉特征代替区域视觉特征,提出一种全景分割与多视觉特征协同的图像描述生成方法。该方法不仅可以有效解耦视觉表征,而且能够充分结合掩膜视觉特征和网格视觉特征的优势,提升图像描述生成的可解释性和描述性能。在MSCOCO标准数据集上进行定量和定性实验,结果表明,所提方法不仅可以显著提升现有模型的性能,同时能够增强图像描述生成过程的可解释性,CIDEr和BLEU-4指标分别达到138.5和41。
-
关键词
图像理解
图像描述生成
全景分割
特征融合
视觉编码
-
Keywords
image understanding
image description generation
panoptic segmentation
feature fusion
visual encoding
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-