期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
全景分割与多视觉特征协同的图像描述生成方法
1
作者 刘明明 陆劲夫 +1 位作者 刘浩 张海燕 《计算机工程》 CAS CSCD 北大核心 2024年第11期308-317,共10页
现有基于Transformer架构的图像描述生成模型取得了较好的泛化性能,然而,大多数方法通常使用区域视觉特征进行编解码,导致无法全面利用整幅图像的细粒度信息,且存在视觉特征混淆问题。为此,将全景分割引入图像描述生成过程,使用基于全... 现有基于Transformer架构的图像描述生成模型取得了较好的泛化性能,然而,大多数方法通常使用区域视觉特征进行编解码,导致无法全面利用整幅图像的细粒度信息,且存在视觉特征混淆问题。为此,将全景分割引入图像描述生成过程,使用基于全景分割的掩膜视觉特征代替区域视觉特征,提出一种全景分割与多视觉特征协同的图像描述生成方法。该方法不仅可以有效解耦视觉表征,而且能够充分结合掩膜视觉特征和网格视觉特征的优势,提升图像描述生成的可解释性和描述性能。在MSCOCO标准数据集上进行定量和定性实验,结果表明,所提方法不仅可以显著提升现有模型的性能,同时能够增强图像描述生成过程的可解释性,CIDEr和BLEU-4指标分别达到138.5和41。 展开更多
关键词 图像理解 图像描述生成 全景分割 特征融合 视觉编码
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部