-
题名基于全局与序列变分自编码的图像描述生成
- 1
-
-
作者
刘明明
刘浩
王栋
张海燕
-
机构
江苏建筑职业技术学院智能制造学院
中国矿业大学计算机科学与技术学院
-
出处
《计算机应用研究》
CSCD
北大核心
2024年第7期2215-2220,共6页
-
基金
国家自然科学基金资助项目(61801198)
江苏省自然科学基金资助项目(BK20180174)
江苏省青蓝工程资助项目。
-
文摘
基于Transformer架构的图像描述生成方法通常学习从图像空间到文本空间的确定性映射,以提高预测“平均”描述语句的性能,从而导致模型倾向于生成常见的单词和重复的短语,即所谓的模式坍塌问题。为此,将条件变分自编码与基于Transformer的图像描述生成相结合,利用条件似然的变分证据下界分别构建了句子级和单词级的多样化图像描述生成模型,通过引入全局与序列隐嵌入学习增强模型的隐表示能力。在MSCOCO基准数据集上的定量和定性实验结果表明,两种模型均具备图像到文本空间的一对多映射能力。相比于目前最新的方法COS-CVAE(diverse image captioning with context-object split latent spaces),在随机生成20个描述语句时,准确性指标CIDEr和多样性指标Div-2分别提升了1.3和33%,在随机生成100个描述语句的情况下,CIDEr和Div-2分别提升了11.4和14%,所提方法能够更好地拟合真实描述分布,在多样性和准确性之间取得了更好的平衡。
-
关键词
图像描述生成
多样化描述
变分Transformer
隐嵌入
-
Keywords
image description generation
diverse image captioning
variational Transformer
latent embedding
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-