期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于全局与序列变分自编码的图像描述生成
1
作者 刘明明 刘浩 +1 位作者 王栋 张海燕 《计算机应用研究》 CSCD 北大核心 2024年第7期2215-2220,共6页
基于Transformer架构的图像描述生成方法通常学习从图像空间到文本空间的确定性映射,以提高预测“平均”描述语句的性能,从而导致模型倾向于生成常见的单词和重复的短语,即所谓的模式坍塌问题。为此,将条件变分自编码与基于Transformer... 基于Transformer架构的图像描述生成方法通常学习从图像空间到文本空间的确定性映射,以提高预测“平均”描述语句的性能,从而导致模型倾向于生成常见的单词和重复的短语,即所谓的模式坍塌问题。为此,将条件变分自编码与基于Transformer的图像描述生成相结合,利用条件似然的变分证据下界分别构建了句子级和单词级的多样化图像描述生成模型,通过引入全局与序列隐嵌入学习增强模型的隐表示能力。在MSCOCO基准数据集上的定量和定性实验结果表明,两种模型均具备图像到文本空间的一对多映射能力。相比于目前最新的方法COS-CVAE(diverse image captioning with context-object split latent spaces),在随机生成20个描述语句时,准确性指标CIDEr和多样性指标Div-2分别提升了1.3和33%,在随机生成100个描述语句的情况下,CIDEr和Div-2分别提升了11.4和14%,所提方法能够更好地拟合真实描述分布,在多样性和准确性之间取得了更好的平衡。 展开更多
关键词 图像描述生成 多样化描述 变分Transformer 隐嵌入
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部