期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
融合自上而下和自下而上注意力的图像描述生成 被引量:4
1
作者 武光利 郭振洲 李雷霆 《科学技术与工程》 北大核心 2022年第32期14313-14320,共8页
随着互联网的普及,每天都有海量的图片被传入互联网中。为了能更好地利用这些图片的价值,图像描述生成技术应运而生。提出一种融合自上而下和自下而上注意力的图像描述生成模型。在工作时,该模型分别利用预训练的ResNet101和Faster R-CN... 随着互联网的普及,每天都有海量的图片被传入互联网中。为了能更好地利用这些图片的价值,图像描述生成技术应运而生。提出一种融合自上而下和自下而上注意力的图像描述生成模型。在工作时,该模型分别利用预训练的ResNet101和Faster R-CNN(regions with convolutional neural network)提取输入图片的全局特征和局部特征,并利用自上而下和自下而上注意力分别计算两种特征的权重;利用门控循环单元(gate recurrent unit, GRU)提取一句话中单词之间的上下文语义信息;利用长短期记忆网络(long short-term memory, LSTM)解析图像特征和语义信息并生成描述语句。在训练时,首先以监督学习的方法,训练出基于编码器-解码器框架的一个基础模型;然后再以结合生成式对抗网络和强化学习的方法,在相互对抗中得到不断优化的策略函数和不断完善的奖励机制,从而使生成的句子更加准确、自然。本文模型在COCO数据集上进行训练和测试,最终在评价指标BLEU@1(bilingual evaluation understudy@1)上达到0.675,在BLEU@4上达到0.24,在CIDEr(consensus-based image description evaluation)上达到0.734,在ROUGE(recall-oriented understudy for gisting evaluation)上达到0.51。实验结果表明了本文模型的可行性与先进性。 展开更多
关键词 自上而下注意力 自下而上注意力 图像描述生成 生成式对抗网络(GAN) 强化学习(RL)
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部