期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于预训练模型的注意力叠加方法及其在图像字幕生成中的应用
1
作者 倪玉航 张杰 《江苏理工学院学报》 2023年第6期12-22,52,共12页
图像字幕生成是视觉语言理解中的一项基本任务,模型会对给定的输入图像生成一个文本描述性的字幕。为了提高字幕生成的质量,文章提出了一种基于预训练模型注意力叠加方法的图像字幕生成框架。与传统的CNN和RNN组合相比,该框架利用了更... 图像字幕生成是视觉语言理解中的一项基本任务,模型会对给定的输入图像生成一个文本描述性的字幕。为了提高字幕生成的质量,文章提出了一种基于预训练模型注意力叠加方法的图像字幕生成框架。与传统的CNN和RNN组合相比,该框架利用了更高层次的特征信息,提高了模型的性能和效果。编码器部分由预训练的CLIP模型及精炼模块构成,其中CLIP模型用于输入图像的特征提取,精炼模块用于优化提取出来的图像特征;解码器部分由预训练的GPT-2模型、LSTM模型及注意力叠加构成,其主要作用是将特征信息生成为图像字幕。实验结果表明:基于预训练模型的注意力叠加方法的图像字幕生成模型框架表现出了更好的性能,在Flickr30k和MSCOCO图像数据集上的CIDEr-D指标值分别为61.4%和119.3%,相对于基准模型分别提高了22.6%和10.8%。 展开更多
关键词 图像字幕 预训练模型 注意力叠加 CLIP GPT-2 LSTM模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部