-
题名融合自适应常识门的图像描述生成模型
被引量:1
- 1
-
-
作者
杨有
陈立志
方小龙
潘龙越
-
机构
重庆国家应用数学中心
重庆师范大学计算机与信息科学学院
-
出处
《计算机应用》
CSCD
北大核心
2022年第12期3900-3905,共6页
-
基金
重庆师范大学研究生科研创新项目(YKC20038)
重庆师范大学(人才引进/博士启动)基金资助项目(21XLB032)。
-
文摘
针对传统的图像描述模型不能充分利用图像信息且融合特征方式单一的问题,提出了一种融合自适应常识门(ACG)的图像描述生成模型。首先,使用基于视觉常识区域的卷积神经网络(VC R-CNN)提取视觉常识特征,并将常识特征分层输入到Transformer编码器中;然后,在编码器的每一分层中设计了ACG,从而对视觉常识特征和编码特征进行自适应融合操作;最后,将融合常识信息的编码特征送入Transformer解码器中完成训练。使用MSCOCO数据集进行训练和测试,结果表明所提模型在评价指标BLEU‑4、CIDEr和SPICE上分别达到了39.2、129.6和22.7,相较于词性堆叠交叉注意网络(POS-SCAN)模型分别提升了3.2%、2.9%和2.3%。所提模型的效果明显优于使用单一显著区域特征的Transformer模型,能够对图像内容进行准确的描述。
-
关键词
图像描述
自然语言处理
卷积神经网络
视觉常识
自适应常识门
-
Keywords
image caption
natural language processing
Convolutional Neural Network(CNN)
visual commonsense
Adaptive Commonsense Gate(ACG)
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-