-
题名结合残差学习和双模态CAE的图像描述方法
- 1
-
-
作者
邱一城
杨立身
-
机构
郑州经贸学院计算机与人工智能学院
河南理工大学计算机科学与技术学院
-
出处
《光学技术》
CAS
CSCD
北大核心
2021年第1期93-100,共8页
-
基金
国家自然科学基金项目(61872126)
河南省科技厅基金项目(182102210229)。
-
文摘
针对传统图像描述方法存在提取图像关键信息精度不高、描述不准确等问题,提出了一种结合残差学习和双模态CAE的图像描述方法。提出一种新型双模态卷积自动编码器(CAE)结构,包括图像和文本两个输入,以及编码、隐藏层交互、解码等处理环节,完成对输入图像的文本描述;在经典CAE中加入残差学习,与CAE的卷积层构成深度残差网络(DRN),增加了学习深度,以提高方法的准确率;将文本和图像的隐藏层进行交叉重构,以最小化损失函数为目的,训练得到图像-文本的关系,从而实现图像的描述。利用COCO和Flickr30k数据集对所提方法进行定性和定量的仿真实验,其结果论证了所提方法的有效性,与其他方法相比,评价指标Med r最低,且R@K(K=1,5,10)最高,运算时间仅为0.183s,能够更为精准地描述图像。
-
关键词
残差学习
双模态CAE
图像描述
深度残差网络
交叉重构
最小化损失函数
-
Keywords
residual learning
bimodal CAE
image description
deep residual network
cross reconstruction
minimizing loss function
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-