-
题名基于多模深度神经网络生成图像描述研究
- 1
-
-
作者
周珊
刘子龙
-
机构
上海理工大学光电信息与计算机工程学院
-
出处
《软件导刊》
2018年第8期40-44,共5页
-
文摘
图片相比文字而言,可以为人们呈现更生动、更易于理解和更丰富的信息,海量图片成为互联网信息交流的主要媒介之一。因此,如何快速、便捷地自动生成图像描述具有研究意义。介绍了一种根据图像生成其内容的自然语言描述模型,该模型是基于一种在图像区域上应用改进的Faster-RCNN、在句子上应用BRNN以及通过多模嵌入达成两种模态对齐的一种结构化目标的新颖组合。对实验生成描述与图片本来描述相似度进行评估,B-1为0.63,B-2为0.45,B-1为0.32,相较于初始的一些语言描述模型性能有明显提高,说明该模型有一定的实用性。
-
关键词
自然语言描述模型
改进Faster-RCNN
BRNN
多模嵌入
模态对齐
-
Keywords
natural anguage description model
improved faster-RCNN
BRNN
multimodal embedding
modality alignment
-
分类号
TP317.4
[自动化与计算机技术—计算机软件与理论]
-