基于图神经网络和引导向量的图像字幕生成模型被引量：1

Image Caption Generation Model Based on Graph Neural Network and Guidance Vector

下载PDF

导出

摘要近年来,深度学习已在图像字幕技术研究中展现其优势。在深度学习模型中,图像中对象之间的关系在图像表示中起着重要作用。为了更好地检测图像中的视觉关系,本文基于图神经网络和引导向量构建了图像字幕生成模型(YOLOv4-GCN-GRU,YGG)。该模型利用图像中被检测到的对象的空间和语义信息建立成图,利用图卷积神经网络(Graph convolutional network,GCN)作为编码器对图的每个区域进行表示。在字幕生成阶段,额外训练一个引导神经网络来产生引导向量,从而辅助生成模型自动生成语句。基于MSCOCO图像数据集的对比实验表明,YGG模型具有更好的性能,将CIDEr-D的性能从138.9%提高到了142.1%。 In recent years,deep learning has shown its advantages in the research of image caption technology.In deep learning model,the relationship between objects in image plays an important role in image representation.In order to better detect the visual relationship in the image,an image caption generation model(YOLOv4-GCN-GRU,YGG)is constructed based on graph neural network and guidance vector.The model uses the spatial and semantic information of the detected objects in the image to build a graph,and uses graph convolutional network(GCN)as an encoder to represent each region of the graph.In the process of decoding,an additional guidance neural network is trained to generate guidance vector,so as to assist the decoder to automatically generate sentences.Comparative experiments based on MSCOCO image dataset show that YGG model has better performance,and the performance of CIDEr-D is improved from 138.9%to 142.1%.

作者佟国香李乐阳 TONG Guoxiang;LI Yueyang(College of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China)

机构地区上海理工大学光电信息与计算机工程学院

出处《数据采集与处理》 CSCD 北大核心 2023年第1期209-219,共11页 Journal of Data Acquisition and Processing

基金国家重点研发计划项目(2018YFB1700902)。

关键词图像字幕空间语义图图卷积神经网络引导向量生成模型 image caption spatial semantic map graph convolution neural network guidance vector generation model

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献3

1郑昌艳,张雄伟,曹铁勇,杨吉斌,孙蒙,邢益搏.一种基于LSTM-RNN的喉振传声器语音盲增强算法[J].数据采集与处理,2019,34(4):615-624. 被引量：6
2李家宁,田永鸿.神经形态视觉传感器的研究进展及应用综述[J].计算机学报,2021,44(6):1258-1286. 被引量：20
3叶继华,万叶晶,刘长红,李汉曦,王仕民.基于多子空间直和特征融合的人脸识别算法[J].数据采集与处理,2016,31(1):102-107. 被引量：6

二级参考文献8

1葛微,程宇奇,刘春香,陈秋萍.基于子空间分析的人脸识别方法研究[J].中国光学与应用光学,2009,2(5):377-387. 被引量：10
2苏煜,山世光,陈熙霖,高文.基于全局和局部特征集成的人脸识别[J].软件学报,2010,21(8):1849-1862. 被引量：117
3常俊彦,达飞鹏,蔡亮.基于特征融合的三维人脸识别[J].东南大学学报（自然科学版）,2011,41(1):47-51. 被引量：9
4黄建军,张雄伟,张亚非,邹霞.时频字典学习的单通道语音增强算法[J].声学学报,2012,37(5):539-547. 被引量：13
5杨军,袁红照,刘妍丽.基于样本扩张和双子空间决策融合的单样本人脸识别算法[J].数据采集与处理,2015,30(1):148-154. 被引量：3
6贲德,张弓,谭晓阳,刘彦东,黄志球.信号、数据和信息的历史及展望——纪念《数据采集与处理》创刊30周年[J].数据采集与处理,2015,30(2):239-243. 被引量：3
7王坤峰,苟超,段艳杰,林懿伦,郑心湖,王飞跃.生成式对抗网络GAN的研究进展与展望[J].自动化学报,2017,43(3):321-332. 被引量：322
8Zhaofei Yu,Jian K.Liu,Shanshan Jia,Yichen Zhang,Yajing Zheng,Yonghong Tian,Tiejun Huang.Toward the Next Generation of Retinal Neuroprosthesis: Visual Computation with Spikes[J].Engineering,2020,6(4):449-461. 被引量：3

共引文献29

1徐丹,张绛丽,于化龙,左欣,高尚.逐级细化的交通标志识别算法[J].数据采集与处理,2018,33(3):547-554. 被引量：4
2胡颇鸣.基于特征融合的人脸识别新算法[J].电子技术与软件工程,2018(14):66-66.
3沈继锋,时士伟,左欣,徐丹.基于多通道图判别投影HAAR特征的多视角人脸检测[J].数据采集与处理,2018,33(2):270-279. 被引量：5
4叶继华,郭祺玥,江爱文,黎欣.基于特征子空间直和的跨年龄人脸识别方法[J].郑州大学学报（工学版）,2021,42(5):7-12. 被引量：2
5邦锦阳,孙蒙,张雄伟,郑昌艳.融合卷积网络与残差长短时记忆网络的轻量级骨导语音盲增强[J].数据采集与处理,2021,36(5):921-931. 被引量：3
6岳宸宇,周沛松,李明亮.基于深度学习的危险驾驶行为检测模型研究[J].新一代信息技术,2021,4(22):1-4.
7凌壮志,刘贺,王旭.视觉传感技术在深基坑坑周土体沉降监测中的应用研究[J].地基处理,2021,3(6):532-537. 被引量：4
8刘婷,尹甜甜,龚真颖,郭一娜.面向多路源信号的单通道盲去卷积算法研究[J].电子与信息学报,2022,44(1):230-236.
9徐化池,史殿习,崔玉宁,景罗希,刘聪.面向事件相机的时间信息融合网络框架[J].计算机科学,2022,49(5):43-49. 被引量：1
10马新娜,赵猛,祁琳.基于卷积脉冲神经网络的故障诊断方法研究[J].广西师范大学学报（自然科学版）,2022,40(3):112-120. 被引量：7

同被引文献4

1杜鹏飞,李小勇,高雅丽.多模态视觉语言表征学习研究综述[J].软件学报,2021,32(2):327-348. 被引量：26
2姜文晖,占锟,程一波,夏雪,方玉明.结合多层级解码器和动态融合机制的图像描述[J].中国图象图形学报,2022,27(9):2775-2787. 被引量：3
3杨晨露,万旺根,张振,孙学涛,王旭智.基于多模态特征融合的图像描述算法研究[J].工业控制计算机,2023,36(1):87-88. 被引量：3
4衡红军,范昱辰,王家亮.基于Transformer的多方面特征编码图像描述生成算法[J].计算机工程,2023,49(2):199-205. 被引量：4

引证文献1

1段毛毛,魏燚伟.基于多模态交互网络的图像描述[J].计算机技术与发展,2024,34(5):44-51. 被引量：1

二级引证文献1

1李满江,鞠传森,任鹏.智能多语种新闻采编系统的多模态数据融合研究[J].信息技术与信息化,2024(8):202-206.

1汪颖,王峰,李玮,王艳艳,王应彪,罗鑫.用于复杂环境下果蔬检测的改进YOLOv5算法研究[J].中国农机化学报,2023,44(1):185-191. 被引量：3
2沙宝程,徐涛,邓鉴格,马坤.基于噪声检测的多语言知识图谱实体对齐技术研究[J].云南大学学报（自然科学版）,2023,45(1):67-73. 被引量：1
3宣扬,吕宏强,安慰,刘学军.基于改进的无锚框目标检测算法的涡检测[J].数据采集与处理,2023,38(1):150-161.
4邵新茹,叶海良,杨冰,曹飞龙.基于三阶段生成网络的图像修复[J].模式识别与人工智能,2022,35(12):1047-1063. 被引量：3
5胡笑天,王克俭,王超,剪文灏,何振学.一种基于改进SSD的原木端面识别方法[J].林业工程学报,2023,8(1):141-149. 被引量：5
6何东宇,朱荣光,范彬彬,王世昌,崔晓敏,姚雪东.倒置残差网络结合注意力机制的掺假羊肉分类检测系统构建[J].农业工程学报,2022,38(20):266-275. 被引量：4
7王一,龚肖杰,苏皓.基于改进U-net的金属工件表面缺陷图像分割方法[J].应用光学,2023,44(1):86-92. 被引量：4
8张浩,齐光磊,侯小刚,郑凯梅.基于改进Fisher准则的深度卷积生成对抗网络算法[J].光学精密工程,2022,30(24):3239-3249. 被引量：3
9刘江,关向雨,温跃泉,吕朝伟.基于改进YOLOv4的GIS红外特征识别与温度提取方法[J].电力工程技术,2023,42(1):162-168. 被引量：7
10李想,特日根,仪锋,徐国成.针对全球储油罐检测的TCS-YOLO模型[J].光学精密工程,2023,31(2):246-262. 被引量：11

数据采集与处理

2023年第1期

浏览历史

内容加载中请稍等...

基于图神经网络和引导向量的图像字幕生成模型被引量：1

参考文献3

二级参考文献8

共引文献29

同被引文献4

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于图神经网络和引导向量的图像字幕生成模型 被引量：1

参考文献3

二级参考文献8

共引文献29

同被引文献4

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于图神经网络和引导向量的图像字幕生成模型被引量：1