多时间维度信息融合的图像描述方法被引量：1

Information Fusion in Multiple Time Dimensions for Image Captioning

下载PDF

导出

摘要目前图像描述技术的主要架构是基于深度神经网络的Encoder-Decoder架构.大多数工作集中在图像的特征提取和注意力机制上,如hard注意力模型和top-down注意力模型等.这些方法仅使用上一时刻的信息预测当前时刻的输出,使得解码器的输入信息的时间维度单一,同时解码器的单个输出也影响着预测结果的准确性.本文提出横向和纵向的多时间维度信息融合的图像描述模型,其中模型的横向结构使用过去和现在时刻的语义信息丰富解码器的输入,模型的纵向结构同时生成现在和未来时刻的预测向量来丰富解码器的输出,模型两种独立结构的解码器都生成多个输出,然后分别对其进行加权融合作为模型两种结构的最终输出.在Flickr30k和MSCOCO两个数据集上的实验结果表明,模型的两种结构在多个评价指标上的得分超过了其他主流的模型,对图像的描述更准确. The current mainstream architecture of image captioning technology is the Encoder-Decoder architecture based on deep neural networks.Most works focus on attention mechanism and the extraction of image features, such as hard attention model and top-down attention model.These methods only use the information from the previous moment to predict the output at the current moment, which results in single time dimension of the input information of the decoder.Meanwhile, the single output of the decoder also decreases the accuracy of the prediction result.This paper proposes a horizontal and vertical model of information fusion in multiple time dimensions.The horizontal structure of the model uses the semantic information of the past and present moments to enrich the input of the decoder, and the vertical structure of the model simultaneously generates prediction vectors of the present and future moments to enrich the output of the decoder.The decoders of the two independent structures of the model generate multiple outputs, then we respectively perform weighted fusion as the final output of the two structures of the model.Experiment results on Flickr30 k and MSCOCO datasets show that the scores of these two models on multiple evaluation indicators are higher than other mainstream models, and the descriptions of images generated by our models are more accurate compared with other mainstream models.

作者李坤周世斌朱佳明张国鹏 LI Kun;ZHOU Shi-bin;ZHU Jia-ming;ZHANG Guo-peng(School of Computer Science and Technology,China University of Mining and Technology,Xuzhou 221116,China)

机构地区中国矿业大学计算机科学与技术学院

出处《小型微型计算机系统》 CSCD 北大核心 2022年第1期103-110,共8页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61971421,62071470)资助。

关键词图像描述解码器多时间维度注意力机制 image captioning decoder multi time dimensions attention mechanism

分类号 TP389 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1徐守坤,倪楚涵,吉晨晨,李宁.一种基于安全帽佩戴检测的图像描述方法研究[J].小型微型计算机系统,2020,41(4):812-819. 被引量：16
2李晓莉,张慧明,李晓光.多主题的图像描述生成方法研究[J].小型微型计算机系统,2019,40(5):1064-1068. 被引量：5
3王明申,牛斌,马利.一种基于词级权重的Transformer模型改进方法[J].小型微型计算机系统,2019,40(4):744-748. 被引量：13

二级参考文献6

1张明媛,曹志颖,赵雪峰,杨震.基于深度学习的建筑工人安全帽佩戴识别研究[J].安全与环境学报,2019,19(2):535-541. 被引量：67
2贾峻苏,鲍庆洁,唐慧明.基于可变形部件模型的安全头盔佩戴检测[J].计算机应用研究,2016,33(3):953-956. 被引量：24
3杨楠,南琳,张丁一,库涛.基于深度学习的图像描述研究[J].红外与激光工程,2018,47(2):9-16. 被引量：28
4施辉,陈先桥,杨英.改进YOLO v3的安全帽佩戴检测方法[J].计算机工程与应用,2019,55(11):213-220. 被引量：105
5方明,孙腾腾,邵桢.基于改进YOLOv2的快速安全帽佩戴情况检测[J].光学精密工程,2019,27(5):1196-1205. 被引量：53
6李晓莉,张慧明,李晓光.多主题的图像描述生成方法研究[J].小型微型计算机系统,2019,40(5):1064-1068. 被引量：5

共引文献30

1时德廷.生肌敛疡法治疗消化性溃疡[J].河南中医,2000,20(3):29-29. 被引量：4
2陶友山.姚桥矿井改扩建工程移交生产[J].煤矿设计,2000(5):11-12.
3徐守坤,倪楚涵,吉晨晨,李宁.一种基于安全帽佩戴检测的图像描述方法研究[J].小型微型计算机系统,2020,41(4):812-819. 被引量：16
4刘光品,刘云鹏,王仁芳.基于改进RetinaNet模型的室内安全帽佩戴检测研究[J].浙江万里学院学报,2020,33(6):97-103. 被引量：3
5黄晨,高岩.结合通道注意力的特征融合多人姿态估计算法[J].小型微型计算机系统,2021,42(1):142-146. 被引量：3
6邱一城,杨立身.结合残差学习和双模态CAE的图像描述方法[J].光学技术,2021,47(1):93-100.
7徐瑞龙,祁云嵩,石琳.基于Transformer模型和Kalman滤波预测船舶航迹[J].计算机应用与软件,2021,38(5):106-111. 被引量：4
8曾成,蒋瑜,张尹人.基于改进YOLOv3的口罩佩戴检测方法[J].计算机工程与设计,2021,42(5):1455-1462. 被引量：13
9任欢,王旭光.注意力机制综述[J].计算机应用,2021,41(S01):1-6. 被引量：120
10郭小华.基于深度神经网络的机器翻译智能重排序系统设计[J].自动化与仪器仪表,2021(7):140-142. 被引量：3

同被引文献3

1徐守坤,倪楚涵,吉晨晨,李宁.一种基于安全帽佩戴检测的图像描述方法研究[J].小型微型计算机系统,2020,41(4):812-819. 被引量：16
2盛豪,易尧华,汤梓伟.融合图像场景与目标显著性特征的图像描述生成方法[J].计算机应用研究,2021,38(12):3776-3780. 被引量：5
3李晓莉,张慧明,李晓光.多主题的图像描述生成方法研究[J].小型微型计算机系统,2019,40(5):1064-1068. 被引量：5

引证文献1

1胡卫兵,米金鹏,吴旭明,刘丹,杨芳艳.结合新颖的互注意力和门控机制的图像标题生成[J].小型微型计算机系统,2023,44(8):1785-1791.

1曹源芳.大数据驱动下金融审计平台的构建与实现机制研究[J].市场周刊,2021,34(12):102-104. 被引量：1
2花嵘,仪秀龙,郑杜磊,王志余.基于文本信息补充的图像描述模型[J].山东科技大学学报（自然科学版）,2021,40(6):61-68.
3孟军霞,陈冰.基于虚拟5G MEC的智慧校园建设[J].科技创新与生产力,2021(12):127-130. 被引量：2
4陈悦,郭宇,谢圆琰,米振强.基于图像描述算法的离线盲人视觉辅助系统[J].电信科学,2022,38(1):61-72. 被引量：1
5江千军,桂前进,王磊,徐瑞翔,王京景,麦立,许水清.命名实体识别技术研究进展综述[J].电力信息与通信技术,2022,20(2):15-24. 被引量：13
6苏静.基于层级注意力的故事性图像描述生成的研究[J].电子技术与软件工程,2021(20):112-114.
7奚建飞,王志英,邹文景,甘莹.基于深度学习的非结构化表格文档数据抽取方法[J].微型电脑应用,2022,38(2):102-105. 被引量：2
8李沛卓,万雪,李盛阳.基于多模态学习的空间科学实验图像描述[J].光学精密工程,2021,29(12):2944-2955. 被引量：2
9刘盛,黄圣跃,程豪豪,沈家瑜,陈胜勇.结合空间深度卷积和残差的大尺度点云场景分割[J].中国图象图形学报,2021,26(12):2848-2859. 被引量：5
10Ling Ding,Huyin Zhang,Jinsheng Xiao,Cheng Shu,Shejie Lu.A Lane Detection Method Based on Semantic Segmentation[J].Computer Modeling in Engineering & Sciences,2020(3):1039-1053. 被引量：3

小型微型计算机系统

2022年第1期

浏览历史

内容加载中请稍等...

多时间维度信息融合的图像描述方法被引量：1

参考文献3

二级参考文献6

共引文献30

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

多时间维度信息融合的图像描述方法 被引量：1

参考文献3

二级参考文献6

共引文献30

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

多时间维度信息融合的图像描述方法被引量：1