基于Transformer的多方面特征编码图像描述生成算法被引量：4

Multifaceted Feature Coding Image Caption Generation Algorithm Based on Transformer

下载PDF

导出

摘要由目标检测算法提取的目标特征在图像描述生成任务中发挥重要作用,但仅使用对图像进行目标检测的特征作为图像描述任务的输入会导致除关键目标信息以外的其余信息获取缺失,且生成的文本描述对图像内目标之间的关系缺乏准确表达。针对上述不足,提出用于编码图像内目标特征的目标Transformer编码器,以及用于编码图像内关系特征的转换窗口Transformer编码器,从不同角度对图像内不同方面的信息进行联合编码。通过拼接方法将目标Transformer编码的目标特征与转换窗口Transformer编码的关系特征相融合,达到图像内部关系特征和局部目标特征融合的目的,最终使用Transformer解码器将融合后的编码特征解码生成对应的图像描述。在MS-COCO数据集上进行实验,结果表明,所构建模型性能明显优于基线模型,BLEU-4、METEOR、ROUGE-L、CIDEr指标分别达到38.6%、28.7%、58.2%和127.4%,优于传统图像描述网络模型,能够生成更详细准确的图像描述。 Object features extracted by object detection algorithms play an increasingly critical role in the generation of image captions.However,only using the features of object detection as the input of an image caption task can lead to the loss of other information except the key object information and generation of a caption that lacks an accurate expression of its relationship with the image object.To solve these disadvantages,an object Transformer encoder for encoding object features in an image and a shift window Transformer for encoding relational features in an image are proposed to make joint efforts to encode different aspects of information in an image.The object features of the object Transformer encoder are fused with the relational features of the shift window Transformer by splicing method,to achieve the purpose of fusion of the internal relational and local object features.Finally,a Transformer decoder is utilized to decode the fused coding features and generate the corresponding image caption.Extensive experiments on the Common Objects in COntext(MS-COCO) dataset and comparison with the current classical model algorithm show that the performance of the proposed model is significantly better than that of the baseline model.The experimental results indicate that the scores of BiLingual Evaluation Understudy 4-gram(BLEU-4),Metric for Evaluation of Translation with Explicit ORdering(METEOR),Recall-Oriented Understudy for Gisting Evaluation-Longest common subsequence(ROUGE-L),and Consensus-based Image Description Evaluation(CIDEr) metrics can reach 38.6%,28.7%,58.2% and 127.4%respectively,better than those of the traditional image caption algorithm.Moreover,it can generate more detailed and accurate captions.

作者衡红军范昱辰王家亮 HENG Hongjun;FAN Yuchen;WANG Jialiang(School of Computer Science and Technology,Civil Aviation University of China,Tianjin 300300,China)

机构地区中国民航大学计算机科学与技术学院

出处《计算机工程》 CAS CSCD 北大核心 2023年第2期199-205,共7页 Computer Engineering

基金国家自然科学基金(U1333109)。

关键词图像描述转换窗口多头注意力机制多模态任务 Transformer编码器 image caption shift window multi-headed attention mechanism multimodal task Transformer encoder

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1韦人予,蒙祖强.基于注意力特征自适应校正的图像描述模型[J].计算机应用,2020,40(S01):45-50. 被引量：4

二级参考文献2

1杨丽,吴雨茜,王俊丽,刘义理.循环神经网络研究综述[J].计算机应用,2018,38(A02):1-6. 被引量：389
2张姣,杨振宇.图像描述生成方法研究文献综述[J].智能计算机与应用,2019,9(5):45-49. 被引量：7

共引文献3

1李康康,张静.基于注意力机制的多层次编码和解码的图像描述模型[J].计算机应用,2021,41(9):2504-2509. 被引量：3
2李志欣,苏强.基于知识辅助的图像描述生成[J].广西师范大学学报（自然科学版）,2022,40(5):418-432.
3周红,周莉,汤世隆,黄文.基于跨模态技术的地铁施工风险对策生成方法研究[J].工程管理学报,2024,38(4):95-100.

同被引文献41

1姚永祥,张永军,万一,刘欣怡,郭浩宇.顾及各向异性加权力矩与绝对相位方向的异源影像匹配[J].武汉大学学报（信息科学版）,2021,46(11):1727-1736. 被引量：21
2赵敬伟,林珊玲,梅婷,林志贤,郭太良.基于YOLACT与Transformer相结合的实例分割算法研究[J].半导体光电,2023,44(1):134-140. 被引量：2
3卫少洁,周永霞.一种结合Alphapose和LSTM的人体摔倒检测模型[J].小型微型计算机系统,2019,40(9):1886-1890. 被引量：14
4李志欣,魏海洋,黄飞成,张灿龙,马慧芳,史忠植.结合视觉特征和场景语义的图像描述生成[J].计算机学报,2020,43(9):1624-1640. 被引量：25
5邓宇乔,宋歌,杨波,彭长根,唐春明,温雅敏.基于身份的可验证密钥的公钥内积函数加密算法[J].计算机学报,2021,44(1):209-221. 被引量：11
6杜鹏飞,李小勇,高雅丽.多模态视觉语言表征学习研究综述[J].软件学报,2021,32(2):327-348. 被引量：26
7刘雁孝,吴萍,孙钦东.基于区域卷积神经网络的图像秘密共享方案[J].计算机研究与发展,2021,58(5):1065-1074. 被引量：10
8刘云锴,彭程,边赟.基于直线段检测器的多阈值图像表格框线提取算法[J].计算机应用,2021,41(S01):250-254. 被引量：3
9汪威,胡旭晓,吴跃成,丁楠楠,王佳.基于深度学习的自动扶梯视频人体动作识别[J].软件工程,2021,24(9):24-27. 被引量：4
10文高进,王洪民,钟灿,尚志鸣.基于图像熵的红外非均匀性参数化校正优选方法[J].航天返回与遥感,2021,42(4):91-98. 被引量：3

引证文献4

1侯颖,杨林,胡鑫,贺顺,宋婉莹,赵谦.基于SwinT-YOLOX模型的自动扶梯行人安全检测算法[J].计算机工程,2024,50(3):277-289.
2段毛毛,魏燚伟.基于多模态交互网络的图像描述[J].计算机技术与发展,2024,34(5):44-51. 被引量：1
3赵丽斌,杜娇娇,贺铮,王祝先,韩宏亮,范蕊,徐翌博.无人机遥感图像几何畸变校正全过程控制方法研究[J].计算机测量与控制,2024,32(7):133-139.
4白雪冰,车进,吴金蔓,陈玉敏.基于Transformer视觉特征融合的图像描述方法[J].计算机工程,2024,50(8):229-238.

二级引证文献1

1李满江,鞠传森,任鹏.智能多语种新闻采编系统的多模态数据融合研究[J].信息技术与信息化,2024(8):202-206.

1邓雪,赵皓,张静,梅菠萍,张华.结合Cannikin’s Law的离线数据增广方法研究[J].计算机工程与应用,2023,59(1):207-212.
2马苗,陈小秋,田卓钰.基于多模态特征的视频密集描述生成方法[J].中文信息学报,2022,36(11):156-168. 被引量：1
3许文军,郑虹,郑肇谦.基于ALBERT预训练模型生成式文本摘要[J].长春工业大学学报,2022,43(6):719-725. 被引量：1
4成悦,赵康,勾智楠,高凯.基于度量学习和层级推理网络的抽取式摘要方法[J].河北科技大学学报,2022,43(6):594-601.
5Le Défi des Vignerons du Ningxia:le rouge de la réussite[J].今日中国（法文版）,2018,56(1):66-67.
6Relever le défi de la biodiversité par la ligne rouge écologique[J].今日中国（法文版）,2021,59(10):5-5.
7高玮军,朱婧,赵华洋,李磊.基于TRF-IM模型的个性化酒店评论摘要生成[J].计算机工程与应用,2023,59(2):135-142. 被引量：1
8郭继峰,费禹潇,孙文博,谢培浇,张健.一种融合主题的PGN-GAN文本摘要模型[J].小型微型计算机系统,2023,44(1):199-203. 被引量：1
9赵丽容.基于视觉引导的智能英语翻译机器人人机交互系统[J].自动化与仪器仪表,2022(11):220-225. 被引量：11
10徐文文,王裴岩,张桂平,蔡东风.基于深度学习的制造工艺过程自动生成方法研究[J].计算机应用与软件,2022,39(12):96-101.

计算机工程

2023年第2期

浏览历史

内容加载中请稍等...

基于Transformer的多方面特征编码图像描述生成算法被引量：4

参考文献1

二级参考文献2

共引文献3

同被引文献41

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Transformer的多方面特征编码图像描述生成算法 被引量：4

参考文献1

二级参考文献2

共引文献3

同被引文献41

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Transformer的多方面特征编码图像描述生成算法被引量：4