基于注意力机制的多层次编码和解码的图像描述模型被引量：3

Multi-layer encoding and decoding model for image captioning based on attention mechanism

下载PDF

导出

摘要图像描述任务是图像理解的一个重要分支,它不仅要求能够正确识别图像的内容,还要求能够生成在语法和语义上正确的句子。传统的基于编码器−解码器的模型不能充分利用图像特征并且解码方式单一。针对这些问题,提出一种基于注意力机制的多层次编码和解码的图像描述模型。首先使用Faster R-CNN(Faster Region-based Convolutional Neural Network)提取图像特征,然后采用Transformer提取图像的3种高层次特征,并利用金字塔型的融合方式对特征进行有效融合,最后构建3个长短期记忆(LSTM)网络对不同层次特征进行层次化解码。在解码部分,利用软注意力机制使得模型能够关注当前步骤所需要的重要信息。在MSCOCO大型数据集上进行实验,利用多种指标(BLEU、METEOR、ROUGE-L、CIDEr)对模型进行评价,该模型在指标BLEU-4、METEOR和CIDEr上相较于Recall(Recall what you see)模型分别提升了2.5个百分点、2.6个百分点和8.8个百分点;相较于HAF(Hierarchical Attention-based Fusion)模型分别提升了1.2个百分点、0.5个百分点和3.5个百分点。此外,通过可视化生成的描述语句可以看出,所提出模型所生成的描述语句能够准确反映图像内容。 The task of image captioning is an important branch of image understanding.It requires not only the ability to correctly recognize the image content,but also the ability to generate grammatically and semantically correct sentences.The traditional encoder-decoder based model cannot make full use of image features and has only a single decoding method.In response to these problems,a multi-layer encoding and decoding model for image captioning based on attention mechanism named MLED was proposed.Firstly,Faster Region-based Convolutional Neural Network(Faster R-CNN)was used to extract image features.Then,Transformer was employed to extract three kinds of high-level features of the image.At the same time,the pyramid fusion method was used to effectively fuse the features.Finally,three Long Short-Term Memory(LSTM)Networks were constructed to decode the features of different layers hierarchically.In the decoding part,the soft attention mechanism was used to enable the model to pay attention to the important information required at the current step.The proposed model was tested on MSCOCO dataset and evaluated by BLEU,METEOR,ROUGE-L and CIDEr.Experimental results show that on the indicators BLEU-4,METEOR and CIDEr,the model is increased by 2.5 percentage points,2.6 percentage points and 8.8 percentage points compared to the Recall what you see(Recall)model respectively,and is improved by 1.2 percentage points,0.5 percentage points and 3.5 percentage points compared to the Hierarchical Attention-based Fusion(HAF)model respectively.The visualization of the generated description sentences show that the sentence generated by the proposed model can accurately reflect the image content.

作者李康康张静 LI Kangkang;ZHANG Jing(School of Information Science and Engineering,East China University of Science and Technology,Shanghai 200237,China)

机构地区华东理工大学信息科学与工程学院

出处《计算机应用》 CSCD 北大核心 2021年第9期2504-2509,共6页 journal of Computer Applications

基金国家自然科学基金资助项目(61402174)。

关键词图像描述卷积神经网络长短期记忆网络多层次编码多层次解码注意力机制 image captioning Convolutional Neural Network(CNN) Long Short-Term Memory(LSTM)network multilayer encoding multi-layer decoding attention mechanism

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1李文惠,曾上游,王金金.基于改进注意力机制的图像描述生成算法[J].计算机应用,2021,41(5):1262-1267. 被引量：6
2赵小虎,李晓.基于多特征提取的图像语义描述算法[J].计算机应用,2021,41(6):1640-1646. 被引量：3
3韦人予,蒙祖强.基于注意力特征自适应校正的图像描述模型[J].计算机应用,2020,40(S01):45-50. 被引量：4

二级参考文献6

1杨丽,吴雨茜,王俊丽,刘义理.循环神经网络研究综述[J].计算机应用,2018,38(A02):1-6. 被引量：389
2陈龙杰,张钰,张玉梅,吴晓军.基于多注意力多尺度特征融合的图像描述生成算法[J].计算机应用,2019,39(2):354-359. 被引量：15
3陶云松,张丽红.基于双向注意力机制图像描述方法研究[J].测试技术学报,2019,33(4):346-350. 被引量：4
4王媛华.基于多融合模型的图像语义描述研究[J].河南科技,2019,0(14):34-36. 被引量：2
5张姣,杨振宇.图像描述生成方法研究文献综述[J].智能计算机与应用,2019,9(5):45-49. 被引量：7
6黄友文,游亚东,赵朋.融合卷积注意力机制的图像描述生成模型[J].计算机应用,2020,40(1):23-27. 被引量：13

共引文献9

1唐钰,唐加山.一种改进的TF-IDF文本分类算法[J].信息技术与信息化,2022(3):13-16. 被引量：8
2李志欣,苏强.基于知识辅助的图像描述生成[J].广西师范大学学报（自然科学版）,2022,40(5):418-432.
3师泽洲,王峰,王晔,贾海蓉.基于SCAM神经网络的图像情绪识别研究[J].激光杂志,2022,43(9):88-93.
4杨有,陈立志,方小龙,潘龙越.融合自适应常识门的图像描述生成模型[J].计算机应用,2022,42(12):3900-3905. 被引量：1
5吕玉超,姜茜,徐英豪,朱习军.基于多尺度特征融合的改进臂丛神经分割方法[J].计算机应用,2023,43(1):273-279.
6衡红军,范昱辰,王家亮.基于Transformer的多方面特征编码图像描述生成算法[J].计算机工程,2023,49(2):199-205. 被引量：4
7朱晨豪,叶霞,陆琪多.多模态图像描述任务综述[J].计算机仿真,2023,40(6):1-8.
8王旭,刘昌宏,李生春,刘爽,赵康廷,陈亮.基于自然语言生成的制造企业自动化图表分析方法研究[J].计算机科学,2024,51(4):174-181.
9周红,周莉,汤世隆,黄文.基于跨模态技术的地铁施工风险对策生成方法研究[J].工程管理学报,2024,38(4):95-100.

同被引文献12

1任越美,程显毅,李小燕,谢玉宇.基于概念级语义的图像描述与识别[J].计算机科学,2008,35(7):206-212. 被引量：2
2陈龙杰,张钰,张玉梅,吴晓军.基于多注意力多尺度特征融合的图像描述生成算法[J].计算机应用,2019,39(2):354-359. 被引量：15
3邓珍荣,张宝军,蒋周琴,黄文明.融合word2vec和注意力机制的图像描述模型[J].计算机科学,2019,46(4):268-273. 被引量：7
4马苗,王伯龙,吴琦,武杰,郭敏.视觉场景描述及其效果评价[J].软件学报,2019,30(4):867-883. 被引量：5
5黄友文,游亚东,赵朋.融合卷积注意力机制的图像描述生成模型[J].计算机应用,2020,40(1):23-27. 被引量：13
6林贤早,刘俊,田胜,徐小康,姜涛.基于多空间混合注意力的图像描述生成方法[J].计算机应用,2020,40(4):985-989. 被引量：2
7Guangcun SHAN,Hongyu WANG,Wei LIANG,Kai CHEN.Robust encoder–decoder learning framework for offline handwritten mathematical expression recognition based on a multi-scale deep neural network[J].Science China(Information Sciences),2021,64(3):216-218. 被引量：3
8李雅红,周海英,徐少伟.基于对象关系网状转换器的图像描述模型[J].计算机工程,2021,47(5):197-204. 被引量：2
9李文惠,曾上游,王金金.基于改进注意力机制的图像描述生成算法[J].计算机应用,2021,41(5):1262-1267. 被引量：6
10王会勇,卢超,张晓明.基于小样本学习和语义信息的图像描述模型[J].计算机工程,2021,47(8):260-270. 被引量：1

引证文献3

1陈路,陈道喜,陆一鸣,陆卫忠.基于注意力机制编码器-解码器的手写数学公式识别模型[J].计算机应用,2023,43(4):1297-1302. 被引量：2
2隋佳宏,毛莺池,于慧敏,王子成,平萍.基于图注意力网络的全局图像描述生成方法[J].计算机应用,2023,43(5):1409-1415. 被引量：1
3朱晨豪,叶霞,陆琪多.多模态图像描述任务综述[J].计算机仿真,2023,40(6):1-8.

二级引证文献3

1付鹏斌,徐宇,杨惠荣.基于多尺度特征融合的互学习脱机手写数学公式识别[J].华南理工大学学报（自然科学版）,2024,52(2):23-31.
2张镭赋,高家骥.多模态图像局部极值点特征生成方法仿真[J].计算机仿真,2024,41(8):481-485.
3张墨逸,邢蕾,叶洪昶,陈海燕.基于注意力网络集成的联机空中手写识别研究[J].计算机技术与发展,2024,34(10):126-133.

1何青,孟洋洋,李华智.多层次编码—解码网络遥感图像建筑物分割[J].计算机应用研究,2021,38(8):2510-2514. 被引量：6
2彭雅坤,曹伊宁,刘晓群.基于YOLOv5s的滑雪人员检测研究[J].长江信息通信,2021,34(8):24-26. 被引量：3
3胡胜利,张松林.一种基于混合深度学习的推荐算法[J].厦门理工学院学报,2021,29(3):49-55. 被引量：1
4皮瑶,刘惠康,李倩.基于柔性薄膜阵列压力传感器的抱闸故障诊断[J].高技术通讯,2021,31(8):836-843. 被引量：1
5陈玮,钟书华.中美日韩德图像理解技术发展比较——基于DII数据库的实证分析[J].世界科技研究与发展,2021,43(4):463-473. 被引量：1
6杨友.神经心理发育障碍儿童静态眼睛照片深度学习的病例对照初步研究[J].中国循证儿科杂志,2021,16(3):237-240. 被引量：1
7赵宏,孔东一.图像特征注意力与自适应注意力融合的图像内容中文描述[J].计算机应用,2021,41(9):2496-2503. 被引量：6
8萧阳,杨超逸(译).与戴维森一起读《论语》——早期汉语的语气、语力与交流实践[J].思想与文化,2020(1):3-24.
9钱梦薇,过弋.融合偏置深度学习的距离分解Top-N推荐算法[J].计算机科学,2021,48(9):103-109. 被引量：2
10Asaf Marco.Activity-dependent remodeling of genome architecture in engram cells facilitates memory formation and recall[J].Neural Regeneration Research,2022,17(5):991-993.

计算机应用

2021年第9期

浏览历史

内容加载中请稍等...

基于注意力机制的多层次编码和解码的图像描述模型被引量：3

参考文献3

二级参考文献6

共引文献9

同被引文献12

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于注意力机制的多层次编码和解码的图像描述模型 被引量：3

参考文献3

二级参考文献6

共引文献9

同被引文献12

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于注意力机制的多层次编码和解码的图像描述模型被引量：3