基于视觉自注意力机制的图像描述系统设计被引量：1

Image Captioning System Design Based on Visual Self Attention Mechanism

下载PDF

导出

摘要现有基于深度学习的注意力机制的图像描述算法往往会过分关注输入图像中的主要对象,这会导致生成的描述产生细节缺失和单词重复的缺陷。笔者采用视觉自注意力机制来避免模型在不同时间将注意力重复集中在相同内容上。系统首先通过目标检测算法Faster R-CNN获取实体的矩形边界,紧接着提取出各矩形区域及整张图片的特征向量,然后通过视觉自注意力机制处理特征向量得到图像的特征表示,最后将图像特征输入给由双层LSTM组成的语言模型,由语言模型输出图像的自然语言描述。本文选用图像描述领域最大的数据集Microsoft COCO验证设计系统的有效性,实验结果表明基于视觉自注意力机制的图像描述系统能够有效地抓住图像细节,生成通顺的描述语句。 Existing image captioning algorithms based on attention mechanism from deep learning tend to excessively attend to major objects appearing in the input image,which will lead to loss of details and repetition of words in generated captions.In this paper,visual self attention mechanism is adopted to prevent the model from repeatedly focusing on same content at different time steps.Firstly,the object detection algorithm Fast R-CNN is applied in the proposed system to obtain bounding-boxes.Then,feature vectors of each bounding-box and the whole image are extracted and those feature vectors are processed by visual self attention mechanism to get the image feature representation,which are finally fed into the language model of two stacked LSTM layers to output natural language description of the image.The validity of the designed system is verified on the largest dataset Microsoft COCO in the field of image captioning.The experimental results show that image captioning system based on visual self attention mechanism can effectively grasp image details and generate smooth caption.

作者胡今朝 Hu Jinzhao(School of Electronic Science and Applied Physics,Hefei University of Technology,Hefei Anhui 230009,China)

机构地区合肥工业大学电子科学与应用物理学院

出处《信息与电脑》 2020年第17期77-79,共3页 Information & Computer

关键词深度学习注意力机制图像描述视觉自注意力机制目标检测语言模型 deep learning attention mechanism image captioning visual self attention mechanism object detection language model

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1邓旭冉,李灵慧,唐胜,张勇东.图像内容自动描述技术综述[J].信息安全研究,2019,5(11):988-992. 被引量：1
2马春鹏,赵铁军.序列-序列模型注意力机制模块基本原理探究[J].智能计算机与应用,2020,0(1):1-6. 被引量：3
3秦爱梅,丁雨.基于人工智能视觉的特定场景识别系统设计[J].现代电子技术,2017,40(10):28-30. 被引量：12

二级参考文献7

1程少光,何毕,布树辉,刘贞报.基于超像素空间金字塔模型的场景识别研究[J].计算机工程与应用,2014,50(7):139-143. 被引量：6
2许家尧,孙苑.开放场景人脸识别系统及其应用[J].指挥信息系统与技术,2014,5(4):39-42. 被引量：5
3姜迈.基于激光及三维虚拟场景技术的表面平整度在线检测系统[J].计算机测量与控制,2015,23(1):50-52. 被引量：4
4田文奇,瞿心昱.基于自适应增量PCA算法的移动机器人场景识别[J].机床与液压,2015,43(9):87-89. 被引量：1
5王秀青,侯增广,潘世英,谭民,王永吉,曾慧.基于多超声传感器信息和NeuCube的移动机器人走廊场景识别[J].计算机应用,2015,35(10):2833-2837. 被引量：4
6胡宗达,杨长春,矣雷阳,韩可都.基于非限制性结构的地震动加速度计仿真设计[J].计算机仿真,2016,33(1):127-132. 被引量：6
7眭谦,毛万熙.场景理论视角下老工业基地区域品牌识别系统构建[J].城市管理与科技,2016,18(2):36-39. 被引量：2

共引文献13

1宁兆硕.中国人工智能产业发展分析及对策研究[J].山东行政学院学报,2018,0(1):69-75. 被引量：13
2张娟.三维多媒体视觉图像人工智能识别方法仿真[J].计算机仿真,2018,35(9):435-438. 被引量：12
3李慧.智能化时代图像的扁平化视觉应用[J].传播力研究,2019,0(4):250-250.
4汪海,王羽中,汪源.基于智能视觉的监控识别系统设计[J].自动化与仪器仪表,2019(4):49-53. 被引量：1
5盛宏兵,王鹏,吴小燕,黄清锋.分析基于人工智能视觉的特定场景识别系统设计[J].数码设计,2018,7(6):15-16.
6高晨.基于视觉传达的新型人工智能系统模块构成[J].现代电子技术,2019,42(23):120-124. 被引量：3
7郑钊.文化创意产业群视觉识别系统设计[J].现代电子技术,2020,43(17):158-161.
8陈瑞.基于LSTM注意力嵌入的英语机器翻译研究[J].自动化与仪器仪表,2021(10):140-143. 被引量：5
9李萌烨.基于视觉传达的新型人工智能系统优化设计分析[J].信息与电脑,2022,34(9):181-183.
10茹秀萍.基于视觉传达设计的计算机图形图像处理技术[J].信息与电脑,2022,34(14):175-177. 被引量：4

同被引文献4

1张明媛,曹志颖,赵雪峰,杨震.基于深度学习的建筑工人安全帽佩戴识别研究[J].安全与环境学报,2019,19(2):535-541. 被引量：67
2张姣,杨振宇.图像描述生成方法研究文献综述[J].智能计算机与应用,2019,9(5):45-49. 被引量：7
3徐守坤,吉晨晨,倪楚涵,李宁.融合施工场景及空间关系的图像描述生成模型[J].计算机工程,2020,46(6):256-265. 被引量：4
4李大舟,于沛,高巍,马辉.基于编解码器结构的中文文本摘要[J].计算机工程与设计,2021,42(3):696-702. 被引量：11

引证文献1

1袁启旺,芦健秋,户传真,涂小雅,周志文.深度学习图像字幕应用于施工现场视觉管理研究[J].科技风,2023(29):1-3.

1王俊豪,罗轶凤.通过细粒度的语义特征与Transformer丰富图像描述[J].华东师范大学学报（自然科学版）,2020(5):56-67. 被引量：1
2郭玉彬,曾晓银,吴少乾,李西明,王璇.微孔板图片微孔中心的精确定位方法[J].现代计算机,2020,26(17):42-45.
3邓捷,卫小燕,张晗,马红英,王启军,赵虎,张红星,姜维.大鲵MC1R基因的克隆、序列分析与表达研究[J].河北渔业,2020(10):24-29.
4任刚,李恩,赵世烨,江燕琼,王莎莎,唐思贤,胡慧建.棕背伯劳羽色多态与MC1R基因的相关性[J].生物多样性,2020,28(6):688-694. 被引量：4
5Fei Fang,Fei Luo,Hong-Pan Zhang,Hua-Jian Zhou,Alix L.H.Chow,Chun-Xia Xiao.A Comprehensive Pipeline for Complex Text-to-Image Synthesis[J].Journal of Computer Science & Technology,2020,35(3):522-537.
6罗会兰,岳亮亮.跨层多模型特征融合与因果卷积解码的图像描述[J].中国图象图形学报,2020,25(8):1604-1617. 被引量：3
7Maricel A.GURON,Jones T.NAPALDET.Distribution and morpho-anatomical characterization of ’Beket’(Coriaria japonica subsp. intermedia(Matsum) T.C. Huanh) in Cordillera Central Range, Northern Philippines[J].Journal of Mountain Science,2020,17(9):2136-2147. 被引量：1

信息与电脑

2020年第17期

浏览历史

内容加载中请稍等...

基于视觉自注意力机制的图像描述系统设计被引量：1

参考文献3

二级参考文献7

共引文献13

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于视觉自注意力机制的图像描述系统设计 被引量：1

参考文献3

二级参考文献7

共引文献13

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于视觉自注意力机制的图像描述系统设计被引量：1