一种改进的全局注意机制图像描述方法被引量：6

Improved method for image caption with global attention mechanism

下载PDF

导出

摘要针对现有基于注意机制的图像描述方法全局信息缺失问题,提出了一种改进的全局注意机制图像描述方法。该方法在注意机制的基础上,通过设计全局特征网络来模拟人类感知机制的全过程,对图像全局特征进行增强。将所提方法在相同数据集和网络超参数的情况下与目前最优网络进行实验对比,分析了全局信息对生成文本的影响。实验结果显示,文中提出的方法在更具挑战性的中文文本描述任务上客观评价指标优于目前最优的模型。同时,在主观评价中能够生成更准确的文本内容,也更具丰富性与多样性,接近自然语言描述。 Aiming at the lack of global information in existing attention based image caption methods,we propose an improved image caption method with global attention mechanism.The proposed method mimics the entire human perception process via designing aglobal feature extraction network to enhance the global context based on visual attention mechanism.This paper compares the proposed method with the existing attention based image caption technique under the same dataset and hyper parameters,and analyzes the influence of introducing the global feature.The results show that our method outperforms the existing technique in objective evaluations with the challenging Chinese caption dataset.In the subjective evaluation,in the meanwhile,the captions generated by the proposed method describes the image more accurately,vividly and diversely,and they are more close to the natural language.

作者马书磊张国宾焦阳石光明 MA Shulei;ZHANG Guobin;JIAO Yang;SHI Guangming(School of Artificial Intelligence, Xidian Univ., Xi'an 710071, China;The 27 th Research Institute of China Electronic Technology Group Corporation, Zhengzhou 450047, China)

机构地区西安电子科技大学人工智能学院中国电子科技集团公司第二十七研究所

出处《西安电子科技大学学报》 EI CAS CSCD 北大核心 2019年第2期17-22,共6页 Journal of Xidian University

基金国家自然科学基金(61875157 61301288)

关键词图像描述注意力机制全局特征卷积神经网络循环神经网络 image caption attention mechanism global feature convolutional neural network recurrent neural network

分类号 TP37 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献2

1许强,李伟,占荣辉,邹鲲.一种改进的卷积神经网络SAR目标识别算法[J].西安电子科技大学学报,2018,45(5):177-183. 被引量：17
2李敏宁,张巧,赵劼.视觉注意机制下的三维重建技术的改进[J].西安电子科技大学学报,2014,41(5):192-196. 被引量：4

二级参考文献20

1Hajizadeh A, Farhadpour Z. An Algorithm for 3D Pore Space Reconstruction from a 2D Image Using Sequential Simulation and Gradual Deformation with the Probability Perturbation Sampler[J], Transport in Porous Media, 2012, 94 (3): 859-881.
2Kumar T S, Vijai A. 3D Reconstruction of Face from 2D CT Scan Images [C]//International Conference on Communication Technology and System Design. Oxford: Elceiver Ltd, 2012: 970-977.
3Ciechomski P D, Constantinescu M, Garcia J, et al. Development and Implementation of a Web-Enabled 3D Consultation Tool for Breast Augmentation Surgery Based on 3D-Image Reconstruction of 2D Pictures[J]. Journal of Medical Internet Research, 2012, 14(1): 21.
4Pilu M. A Direct Method for Stereo Correspondence Based on Singular Value Decomposition C] //Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE, 1997: 261-266.
5Salah A A, Alpaydin E, Akarun L. A Selective Attention-based Method for Visual Pattern Recognition with Application to Handwritten Digit Recognition and Face Reeognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(3): 420-425.
6魏立梅,张永瑞,谢维信,程相君.图像处理中边缘漏检的自动补偿[J].西安电子科技大学学报,1997,24(4):563-566. 被引量：2
7洪明坚,吕建斌,杨丹,毛有力.一种新的基于互信息的图像配准方法[J].重庆大学学报（自然科学版）,2009,32(6):697-700. 被引量：6
8康皓,王明倩,王莹莹.图像三维重建技术[J].企业技术开发,2009,28(6):42-43. 被引量：2
9高宏伟,于洋,刘晓阳.双目立体视觉三维重建实验平台研究[J].计算机工程与应用,2009,45(33):149-152. 被引量：5
10吴月娥,边后琴.尺度与特征引导视觉选择性注意机制模型[J].现代电子技术,2009,32(22):84-87. 被引量：2

共引文献19

1谢文娟.发挥地理实验对地理学习的正迁移作用[J].地理教学,2000(8):15-16.
2冯康.一元模糊事件PMJ模型研究[J].西安电子科技大学学报,2016,43(1):180-188.
3刘丹白.关于视觉随机街景三维仿真建模研究[J].计算机仿真,2016,33(4):438-441. 被引量：6
4李勇,成红红,梁新彦,郭倩,钱宇华.CNN图像标题生成[J].西安电子科技大学学报,2019,46(2):152-157. 被引量：7
5刘道华,崔玉爽,赵岩松,宋玉婷,王景慧.一种改进卷积神经网络的教学图像检索方法[J].西安电子科技大学学报,2019,46(3):52-58. 被引量：12
6朱苏雅,杜建超,李云松,汪小鹏.采用U-Net卷积网络的桥梁裂缝检测方法[J].西安电子科技大学学报,2019,46(4):35-42. 被引量：53
7刘树东,王晓敏,张艳.一种对称残差CNN的图像超分辨率重建方法[J].西安电子科技大学学报,2019,46(5):15-23. 被引量：14
8杨磊,岳云泽,李埔丞,章涛,杨桓.多地面运动目标大动态SAR成像稀疏表示[J].西安电子科技大学学报,2019,46(5):31-40. 被引量：6
9郭柳君,张雪英,陈桂军.深度线性判别分析用于两级脑控字符拼写解码[J].西安电子科技大学学报,2020,47(4):109-116. 被引量：2
10唐廷元,付波霖,李颖,娄佩卿,何宏昌,刘曼,马瑞雪,范冬林,高二涛.SegNet在从低空无人机影像中提取会仙岩溶湿地地物信息中的应用[J].湿地科学,2020,18(4):413-423. 被引量：4

同被引文献27

1杜海骏,刘学亮.融合约束学习的图像字幕生成方法[J].中国图象图形学报,2020,0(2):333-342. 被引量：5
2魏忠钰,范智昊,王瑞泽,承怡菁,赵王榕,黄萱菁.从视觉到文本:图像描述生成的研究进展综述[J].中文信息学报,2020(7):19-29. 被引量：14
3李志义,黄子风,许晓绵.基于表示学习的跨模态检索模型与特征抽取研究综述[J].情报学报,2018,37(4):422-435. 被引量：21
4葛瑞,王朝晖,徐鑫,季怡,刘纯平,龚声蓉.基于多层卷积神经网络特征和双向长短时记忆单元的行为识别（英文）[J].控制理论与应用,2017,34(6):790-796. 被引量：12
5马建红,王瑞杨,姚爽,刘双耀.基于深度学习的专利分类方法[J].计算机工程,2018,44(10):209-214. 被引量：17
6张俊飞,毕志升,吴小玲.基于词向量Doc2vec的双向LSTM情感分析[J].计算机与数字工程,2018,46(12):2385-2389. 被引量：8
7严双咏,刘长红,江爱文,叶继华,王明文.语义耦合相关的判别式跨模态哈希学习算法[J].计算机学报,2019,42(1):164-175. 被引量：14
8邓珍荣,张宝军,蒋周琴,黄文明.融合word2vec和注意力机制的图像描述模型[J].计算机科学,2019,46(4):268-273. 被引量：7
9李勇,成红红,梁新彦,郭倩,钱宇华.CNN图像标题生成[J].西安电子科技大学学报,2019,46(2):152-157. 被引量：7
10程俊华,曾国辉,鲁敦科,黄勃.基于Dropout的改进卷积神经网络模型平均方法[J].计算机应用,2019,39(6):1601-1606. 被引量：27

引证文献6

1陶友山.姚桥矿井改扩建工程移交生产[J].煤矿设计,2000(5):11-12.
2张哲铭,任淑霞,郭凯杰.结合主题感知与通信代理的文本摘要模型[J].西安电子科技大学学报,2020,47(3):97-104. 被引量：2
3邱一城,杨立身.结合残差学习和双模态CAE的图像描述方法[J].光学技术,2021,47(1):93-100.
4王辉,潘俊辉,王浩畅,张强,张岩.基于改进的CBOW与BI-LSTM-ATT的文本分类研究[J].计算机与数字工程,2021,49(7):1372-1376. 被引量：5
5赵宏,孔东一.图像特征注意力与自适应注意力融合的图像内容中文描述[J].计算机应用,2021,41(9):2496-2503. 被引量：6
6王宇航,张灿龙,李志欣,王智文.体现用户意图和风格的图像描述生成[J].广西师范大学学报（自然科学版）,2022,40(4):91-103.

二级引证文献13

1梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
2张鹏昊,秦斌.深度强化学习研究进展[J].电脑知识与技术,2021,17(28):104-106. 被引量：1
3谢崇波.一种注意力机制下的空气污染物预测方法[J].自动化与仪器仪表,2022(2):52-56.
4王茂,彭亚雄,陆安江.面向视觉问答的跨模态交叉融合注意网络[J].计算机应用,2022,42(3):854-859. 被引量：2
5许尧,马欢,许旵鹏,于和林,杨经超,毛玉荣.智能变电站继电保护智能运维系统自动配置技术研究[J].电力系统保护与控制,2022,50(11):160-168. 被引量：45
6何昀峰,王小戈,刘路希,王潇.基于注意力机制的入侵检测生成对抗网络模型[J].计算机应用,2022,42(S01):152-159. 被引量：3
7戴夏菁,徐谊程,王馨娅,佟德宇.基于Word2Vec的中文文本零水印算法[J].软件工程,2023,26(1):19-23. 被引量：1
8李克文,杨建涛,黄宗超.基于边界极限点特征的改进YOLOv3目标检测[J].计算机应用,2023,43(1):81-87. 被引量：4
9马行星,左军辉,池俊.基于文本分类与语义识别的电力运营数据智能处理[J].电子设计工程,2023,31(9):104-108.
10朱晨豪,叶霞,陆琪多.多模态图像描述任务综述[J].计算机仿真,2023,40(6):1-8.

1高涵,楼旭东.网络平台官方辟谣的评析与探讨——以微信安全中心公众号为例[J].新媒体研究,2019,5(2):51-53.
2牛斌,李金泽,房超,马利,徐和然,纪兴海.一种基于注意力机制与多模态的图像描述方法[J].辽宁大学学报（自然科学版）,2019,46(1):38-45.
3孟楚楚,赵立宏.结合梯度边缘信息改进的全局阈值法与GVF Snake模型的宫颈细胞图像分割[J].智能计算机与应用,2019,9(2):28-32. 被引量：6
4马苗,王伯龙,吴琦,武杰,郭敏.视觉场景描述及其效果评价[J].软件学报,2019,30(4):867-883. 被引量：5
5刘兴忠,郑国忠.如何利用本土资源开展丰富多彩的游戏活动[J].考试周刊,2019,0(23):26-26.
6武洁.论《瓦尔登湖》的审美价值[J].文化学刊,2018(12):56-58.
7张凯,李军辉,周国栋.基于枢轴语言的图像描述生成研究[J].中文信息学报,2019,33(3):110-117. 被引量：3
8沈奕莉.让幼儿从身边的“自然角”去接近自然——对幼儿园自然角创建的思考[J].儿童大世界（教学研究）,2019(2):269-270.
9丁峰,栾凌菲,理查德.安德森.电影制作者能从李安电影中学到什么?——电影感知视角下的案例研究[J].当代电影,2019(1):29-38. 被引量：5
10阮轶磊,张雷,李刚.基于CNN模型的装甲目标的提取与实现[J].科技与创新,2019(7):49-51.

西安电子科技大学学报

2019年第2期

浏览历史

内容加载中请稍等...

一种改进的全局注意机制图像描述方法被引量：6

参考文献2

二级参考文献20

共引文献19

同被引文献27

引证文献6

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种改进的全局注意机制图像描述方法 被引量：6

参考文献2

二级参考文献20

共引文献19

同被引文献27

引证文献6

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种改进的全局注意机制图像描述方法被引量：6