面向图像自动语句标注的注意力反馈模型被引量：5

Feedback Attention Model for Image Captioning

下载PDF

导出

摘要图像自动语句标注利用计算机自动生成描述图像内容的语句,在服务机器人等领域有广泛应用.许多学者已经提出了一些基于注意力机制的算法,但是注意力分散问题以及由注意力分散引起的生成语句错乱问题还未得到较好解决.在传统注意力机制的基础上引入注意力反馈机制,利用关注信息的图像特征指导文本生成,同时借助生成文本中的关注信息进一步修正图像中的关注区域,该过程不断强化图像和文本中的关键信息匹配、优化生成的语句.针对常用数据集Flickr8k, Flickr30k 和MSCOCO 的实验结果表明,该模型在一定程度上解决了注意力分散和语句顺序错乱问题,比其他基于注意力机制方法标注的关注区域更加准确,生成语句更加通顺. The image captioning problem aims to let machine generate relevant sentence of a given image, which has been applied to the service robot. To improve the performance of image captioning effectively, some researchers propose to leverage the attention mechanism. However, the mechanism often suffers from distraction and sentence-disorder. In this paper, we propose an image captioning model based on a novel feed-back attention mechanism. In generating the corresponding language for a given image, the proposed model uses the attention feedback from the generated language. With the feedback, the attention heatmap of the original image will be revised, and the generated sentence will also be better. We evaluate the proposed method on three benchmark datasets, i.e., Flickr8k, Flickr30k and MSCOCO, and the experimental results show the superiority of the proposed method.

作者吕凡胡伏原张艳宁夏振平盛胜利 Lyu Fan;Hu Fuyuan;Zhang Yanning;Xia Zhenping;Victor S Sheng(School of Electronic & Information Engineering, Suzhou University of Science and Technology, Suzhou 215009;Virtual Reality Key Laboratory of Intelligent Interaction and Application Technology of Suzhou, Suzhou 215009;School of Computer Science and Engineering, Northwestern Polytechnical University, Xi’an 710029;Department of Computer Science, University of Central Arkansas, Conway AZ 72035;College of Intelligence and Computing, Tianjin University, Tianjin 300072;Jiangsu Province Key Laboratory of Intelligent Building Energy Efficiency, Suzhou 215009)

机构地区苏州科技大学电子与信息工程学院苏州科技大学苏州市虚拟现实智能交互及应用技术重点实验室西北工业大学计算机学院 Department of Computer Science 天津大学智能与计算学部江苏省建筑智慧节能重点实验室

出处《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2019年第7期1122-1129,共8页 Journal of Computer-Aided Design & Computer Graphics

基金国家自然科学基金(61876121,61472267,61728205,61502329) 江苏省重点研发计划(BE2017663)

关键词图像自动语句标注注意力机制注意力反馈 image captioning attention mechanism attention feedback

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1孙丰,秦开怀,孙伟,郭华源.基于区域合并的图像显著性检测[J].计算机辅助设计与图形学学报,2016,28(10):1679-1687. 被引量：7
2高思晗,张雷,李成龙,汤进.融合低层和高层特征图表示的图像显著性检测算法[J].计算机辅助设计与图形学学报,2016,28(3):420-426. 被引量：4

二级参考文献25

1Luo P, Tian Y L , Wang X Q ef al. Switchable deep network fo rpedestrian detection[C] //Proceedings o f the IEEE ComputerSociety Conference on Computer V ision and Pattern Recognition Workshops. Los Alam ltos: IEEE Computer Society Press,2014: 49-56.
2Chen T, Cheng M M , Tan P, et ah Sketch2Photo: internet imagemontage[J]. AC M Transactions on Graphics, 2009,28(5): A rticle No. 124.
3Itti L . Autom atic foveation fo r video compression using aneurobiological model o f visual attention[J]. IEEE Transactionson Image Processing, 2004,13(10): 1304-1318.
4Itti L, Koch C, Niebur E. A model o f saliency-based visual attentionfo r rapid scene analysis[J]. IEEE Transactions on PatternAnalysis and Machine Intelligence, 1998,20(11): 1254-1259.
5Cheng M , M itra N J, Huang X , et al. Global contrast based salien t region detection[J]. IEEE Transactions on Pattern Analysisand Machine Intelligence, 2015,37(3): 569-582.
6Shen X H, W u Y. A unified approach to salient object detectionvia low rank m atrix recovery[C] //Proceedings o f the IEEEConference on Computer \^sio n and Pattern Recognition. LosAlam itos: IEEE Computer Society Press, 2012: 853-860.
7L iu T, Yuan Z J, Sun J, et al. Learning to detect a salient object[J]. IEEE Transactions on Pattern Analysis and MachineIntelligence, 2011, 33(2): 353-367.
8Yang J M , Yang M H. Top-down visual saliency via jo in t CRFand dictionary leam ing[C] //Proceedings o f the IEEE Conferenceon Computer Vision and Pattern Recognition. Los A lam itos:IEEE Computer Society Press, 2012: 2296-2303.
9B oqi A . Boosting bottom-up and top-down visual features fo rsaliency estim ation[C] //Proceedings o f the IEEE Conferenceon Computer ^ s io n and Pattern Recognition. Los Alam itos:IEEE Computer Society Press, 2012: 438-445.
10Harel J, Koch C, Perona P. Graph-based visual saliency[C]//Proceedings o f the 20th Annual Conference on Neural In formation Processing Systems. Cambridge: M IT Press, 2006:545-552.

共引文献9

1刘仲民,王阳,李战明,胡文瑾.基于简单线性迭代聚类和快速最近邻区域合并的图像分割算法[J].吉林大学学报（工学版）,2018,48(6):1931-1937. 被引量：13
2邓晨,谢林柏.全局对比和背景先验驱动的显著目标检测[J].计算机工程与应用,2018,54(3):212-216. 被引量：1
3李海波,曹云峰,丁萌,庄丽葵.基于异源图像特征的显著性融合检测方法[J].计算机技术与发展,2018,28(3):1-5. 被引量：2
4周治平,周方正.稀疏加权的背景模板优化提升显著目标检测算法[J].计算机辅助设计与图形学学报,2017,29(5):799-805. 被引量：2
5邓晨,谢林柏.融合多尺度对比与贝叶斯模型的显著目标检测[J].计算机工程与应用,2018,54(8):172-177. 被引量：5
6姚钊健,谭台哲.结合凸包先验与流形排序的显著性检测算法[J].计算机工程,2018,44(9):203-211. 被引量：5
7郑浪,罗天洪,王成琳,何泽银,李忠涛.适用于机场跑道异物检测的区域生长改进算法[J].现代电子技术,2020,43(9):51-54. 被引量：9
8杨瑞,钱晓军,孙振强,许振.自然场景下多区域特征融合的混合航拍图像分割算法[J].计算机应用,2021,41(8):2445-2452. 被引量：2
9张宝峰,曹珍珍,朱均超,刘娜.污染修复场地中基于显著性的目标检测方法[J].天津理工大学学报,2021,37(3):55-59. 被引量：1

同被引文献36

1承达瑜,秦坤,裴韬,欧阳,王蒙,徐连明.基于室内定位数据的群体时空行为可视化分析[J].地球信息科学学报,2019,21(1):36-45. 被引量：10
2冀振燕,皮怀雨,姚伟娜.融合多源异构数据的混合推荐模型[J].北京邮电大学学报,2019,42(1):126-132. 被引量：20
3李裕礞,练绪宝,徐博,王健,林鸿飞.基于用户隐性反馈行为的下一个购物篮推荐[J].中文信息学报,2017,31(5):215-222. 被引量：8
4陆凤仪,赵科渊,徐格宁,戚其松.基于多源信息融合及模糊故障树的小子样可靠性评估[J].工程设计学报,2017,24(6):609-617. 被引量：8
5唐志军,翟博龙,林国栋,晁武杰.信息融合技术在智能变电站故障分析决策中的应用[J].电网与清洁能源,2017,33(10):84-88. 被引量：13
6熊翔宇,郑建明.国外城镇化与信息化融合研究述评[J].情报理论与实践,2018,41(1):146-153. 被引量：7
7温饱,胡存刚,芮涛,张云雷.三相并网逆变器状态反馈模型预测控制策略[J].电力电子技术,2018,52(6):24-27. 被引量：8
8刘玉磊,马艳阳,徐伯初,支锦亦.基于过程体验的信息反馈交互设计[J].包装工程,2018,39(14):95-101. 被引量：8
9黄新平,黄萃,张韫麒,王萍.面向决策的政府网站信息资源领域知识融合服务模型研究[J].图书情报工作,2018,62(23):6-13. 被引量：5
10陈曦,唐斌,余飞.基于变权重理论和融合实时信息配电开关柜的状态评价[J].电子测量与仪器学报,2018,32(8):193-200. 被引量：10

引证文献5

1吴倩,应捷,黄影平,杨海马,胡文凯.融合多标签和双注意力机制的图像语义理解模型[J].智能计算机与应用,2020,0(1):12-21. 被引量：1
2胡燕.基于用户体验的交互式虚拟系统有效信息反馈融合模型设计[J].现代电子技术,2020,43(22):161-164. 被引量：1
3邓珍荣,张永林,杨睿,蓝如师,黄文明,罗笑南.结合全局和局部特征的BiGRU-RA图像中文描述模型[J].计算机辅助设计与图形学学报,2021,33(1):49-58. 被引量：2
4唐桂彬.基于图像注意力标注技术的空间GIS数据可视化研究[J].自动化与仪器仪表,2021(11):15-18. 被引量：2
5吴亦奇,韩放,张德军,何发智,陈壹林.基于特征通道和空间位置注意力的三维点云特征学习网络[J].计算机工程与科学,2022,44(7):1239-1246. 被引量：1

二级引证文献7

1王学勇,邹蕾,崔斌.基于VR技术的跨部门协同虚拟研讨空间系统[J].中国管理信息化,2022,25(1):163-168. 被引量：2
2郝梁.基于机器学习的地理信息协同标注方法研究[J].科技资讯,2022,20(10):25-27.
3冯掬琳,王彦裕.基于虚拟技术和深度学习英语教学训练系统设计[J].自动化与仪器仪表,2022(12):126-131.
4魏永超,李涛,邓毅.基于改进Mask R-CNN算法的孔探缺陷自动检测研究[J].电子设计工程,2023,31(9):1-6. 被引量：1
5于海涛,刘竞泽,刘乐.深度学习在情感分析领域的应用综述[J].现代信息科技,2023,7(17):50-54. 被引量：2
6靳雁霞,刘亚变,杨晶,史志儒,张翎,乔星宇.基于三维网格卷积的布料仿真模拟[J].计算机工程与设计,2024,45(4):1264-1271.
7郝子娴,汪兴建,杨有.联合视觉分组的图像中文描述[J].微电子学与计算机,2024,41(8):73-80.

1孙夕文.激励教育在小学语文教学中的作用[J].新教育时代电子杂志（学生版）,2019(11):82-82.
2彻力格尔.简笔画在小学语文教学中的应用模式研究[J].新作文（教研）,2019,0(5):0026-0027.
3刘兴亮.基于Excel函数在煤质化验数据文本格式转换的应用[J].信息周刊,2019(15):0418-0418.
4曹文妹,宗莲,王丹丹,郭晨健,陈刚.卫生行政处罚案由名称的拟定规则[J].中国卫生监督杂志,2017,24(5):426-431. 被引量：1
5马晋闽,王玉龙.精准教学反馈模型在高三生物教学中的应用[J].教育信息技术,2019,0(6):65-67. 被引量：1
6林囯明.中考名篇名句复习策略[J].明日,2017(44):0193-0193.
7余超.论“宗法德治”话语对于中国法律文本生成之影响初探[J].今古传奇（文化评论）,2019,0(6):0064-0065.
8李永斌.汉英语序比较与翻译[J].学园,2018,11(29):145-146.
9陈勇,何彦秋.数字阅读对青少年学习力的影响及教育对策研究[J].教育探索,2019,0(3):12-15. 被引量：3
10陈双莲.蒙英翻译中的母语习惯迁移现象[J].文教资料,2019(1):29-30.

计算机辅助设计与图形学学报

2019年第7期

浏览历史

内容加载中请稍等...

面向图像自动语句标注的注意力反馈模型被引量：5

参考文献2

二级参考文献25

共引文献9

同被引文献36

引证文献5

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

面向图像自动语句标注的注意力反馈模型 被引量：5

参考文献2

二级参考文献25

共引文献9

同被引文献36

引证文献5

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

面向图像自动语句标注的注意力反馈模型被引量：5