基于差异化和空间约束的自动图像描述模型

Image captioning model based on divergence-based and spatial consistency constraints

下载PDF

导出

摘要多头注意力机制是图像描述模型的常用方法,该机制通过多分支结构构建关于输入特征的独特属性,以提高特征模型的区分性。然而,不同分支的独立性导致建模存在冗余性。同时,注意力机制会关注于不重要的图像区域,导致描述的文本不够准确。针对上述问题,提出一种损失函数作为训练目标的正则化项,以提高多头注意力机制的多样性和准确性。在多样性方面,提出一种多头注意力的差异化正则,鼓励多头注意力机制的不同分支关注于所描述目标的不同部件,使不同分支的建模目标变得简单。同时,不同分支相互融合,最后形成完整且更有区分性的视觉描述。在准确性方面,设计一种空间一致性正则。通过建模多头注意力机制的空间关联,鼓励注意力机制关注的图像区域尽可能集中,从而抑制背景区域的影响,提高注意力机制的准确性。提出差异化正则和空间一致性正则共同作用的方法,最终提升自动图像描述模型的准确性。所提方法在MS COCO数据集上对模型进行验证,并与多种代表性工作进行对比。实验结果表明:所提方法显著地提高了图像描述的准确性。 The multi-head attention mechanism has been widely adopted in image captioning.It is appealing for the ability to jointly attend to information from different representation subspaces.However,as each head captures distinct properties of the input individually,the diversity between heads’representations is not guaranteed.In the meanwhile,most existing attention models encounter the problem of“attention defocus”,i.e.,they fail to concentrate on correct image regions when generating the target words.Consequently,the generated sentences are not accurate enough.To address these problems,we propose a novel training objective that serves as an auxiliary regularization function to improve the diversity and accuracy of the multi-head attention mechanism.In the beginning,we present a divergence-based regularization that encourages each brain to concentrate on various areas of the goal.Partial representations are aggregated to produce distinct representations of the target.Secondly,we introduce a spatial consistency regularization that builds the spatial relationship among the attended regions.By encouraging the attended regions to be focussed,it enhances image captioning.We proposed a method for the joint action of divergence-based regularization and spatial consistency regularization.We compare the performance of the proposed method with state-of-the-art methods on challenging MS COCO datasets.The experimental results demonstrate the superior performance of the proposed method.

作者姜文晖陈志亮程一波方玉明左一帆 JIANG Wenhui;CHEN Zhiliang;CHENG Yibo;FANG Yuming;ZUO Yifan(School of Information Management,Jiangxi University of Finance and Economics,Nanchang 330032,China)

机构地区江西财经大学信息管理学院

出处《北京航空航天大学学报》 EI CAS CSCD 北大核心 2024年第2期456-465,共10页 Journal of Beijing University of Aeronautics and Astronautics

基金国家自然科学基金(62161013,62162029) 江西省重点研发计划项目(20203BBE53033) 江西省自然科学基金(20224BAB212010,20212BAB202011,20224BAB212012,20232BAB202001)。

关键词多头注意力机制图像描述差异性空间约束模态融合 multi-head attention mechanism image captioning diversity spatial consistency model fusion

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1石义乐,杨文忠,杜慧祥,王丽花,王婷,理珊珊.基于深度学习的图像描述综述[J].电子学报,2021,49(10):2048-2060. 被引量：9
2谭云兰,汤鹏杰,张丽,罗玉盘.从图像到语言:图像标题生成与描述[J].中国图象图形学报,2021,26(4):727-750. 被引量：2
3毕健旗,刘茂福,胡慧君,代建华.基于依存句法的图像描述文本生成[J].北京航空航天大学学报,2021,47(3):431-440. 被引量：3

二级参考文献6

1汤鹏杰,谭云兰,李金忠.融合图像场景及物体先验知识的图像描述生成模型[J].中国图象图形学报,2017,22(9):1251-1260. 被引量：16
2汤鹏杰,王瀚漓,许恺晟.LSTM逐层多目标优化及多层概率融合的图像描述[J].自动化学报,2018,44(7):1237-1249. 被引量：27
3李勇,成红红,梁新彦,郭倩,钱宇华.CNN图像标题生成[J].西安电子科技大学学报,2019,46(2):152-157. 被引量：7
4权宇,李志欣,张灿龙,马慧芳.融合深度扩张网络和轻量化网络的目标检测模型[J].电子学报,2020,48(2):390-397. 被引量：20
5刘颖,刘红燕,范九伦,公衍超,李莹华,王富平,卢津.基于深度学习的小目标检测研究与应用综述[J].电子学报,2020,48(3):590-601. 被引量：79
6张红斌,蒋子良,熊其鹏,武晋鹏,邬任重,袁天,姬东鸿.基于改进的有效区域基因选择与跨模态语义挖掘的图像属性标注[J].电子学报,2020,48(4):790-799. 被引量：3

共引文献11

1张炫,刘茂福,邱晨,胡慧君.基于图文双向引导注意力的新闻图集描述生成方法[J].武汉大学学报（理学版）,2023,69(2):223-232.
2黄欣,顾梦丹,易玉根,曹远龙.基于深度学习的X线胸片肺部描述自动生成[J].模式识别与人工智能,2021,34(6):552-560.
3谈馨悦,何小海,王正勇,罗晓东,卿粼波.基于Transformer交叉注意力的文本生成图像技术[J].计算机科学,2022,49(2):107-115. 被引量：3
4王宇航,张灿龙,李志欣,王智文.体现用户意图和风格的图像描述生成[J].广西师范大学学报（自然科学版）,2022,40(4):91-103.
5刘仲民,周志亮.基于生成对抗网络的情感语义描述与生成[J].舰船电子工程,2022,42(8):125-128. 被引量：1
6李志欣,苏强.基于知识辅助的图像描述生成[J].广西师范大学学报（自然科学版）,2022,40(5):418-432.
7姜文晖,占锟,程一波,夏雪,方玉明.结合多层级解码器和动态融合机制的图像描述[J].中国图象图形学报,2022,27(9):2775-2787. 被引量：2
8杨俊成,李淑霞.交通事故现场语义描述分析[J].信息与电脑,2023,35(5):73-76.
9周子懿,熊海灵.基于深度学习的图像描述优化策略[J].计算机科学,2023,50(8):99-110. 被引量：1
10徐连瑞,游雄.任务驱动视角下机器地图现状与发展[J].武汉大学学报（信息科学版）,2024,49(4):609-623.

1逯苗苗,周思思.乡村产业融合发展的空间关联网络及其驱动因素研究[J].商业经济研究,2024(5):112-116.
2裴敏玥,赵一鸣,李楠.Cox回归模型的应用条件[J].中华儿科杂志,2024,62(2):100-100.
3宋艳飞,王恒友,何强,陈琳琳.基于改进Mask R-CNN的建筑工地实例分割算法[J].电子测量技术,2023,46(18):163-170.
4卢祥林,肖刚,韦世宝.6.5 L两气门柴油机螺旋进气道的开发与优化[J].汽车与新动力,2024,7(1):42-47.
5倪卫国,黄晓荣,栗鑫,陈宇嘉,蒋衫科.基于YOLO5的无人机智能火情巡检系统研究[J].中国宽带,2023,19(3):193-195.
6邱洪基.央企党校智库建设策略研究[J].中国发展观察,2023(11):91-95.
7黄旭波,黄磊,艾丹,杨秋,姚林朋.基于GIS和电压波形相关性分析的低压配电网拓扑识别方法[J].哈尔滨理工大学学报,2023,28(5):42-50.
8刘毅,易旺民,姚建涛,王兴达,余鹏,赵永生.狭长空间内重载调姿装配机器人的设计与研究[J].中国机械工程,2024,35(2):324-336.
9李贵飞,李跃松,库祥臣,张贻哲.磁致伸缩执行器数学建模与仿真分析[J].计算机仿真,2024,41(1):328-332.
10ZHANG Hongying,LU Chengjian,CHEN Enyao.Obstacle detection:improved YOLOX-S based on swin transformer-tiny[J].Optoelectronics Letters,2023,19(11):698-704. 被引量：1

北京航空航天大学学报

2024年第2期

浏览历史

内容加载中请稍等...

基于差异化和空间约束的自动图像描述模型

参考文献3

二级参考文献6

共引文献11

相关作者

相关机构

相关主题

浏览历史