基于语境辅助转换器的图像标题生成算法被引量：1

Context-assisted Transformer for Image Captioning

下载PDF

导出

摘要在图像标题生成领域,交叉注意力机制在建模语义查询与图像区域的关系方面,已经取得了重要的进展.然而,其视觉连贯性仍有待探索.为填补这项空白,提出一种新颖的语境辅助的交叉注意力(Context-assisted cross attention,CACA)机制,利用历史语境记忆(Historical context memory,HCM),来充分考虑先前关注过的视觉线索对当前注意力语境生成的潜在影响.同时,提出一种名为“自适应权重约束(Adaptive weight constraint,AWC)”的正则化方法,来限制每个CACA模块分配给历史语境的权重总和.本文将CACA模块与AWC方法同时应用于转换器(Transformer)模型,构建一种语境辅助的转换器(Context-assisted transformer,CAT)模型,用于解决图像标题生成问题.基于MS COCO(Microsoft common objects in context)数据集的实验结果证明,与当前先进的方法相比,该方法均实现了稳定的提升. The cross attention mechanism has made significant progress in modeling the relationship between semantic queries and image regions in image captioning.However,its visual coherence remains to be explored.To fill this gap,we propose a novel context-assisted cross attention(CACA)mechanism.With the help of historical context memory(HCM),CACA fully considers the potential impact of previously attended visual cues on the generation of current attention context.Moreover,we present a regularization method,called adaptive weight constraint(AWC),to restrict the total weight assigned to the historical contexts of each CACA module.We apply CACA and AWC to the Transformer model and construct a context-assisted transformer(CAT)for image captioning.Experimental results on the MS COCO(microsoft common objects in context)dataset demonstrate that our method achieves consistent improvement over the current state-of-the-art methods.

作者连政王瑞李海昌姚辉胡晓惠 LIAN Zheng;WANG Rui;LI Hai-Chang;YAO Hui;HU Xiao-Hui(University of Chinese Academy of Sciences,Beijing 101408;Science&Technology on Integrated Information System Laboratory,Institute of Software,Chinese Academy of Sciences,Beijing 100190)

机构地区中国科学院大学中国科学院软件研究所天基综合信息系统重点实验室

出处《自动化学报》 EI CAS CSCD 北大核心 2023年第9期1889-1903,共15页 Acta Automatica Sinica

基金国家重点研发计划(2019YFB1405100) 国家自然科学基金(61802380)资助。

关键词图像标题生成注意力机制转换器视觉连贯性 Image captioning attention mechanism transformer visual coherence

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1王鑫,宋永红,张元林.基于显著性特征提取的图像描述算法[J].自动化学报,2022,48(3):735-746. 被引量：4
2汤鹏杰,王瀚漓,许恺晟.LSTM逐层多目标优化及多层概率融合的图像描述[J].自动化学报,2018,44(7):1237-1249. 被引量：28

二级参考文献10

1蒋树强,闵巍庆,王树徽.面向智能交互的图像识别技术综述与展望[J].计算机研究与发展,2016,53(1):113-122. 被引量：93
2段艳杰,吕宜生,张杰,赵学亮,王飞跃.深度学习在控制领域的研究现状与展望[J].自动化学报,2016,42(5):643-654. 被引量：147
3郭潇逍,李程,梅俏竹.深度学习在游戏中的应用[J].自动化学报,2016,42(5):676-684. 被引量：22
4张红斌,姬东鸿,尹兰,任亚峰.基于梯度核特征及N-gram模型的商品图像句子标注[J].计算机科学,2016,43(5):269-273. 被引量：5
5王伟凝,王励,赵明权,蔡成加,师婷婷,徐向民.基于并行深度卷积神经网络的图像美感分类[J].自动化学报,2016,42(6):904-914. 被引量：53
6奚雪峰,周国栋.面向自然语言处理的深度学习研究[J].自动化学报,2016,42(10):1445-1465. 被引量：226
7石俊飞,刘芳,林耀海,刘璐.基于深度学习和层次语义模型的极化SAR分类[J].自动化学报,2017,43(2):215-226. 被引量：13
8汤鹏杰,王瀚漓,许恺晟.LSTM逐层多目标优化及多层概率融合的图像描述[J].自动化学报,2018,44(7):1237-1249. 被引量：28
9侯丽微,胡珀,曹雯琳.主题关键词信息融合的中文生成式自动摘要研究[J].自动化学报,2019,45(3):530-539. 被引量：28
10张雪松,庄严,闫飞,王伟.基于迁移学习的类别级物体识别与检测研究与进展[J].自动化学报,2019,45(7):1224-1243. 被引量：59

共引文献30

1李卉,何晶,程富强,王晓薇,詹炳光.基于LSTM模型的卫星电源系统异常检测方法[J].装甲兵工程学院学报,2019,33(3):90-96. 被引量：3
2陈威,祁伟彦,袁福香,李哲敏.基于时间序列与横截面数据的吉林省水稻产量预测对比分析[J].中国农业信息,2018,30(5):91-101. 被引量：5
3王星峰.基于CNN和LSTM的智能文本分类[J].辽东学院学报（自然科学版）,2019,26(2):126-132. 被引量：2
4巫红霞,谢强.基于加权社区检测与增强人工蚁群算法的高维数据特征选择[J].计算机应用与软件,2019,36(9):285-292. 被引量：8
5刘昊俣,贺诗波,陈积明.数据驱动的高速铁路强风报警自适应解除策略[J].自动化学报,2019,45(12):2242-2250. 被引量：4
6黄友文,游亚东,赵朋.融合卷积注意力机制的图像描述生成模型[J].计算机应用,2020,40(1):23-27. 被引量：13
7季秀怡,李建华.基于双路注意力机制的化学结构图像识别[J].计算机工程,2020,46(9):213-220. 被引量：4
8曹治博.复合地层掘进参数预测分析[J].建筑安全,2020,35(12):11-15.
9毕健旗,刘茂福,胡慧君,代建华.基于依存句法的图像描述文本生成[J].北京航空航天大学学报,2021,47(3):431-440. 被引量：3
10谭云兰,汤鹏杰,张丽,罗玉盘.从图像到语言:图像标题生成与描述[J].中国图象图形学报,2021,26(4):727-750. 被引量：2

同被引文献6

1才让当知,华却才让,却措卓玛,夏吾吉.基于混合模式的藏文音节切分[J].内蒙古师范大学学报（自然科学汉文版）,2019,48(5):406-412. 被引量：1
2张凯,李军辉,周国栋.双语图像标题联合生成研究[J].计算机科学,2020,47(12):183-189. 被引量：3
3王习,张凯,李军辉,孔芳.基于残差密集网络层次信息的图像标题生成[J].计算机工程与科学,2022,44(1):84-91. 被引量：3
4张大任,艾山·吾买尔,宜年,刘婉月,韩越.基于CNN与Transformer混合结构的多语言图像标题生成研究[J].东北师大学报（自然科学版）,2022,54(2):68-75. 被引量：3
5武光利,郭振洲,李雷霆.融合自上而下和自下而上注意力的图像描述生成[J].科学技术与工程,2022,22(32):14313-14320. 被引量：4
6刘静,陈金广.基于通道注意力和Transformer的图像标题生成方法[J].计算机与现代化,2023(5):8-12. 被引量：1

引证文献1

1华却才让,白颖,周子琦,才让当知,完么措.基于藏文音节的图像标题自动生成方法研究[J].高原科学研究,2024,8(3):102-109.

1王海勇,潘海涛,刘贵楠.融合注意力机制和课程式学习的人脸识别方法[J].计算机科学与探索,2023,17(8):1893-1903. 被引量：3
2冷坤,秦伦明,王悉.基于CA-ASFF-YOLOv4的交通标志识别研究[J].计算机工程与应用,2023,59(17):169-177. 被引量：3
3董莉.高中英语词汇教学存在的主要问题与改进策略分析[J].校园英语,2020(46):123-124. 被引量：1
4卢红,周小虎,郁小锐.基于深度学习的医疗设备智能监控系统设计[J].自动化与仪器仪表,2023(7):165-169. 被引量：1
5张正,白佳华,田青.基于单级特征金字塔的图像旋转目标检测[J].计算机工程与应用,2023,59(15):235-242. 被引量：3
6龙玉江,卫薇,舒彧,张正刚,王道累,李峰.基于自适应关键点的破损旋转绝缘子检测方法[J].计算机工程,2023,49(9):272-278.
7梁步超,罗印升,宋伟.基于改进的DeepLabv3p网络的轮胎胎面花纹缺陷分割算法[J].信息技术与信息化,2023(8):95-98. 被引量：1
8邱芹军,马凯,谢忠,陶留锋,黄波.基于注意力机制的孪生网络地质调查空间实体与文本信息匹配[J].高校地质学报,2023,29(3):337-344. 被引量：1
9Gavin A. Scott,Deborah M. Saucier,Hugo Lehmann.Contrasting the Amnesic Effects of Temporary Inactivation with Lesions of the Hippocampus on Context Memory[J].Journal of Behavioral and Brain Science,2016,6(4):184-198.
10Hanyu Shi,Weiguang Qu,Tingxin Wei,Junsheng Zhou,Yunfei Long,Yanhui Gu,Bin Li.Hybrid Neural Network for Automatic Recovery of Elliptical Chinese Quantity Noun Phrases[J].Computers, Materials & Continua,2021(12):4113-4127.

自动化学报

2023年第9期

浏览历史

内容加载中请稍等...

基于语境辅助转换器的图像标题生成算法被引量：1

参考文献2

二级参考文献10

共引文献30

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于语境辅助转换器的图像标题生成算法 被引量：1

参考文献2

二级参考文献10

共引文献30

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于语境辅助转换器的图像标题生成算法被引量：1