基于知识辅助的图像描述生成

Knowledge-aided Image Captioning

下载PDF

导出

摘要为给定图像自动生成符合人类感知的描述语句是人工智能的重要任务之一。大多数现有的基于注意力的方法均探究语句中单词和图像中区域的映射关系,而这种难以预测的匹配方式有时会造成2种模态间不协调的对应,从而降低描述语句的生成质量。针对此问题,本文提出一种文本相关的单词注意力来提高视觉注意力的正确性。这种特殊的单词注意力在模型序列地生成描述语句过程中强调不同单词的重要性,并充分利用训练数据中的内部标注知识来帮助计算视觉注意力。此外,为了揭示图像中不能被机器直接表达出来的隐含信息,将从外部知识图谱中抽取出来的知识注入到编码器—解码器架构中,以生成更新颖自然的图像描述。在MSCOCO和Flickr30k图像描述基准数据集上的实验表明,本方法能够获得良好的性能,并优于许多现有的先进方法。 Automatically generating a human-like description for a given image is one of the most important tasks in artificial intelligence.Most of the existing attention-based methods explore the mapping relationships between words in sentence and regions in image.However,the quality of generated captions can be reduced by such unpredictable matching manner which sometimes cause inharmonious alignments.To solve this problem,a new method which uses word attention to improve the correctness of visual attention when generating word-by-word sequential descriptions is proposed.The special word attention emphasizes word importance when focusing on different regions of the input image,and makes full use of the internal annotation knowledge to assist the calculation of visual attention.Furthermore,in order to reveal implied information that cannot be expressed straightforwardly by machines and generate more novel and natural captions,the external knowledge which is extracted from the knowledge graphs is injected to the encoder-decoder framework.Finally,The new method is validated on two available captioning benchmarks i.e.Microsoft COCO dataset and Flickr30k dataset.The experimental results demonstrate that this new approach can achieve a good performance and outperform many of the state-of-the-art approaches.

作者李志欣苏强 LI Zhixin;SU Qiang(Guangxi Key Lab of Multi-source Information Mining and Security(Guangxi Normal University),Guilin Guangxi 541004,China)

机构地区广西多源信息挖掘与安全重点实验室(广西师范大学)

出处《广西师范大学学报（自然科学版）》 CAS 北大核心 2022年第5期418-432,共15页 Journal of Guangxi Normal University:Natural Science Edition

基金国家自然科学基金(61966004,61866004) 广西自然科学基金(2019GXNSFDA245018) 广西“八桂学者”工程专项基金。

关键词图像描述生成内部知识外部知识单词注意力知识图谱强化学习 image captioning internal knowledge external knowledge word attention knowledge graph reinforcement learning

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1李志欣,魏海洋,张灿龙,马慧芳,史忠植.图像描述生成研究进展[J].计算机研究与发展,2021,58(9):1951-1974. 被引量：7
2石义乐,杨文忠,杜慧祥,王丽花,王婷,理珊珊.基于深度学习的图像描述综述[J].电子学报,2021,49(10):2048-2060. 被引量：12
3许昊,张凯,田英杰,种法广,王子超.深度神经网络图像描述综述[J].计算机工程与应用,2021,57(9):9-22. 被引量：9
4李志欣,魏海洋,黄飞成,张灿龙,马慧芳,史忠植.结合视觉特征和场景语义的图像描述生成[J].计算机学报,2020,43(9):1624-1640. 被引量：24
5韦人予,蒙祖强.基于注意力特征自适应校正的图像描述模型[J].计算机应用,2020,40(S01):45-50. 被引量：3
6张家硕,洪宇,李志峰,姚建民,朱巧明.基于双向注意力机制的图像描述生成[J].中文信息学报,2020,34(9):53-61. 被引量：4
7李文惠,曾上游,王金金.基于改进注意力机制的图像描述生成算法[J].计算机应用,2021,41(5):1262-1267. 被引量：6
8盛豪,易尧华,汤梓伟.融合图像场景与目标显著性特征的图像描述生成方法[J].计算机应用研究,2021,38(12):3776-3780. 被引量：4
9陈开阳,徐凡,王明文.基于知识图谱和图像描述的虚假新闻检测研究[J].江西师范大学学报（自然科学版）,2021,45(4):398-402. 被引量：4

二级参考文献21

1李睿凡,梁昊雨,冯方向,张光卫,王小捷.全卷积神经结构的段落式图像描述算法[J].北京邮电大学学报,2019,42(6):155-161. 被引量：2
2李志欣,施智平,李志清,史忠植.图像检索中语义映射方法综述[J].计算机辅助设计与图形学学报,2008,20(8):1085-1096. 被引量：36
3李志欣,施智平,李志清,史忠植.融合语义主题的图像自动标注[J].软件学报,2011,22(4):801-812. 被引量：50
4刘知远,张乐,涂存超,孙茂松.中文社交媒体谣言统计语义分析[J].中国科学：信息科学,2015,45(12):1536-1546. 被引量：45
5汤鹏杰,谭云兰,李金忠.融合图像场景及物体先验知识的图像描述生成模型[J].中国图象图形学报,2017,22(9):1251-1260. 被引量：16
6周治平,张威.结合视觉属性注意力和残差连接的图像描述生成模型[J].计算机辅助设计与图形学学报,2018,30(8):1536-1542. 被引量：10
7杨丽,吴雨茜,王俊丽,刘义理.循环神经网络研究综述[J].计算机应用,2018,38(A02):1-6. 被引量：367
8彭宇新,綦金玮,黄鑫.多媒体内容理解的研究现状与展望[J].计算机研究与发展,2019,56(1):183-208. 被引量：33
9陈龙杰,张钰,张玉梅,吴晓军.基于多注意力多尺度特征融合的图像描述生成算法[J].计算机应用,2019,39(2):354-359. 被引量：15
10陶云松,张丽红.基于双向注意力机制图像描述方法研究[J].测试技术学报,2019,33(4):346-350. 被引量：4

共引文献55

1张炫,刘茂福,邱晨,胡慧君.基于图文双向引导注意力的新闻图集描述生成方法[J].武汉大学学报（理学版）,2023,69(2):223-232.
2周宇辉,何志琴.基于改进注意力机制的图像描述算法[J].智能计算机与应用,2022,12(2):58-63.
3王慧娇,丛鹏,蒋华,韦永壮.基于深度学习的SIMON3264安全性分析[J].计算机研究与发展,2021,58(5):1056-1064. 被引量：1
4黄欣,顾梦丹,易玉根,曹远龙.基于深度学习的X线胸片肺部描述自动生成[J].模式识别与人工智能,2021,34(6):552-560.
5李志欣,魏海洋,张灿龙,马慧芳,史忠植.图像描述生成研究进展[J].计算机研究与发展,2021,58(9):1951-1974. 被引量：7
6李康康,张静.基于注意力机制的多层次编码和解码的图像描述模型[J].计算机应用,2021,41(9):2504-2509. 被引量：3
7谢军,肖朝轩,张思刚,刘力卿,律方成,谢庆.基于迁移学习和特征融合的复合绝缘子憎水性等级判别方法[J].电网技术,2021,45(10):3964-3971. 被引量：8
8千月欣,王永忠,李佳骏,徐天羿.基于深度学习的机场能见度预测研究[J].云南民族大学学报（自然科学版）,2021,30(6):615-620. 被引量：2
9卢颖,吕希凡,郭良杰,仇乐,路越茗.基于Kinect的地铁乘客不安全行为识别方法与实验[J].中国安全生产科学技术,2021,17(12):162-168. 被引量：6
10李志欣,凌锋,唐振军,马慧芳,施智平.基于多头注意力网络的无监督跨媒体哈希检索[J].中国科学：信息科学,2021,51(12):2053-2068. 被引量：3

1王鸣展,冀俊忠,贾奥哲,张晓丹.基于跨尺度特征融合自注意力的图像描述方法[J].计算机科学,2022,49(10):191-197. 被引量：2
2尤文君.同构法在导数相关问题中的应用[J].中学数学研究,2022(10):49-50.
3乔广鹏,英建彬,王玉帅.从复杂性视角看智能化战争[J].军事文摘,2022(10):21-27.
4李博闻.非学术文献的隐含信息析取——以美国中央情报局Studies in Intelligence书评为研究对象[J].竞争情报,2022,18(5):2-13.
5刘凯.巧用数学知识,妙解高中物理题[J].数理天地（高中版）,2022(16):55-57.
6韩迪,陈怡君,廖凯,林坤玲.推荐系统中的准确性、新颖性和多样性的有效耦合与应用[J].南京大学学报（自然科学版）,2022,58(4):604-614.
7杨洁,王曰芬,陈必坤,恢光平.基金项目学部分部的交叉网络分析——以美国NSF数据中AI领域为例[J].情报学报,2022,41(9):945-955. 被引量：1
8边缘智能让视觉无处不在——2022智能边缘视觉高峰论坛成功举办[J].自动化博览,2022,39(7):8-9.
9李楷,黄少伟.基于堆叠LSTM神经网络的短期交通流量预测[J].肇庆学院学报,2022,43(5):79-84. 被引量：2
10方仲俊,张静,李冬冬.基于空间和多层级联合编码的图像描述算法[J].计算机科学,2022,49(10):151-158. 被引量：1

广西师范大学学报（自然科学版）

2022年第5期

浏览历史

内容加载中请稍等...

基于知识辅助的图像描述生成

参考文献9

二级参考文献21

共引文献55

相关作者

相关机构

相关主题

浏览历史