文本信息辅助图像差异描述生成

Image difference caption generation with text information assistance

下载PDF

导出

摘要图像描述生成任务要求机器自动生成自然语言文本来描述图像所呈现的语义内容,从而将视觉信息转化为文本描述,便于对图像进行管理、检索、分类等工作。图像差异描述生成是图像描述生成任务的延伸,其难点在于如何确定2张图像之间的视觉语义差别,并将视觉差异信息转换成对应的文本描述。基于此,提出了一种引入文本信息辅助训练的模型框架TA-IDC。采取多任务学习的方法,在传统的编码器-解码器结构上增加文本编码器,在训练阶段通过文本辅助解码和混合解码2种方法引入文本信息,建模视觉和文本2个模态间的语义关联,以获得高质量的图像差别描述。实验证明,TA-IDC模型在3个图像差异描述数据集上的主要指标分别超越已有模型最佳结果12%、2%和3%。 The image captioning task requires the machine to automatically generate natural language text to describe the semantic content of the image,thus transforming visual information into textual descriptions that facilitate image management,retrieval,classification,and other tasks.Image difference captioning is an extension of the image captioning task,which requires generating natural language sentences to describe the differences between two similar images.The difficulty of this task is how to determine the visual semantic difference between two images and convert the visual difference information into the corresponding textual descriptions.Previous studies do not make full use of textual information in the training stage to model cross-modal semantic associations between visual difference information and text.In this regard,the proposed framework named TA-IDC uses textual information to assist training.It adopts a multi-task learning method,adding a text encoder to the encoder-decoder structure and introducing textual information by text-assisted decoding and mixed decoding during the training stage.This aids in the modeling of semantic relationships between visual and text modalities,resulting in more accurate picture difference captions.Experimentally,TA-IDC outperforms the best results of existing models on main metricsby 12%,2%,and 3%on three image difference caption datasets,respectively.

作者陈玮婧王维莹金琴 CHEN Weijing;WANG Weiying;JIN Qin(School of Information,Renmin University of China,Beijing 100872,China)

机构地区中国人民大学信息学院

出处《北京航空航天大学学报》 EI CAS CSCD 北大核心 2022年第8期1436-1444,共9页 Journal of Beijing University of Aeronautics and Astronautics

基金国家自然科学基金(61772535,62072462) 北京市自然科学基金(4192028)。

关键词图像差异描述模态融合图像描述计算机视觉自然语言处理 image difference captioning modal fusion image captioning computer vision natural language processing

分类号 TP37 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献1

1苗益,赵增顺,杨雨露,徐宁,杨皓然,孙骞.图像描述技术综述[J].计算机科学,2020,47(12):149-160. 被引量：8

二级参考文献2

1任越美,程显毅,李小燕,谢玉宇.基于概念级语义的图像描述与识别[J].计算机科学,2008,35(7):206-212. 被引量：2
2赵增顺,高寒旭,孙骞,滕升华,常发亮,Dapeng Oliver Wu.生成对抗网络理论框架、衍生模型与应用最新进展[J].小型微型计算机系统,2018,39(12):2602-2606. 被引量：19

共引文献7

1周旭东,李毅,朱尧于,付佰勇.基于计算机视觉技术的桥梁管养应用综述[J].公路,2021,66(12):389-394. 被引量：4
2崔金栋,李晨雨,李菲菲.大数据背景下主流融媒体热点发现机制研究[J].情报科学,2021,39(12):72-79. 被引量：9
3武光利,郭振洲,李雷霆.融合自上而下和自下而上注意力的图像描述生成[J].科学技术与工程,2022,22(32):14313-14320. 被引量：4
4蔺泽浩,李国趸,曾祥极,邓悦,张寅,庄越挺.基于跨媒体解纠缠表示学习的风格化图像描述生成[J].计算机学报,2022,45(12):2510-2527. 被引量：1
5刘静,陈金广.基于通道注意力和Transformer的图像标题生成方法[J].计算机与现代化,2023(5):8-12. 被引量：1
6邓常升,杨顺辽.基于压缩感知的鲁棒性水印算法[J].网络安全技术与应用,2024(3):40-43.
7贺姗,蔺素珍,王彦博,李大威.基于特征融合的多波段图像描述生成方法[J].计算机工程,2024,50(6):236-244.

1谢州益,冯亚枝,胡彦蓉,刘洪久.基于ResNet18特征编码器的水稻病虫害图像描述生成[J].农业工程学报,2022,38(12):197-206. 被引量：12
2刘昊,杨小汕,徐常胜.基于动态语义记忆网络的长尾图像描述生成[J].北京航空航天大学学报,2022,48(8):1399-1408. 被引量：1
3王英娈,刘颖,王来栋,崔艳玲,杨春晓,张海鹏.TVS-CEUS在宫颈癌术前临床分期诊断中的可行性研究[J].中国医药导报,2022,19(22):149-152. 被引量：2
4黄显岚.基于SE-ResNet和扩展长短期记忆网络的医学影像描述研究[J].信息与电脑,2022,34(10):44-48.
5HUANG Zhangyu.Research on single image super-resolution based on very deep super-resolution convolutional neural network[J].Journal of Measurement Science and Instrumentation,2022,13(3):276-283.
6谢振宇,谢佳娜,刘桂雄.基于RMxprt换向偏转角调整PMDC性能影响研究[J].电子测量技术,2022,45(8):48-53. 被引量：1
7吴鹏,冯璐,黄雅静,仝海波.GEO卫星条件下的辅助式定位算法性能分析[J].全球定位系统,2022,47(4):101-105.
8曹冬平,党佳晨,钟勇.利用几何信息辅助的超声心动图实时分割[J].计算机辅助设计与图形学学报,2022,34(8):1252-1259. 被引量：1
9冯润,黄成泉,胡雪,周丽华,郑兰.基于模糊拟合图像驱动的苗族服饰图像分割算法[J].现代纺织技术,2022,30(5):31-41. 被引量：8
10袁艺天,王鑫,朱文武.基于精细化多模态关联的自然语言句子在视频中的时序定位方法[J].中国科学：信息科学,2022,52(8):1417-1446. 被引量：1

北京航空航天大学学报

2022年第8期

浏览历史

内容加载中请稍等...

文本信息辅助图像差异描述生成

参考文献1

二级参考文献2

共引文献7

相关作者

相关机构

相关主题

浏览历史