一致性协议匹配的跨模态图像文本检索方法被引量：2

Matching with agreement for cross-modal image-text retrieval

下载PDF

导出

摘要跨模态图像文本检索的任务对于理解视觉和语言之间的对应关系很重要,大多数现有方法利用不同的注意力模块挖掘区域到词和词到区域的对齐来探索细粒度的跨模态关联。然而,现有的方法没有考虑到基于双重注意力会导致对齐不一致的问题。为此,本文提出了一种一致性协议匹配方法,旨在利用一致性对齐来增强跨模态检索的性能。本文采用注意力实现跨模态关联对齐,并基于跨模态对齐结果设计了基于竞争性投票的跨模态协议,该协议衡量了跨模态对齐的一致性,可以有效提升跨模态图像文本检索的性能。在Flickr30K和MS COCO两个基准数据集上,本文通过大量的实验证明了所提出的方法的有效性。 The task of cross-modal image-text retrieval is important to understand the correspondence between vision and language.Most existing methods leverage different attention modules to explore region-to-word and word-to-region alignments and study fine-grained cross-modal correlations.However,the inconsistent alignment problem based on attention has rarely been considered.This study proposes a matching with agreement(MAG)method,which aims to take advantage of the alignment consistency,enhancing the cross-modal retrieval performance.The attention mechanism is adopted to achieve the cross-modal association alignment,which is then used to perform a cross-modal matching agreement with a novel competitive voting strategy.This agreement evaluates the cross-modal matching consistency and effectively improves the performance.The extensive experiments on two benchmark datasets,namely,Flickr30K and MS COCO,show that our MAG method can achieve state-of-the-art performance,demonstrating its effectiveness well.

作者宫大汉陈辉陈仕江包勇军丁贵广 GONG Dahan;CHEN Hui;CHEN Shijiang;BAO Yongjun;DING Guiguang(School of Software,Tsinghua University,Beijing 100084,China;Beijing National Research Center for Information Science and Technology,Tsinghua University,Beijing 100084,China;Department of Automation,Tsinghua University,Beijing 100084,China;Zhuoxi Institute of Brain and Intelligence,Hangzhou 311121,China;Jd.Com,Inc,Beijing 100176,China)

机构地区清华大学软件学院清华大学北京信息科学与技术国家研究中心清华大学自动化系涿溪脑与智能研究所京东集团

出处《智能系统学报》 CSCD 北大核心 2021年第6期1143-1150,共8页 CAAI Transactions on Intelligent Systems

基金国家自然科学基金项目(61925107,U1936202) 中国博士后科学基金创新人才支持计划项目(BX2021161)。

关键词人工智能计算机视觉视觉和语言跨模态检索一致性协议匹配注意力卷积神经网络循环神经网络门控循环单元 artificial intelligence computer vision vision and language cross-modal retrieval matching with agreement attention convolutional neural network recurrent neural network gated recurrent unit

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1陈丹,李永忠,于沛泽,邵长斌.跨模态行人重识别研究与展望[J].计算机系统应用,2020(10):20-28. 被引量：8
2刘天瑜,刘正熙.跨模态行人重识别研究综述[J].现代计算机,2021,27(7):135-139. 被引量：2

二级参考文献2

1宋婉茹,赵晴晴,陈昌红,干宗良,刘峰.行人重识别研究综述[J].智能系统学报,2017,12(6):770-780. 被引量：39
2罗浩,姜伟,范星,张思朋.基于深度学习的行人重识别研究进展[J].自动化学报,2019,45(11):2032-2049. 被引量：111

共引文献8

1李俊峰,楼琼,钱亚冠,孙安临.基于像素对齐和特征对齐的跨模态行人重识别[J].浙江科技学院学报,2022,34(3):251-260.
2陈莹,夏士雄,赵佳琦,周勇,姚睿,朱东郡.基于变分对抗与强化学习的行人重识别[J].计算机系统应用,2022,31(6):192-201.
3刘玉林.跨模态行人重识别研究综述[J].电视技术,2022,46(5):9-11. 被引量：2
4王晓红,李超奇,卢辉.基于可见光-红外模态下双向特征生成的行人重识别方法[J].光学技术,2022,48(3):372-378. 被引量：1
5吴岸聪,林城梽,郑伟诗.面向跨模态行人重识别的单模态自监督信息挖掘[J].中国图象图形学报,2022,27(10):2843-2859. 被引量：5
6熊炜,乐玲,周蕾,张开,李利荣.多粒度跨模态行人重识别算法研究[J].激光与光电子学进展,2022,59(22):294-300.
7郑爱华,冯孟雅,李成龙,汤进,罗斌.面向跨模态行人重识别的双向动态交互网络[J].计算机辅助设计与图形学学报,2023,35(3):371-382.
8韩华,黄丽,田瑾,王春媛.基于双中间模态的四流网络跨模态行人重识别[J].计算机工程,2023,49(8):302-309.

同被引文献12

1刘卓锟,刘华平,黄文美,王博文,孙富春.视听觉跨模态表面材质检索[J].智能系统学报,2019,14(3):423-429. 被引量：5
2邓一姣,张凤荔,陈学勤,艾擎,余苏喆.面向跨模态检索的协同注意力网络模型[J].计算机科学,2020,47(4):54-59. 被引量：9
3尹奇跃,黄岩,张俊格,吴书,王亮.基于深度学习的跨模态检索综述[J].中国图象图形学报,2021,26(6):1368-1388. 被引量：17
4冯霞,胡志毅,刘才华.跨模态检索研究进展综述[J].计算机科学,2021,48(8):13-23. 被引量：7
5刘立波,苟婷婷.融合深度典型相关分析和对抗学习的跨模态检索[J].计算机科学,2021,48(9):200-207. 被引量：1
6骆有隆,朱卉钰,梁松宇,张腾.基于异构数据特征向量的图文检索方法研究[J].情报工程,2021,7(4):27-39. 被引量：2
7刘颖,郭莹莹,房杰,范九伦,郝羽,刘继明.深度学习跨模态图文检索研究综述[J].计算机科学与探索,2022,16(3):489-511. 被引量：17
8许炫淦,房小兆,孙为军,韩娜,吴惠粦,黄永慧.语义嵌入重构的跨模态哈希检索[J].计算机应用研究,2022,39(6):1645-1650. 被引量：3
9彭良康,卢向明,徐清波.基于深度学习的跨模态哈希检索研究进展[J].数据通信,2022(3):32-38. 被引量：2
10亢洁,刘威.面向装修案例智能匹配的跨模态检索方法[J].智能系统学报,2022,17(4):714-720. 被引量：1

引证文献2

1刘萌,齐孟津,詹圳宇,曲磊钢,聂秀山,聂礼强.基于深度学习的图像-文本匹配研究综述[J].计算机学报,2023,46(11):2370-2399. 被引量：1
2亢洁,刘威.特征融合的装修案例跨模态检索方法[J].智能系统学报,2024,19(2):429-437.

二级引证文献1

1钱华,祁枢杰,顾涔,陶然,吴宏杰.基于近邻卷积神经网络的油画分类方法研究[J].苏州科技大学学报（自然科学版）,2024,41(1):69-75.

1章荪,尹春勇.基于多任务学习的时序多模态情感分析模型[J].计算机应用,2021,41(6):1631-1639. 被引量：6
2李剑,刘鹏,刘维.双重注意力充分组合评论特征的推荐模型[J].北京邮电大学学报,2021,44(4):115-120.
3王杰,赵硕琪.新媒体时代男性的性别商品化及其动因[J].青年研究,2021(1):64-74. 被引量：1
4邹傲,郝文宁,靳大尉,陈刚,田媛.基于预训练和深度哈希的大规模文本检索研究[J].计算机科学,2021,48(11):300-306. 被引量：2

智能系统学报

2021年第6期

浏览历史

内容加载中请稍等...

一致性协议匹配的跨模态图像文本检索方法被引量：2

参考文献2

二级参考文献2

共引文献8

同被引文献12

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一致性协议匹配的跨模态图像文本检索方法 被引量：2

参考文献2

二级参考文献2

共引文献8

同被引文献12

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一致性协议匹配的跨模态图像文本检索方法被引量：2