-
题名面向跨模态检索的查询感知双重对比学习网络
- 1
-
-
作者
尹梦冉
梁美玉
于洋
曹晓雯
杜军平
薛哲
-
机构
北京邮电大学计算机学院(国家示范性软件学院)
智能通信软件与多媒体北京市重点实验室(北京邮电大学)
-
出处
《软件学报》
EI
CSCD
北大核心
2024年第5期2120-2132,共13页
-
基金
国家自然科学基金(62192784,U22B2038,62172056,62272058)
中国人工智能学会-华为MindSpore学术奖励基金(CAAIXSJLJJ-2021-007B)。
-
文摘
近期,跨模态视频语料库时刻检索(VCMR)这一新任务被提出,它的目标是从未分段的视频语料库中检索出与查询语句相对应的一小段视频片段.现有的跨模态视频文本检索工作的关键点在于不同模态特征的对齐和融合,然而,简单地执行跨模态对齐和融合不能确保来自相同模态且语义相似的数据在联合特征空间下保持接近,也未考虑查询语句的语义.为了解决上述问题,提出一种面向多模态视频片段检索的查询感知跨模态双重对比学习网络(QACLN),该网络通过结合模态间和模态内的双重对比学习来获取不同模态数据的统一语义表示.具体地,提出一种查询感知的跨模态语义融合策略,根据感知到的查询语义自适应地融合视频的视觉模态特征和字幕模态特征等多模态特征,获得视频的查询感知多模态联合表示.此外,提出一种面向视频和查询语句的模态间及模态内双重对比学习机制,以增强不同模态的语义对齐和融合,从而提高不同模态数据表示的可分辨性和语义一致性.最后,采用一维卷积边界回归和跨模态语义相似度计算来完成时刻定位和视频检索.大量实验验证表明,所提出的QACLN优于基准方法.
-
关键词
跨模态语义融合
跨模态检索
视频时刻定位
对比学习
-
Keywords
cross-modal semantic fusion
cross-modal retrieval
video moment localization
contrastive learning
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-