-
题名基于多尺度特征增强与对齐的跨模态行人检索
- 1
-
-
作者
徐领
缪翌
张卫锋
-
机构
浙江理工大学计算机科学与技术学院
嘉兴大学信息科学与工程学院
-
出处
《现代电子技术》
北大核心
2024年第22期44-50,共7页
-
文摘
为了解决跨模态行人检索从图像和文本中抽取有效的细节特征,以及实现图像与自然语言文本跨模态对齐的问题,提出一种基于多尺度特征增强与对齐的跨模态行人检索模型。该模型引入多模态预训练模型,并构建文本引导的图像掩码建模辅助任务,充分实现跨模态交互,从而无需显式地标注信息即可增强模型学习图像局部细节特征的能力。另外,针对行人图像身份易混淆问题,设计全局图像特征匹配辅助任务,引导模型学习身份关注的视觉特征。在CUHK-PEDES、ICFG-PEDES和RSTPReid等多个公开数据集上的实验结果表明,所提模型超越了目前已有的主流模型,其第一命中率分别达到了72.47%、62.71%和59.25%,实现了高准确率的跨模态行人检索。
-
关键词
跨模态行人检索
多尺度特征增强
多模态对齐
CLIP
图像掩码
跨模态交互
交叉注意力
-
Keywords
cross modal pedestrian retrieval
multi-scale feature enhancement
multimodal alignment
CLIP
image mask
cross-modal interaction
cross attention
-
分类号
TN911-34
[电子电信—通信与信息系统]
TP391.41
[自动化与计算机技术—计算机应用技术]
TP183
[自动化与计算机技术—控制理论与控制工程]
-