期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于多尺度特征增强与对齐的跨模态行人检索
1
作者 徐领 缪翌 张卫锋 《现代电子技术》 北大核心 2024年第22期44-50,共7页
为了解决跨模态行人检索从图像和文本中抽取有效的细节特征,以及实现图像与自然语言文本跨模态对齐的问题,提出一种基于多尺度特征增强与对齐的跨模态行人检索模型。该模型引入多模态预训练模型,并构建文本引导的图像掩码建模辅助任务,... 为了解决跨模态行人检索从图像和文本中抽取有效的细节特征,以及实现图像与自然语言文本跨模态对齐的问题,提出一种基于多尺度特征增强与对齐的跨模态行人检索模型。该模型引入多模态预训练模型,并构建文本引导的图像掩码建模辅助任务,充分实现跨模态交互,从而无需显式地标注信息即可增强模型学习图像局部细节特征的能力。另外,针对行人图像身份易混淆问题,设计全局图像特征匹配辅助任务,引导模型学习身份关注的视觉特征。在CUHK-PEDES、ICFG-PEDES和RSTPReid等多个公开数据集上的实验结果表明,所提模型超越了目前已有的主流模型,其第一命中率分别达到了72.47%、62.71%和59.25%,实现了高准确率的跨模态行人检索。 展开更多
关键词 跨模态行人检索 多尺度特征增强 模态对齐 CLIP 图像掩码 模态交互 交叉注意力
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部