-
题名融合语义增强和位置编码的图文匹配方法
- 1
-
-
作者
赵婷婷
常玉广
郭宇
陈亚瑞
王嫄
-
机构
天津科技大学人工智能学院
-
出处
《天津科技大学学报》
CAS
2024年第4期63-72,共10页
-
基金
国家自然科学基金项目(61976156)
天津市企业科技特派员项目(20YDTPJC00560)。
-
文摘
图文匹配是跨模态基础任务之一,其核心是如何准确评估图像语义与文本语义之间的相似度。现有方法是通过引入相关阈值,最大限度地区分相关和无关分布,以获得更好的语义对齐。然而,对于特征本身,其语义之间缺乏相互关联,且对于缺乏空间位置信息的图像区域与文本单词很难准确对齐,从而不可避免地限制了相关阈值的学习导致语义无法准确对齐。针对此问题,本文提出一种融合语义增强和位置编码的自适应相关性可学习注意力的图文匹配方法。首先,在初步提取特征的基础上构造图像(文本)无向全连通图,使用图注意力去聚合邻居的信息,获得语义增强的特征。然后,对图像区域的绝对位置信息编码,在具备了空间语义的图像区域与文本单词相似性的基础上获得最大程度区分的相关和无关分布,更好地学习两个分布之间的最优相关边界。最后,通过公开数据集Flickr 30 k和MSCOCO,利用Recall@K指标对比实验,验证本文方法的有效性。
-
关键词
跨模态图文匹配
图注意力
位置编码
相关性阈值
-
Keywords
cross-modal image-text matching
graph attention
position encoding
relevance threshold
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-