-
题名基于对比学习和GIF标记的多模态对话回复检索
- 1
-
-
作者
黄懿蕊
罗俊玮
陈景强
-
机构
南京邮电大学计算机学院、软件学院、网络空间安全学院
中国移动通信集团重庆有限公司
江苏省大数据安全与智能处理重点实验室(南京邮电大学)
-
出处
《计算机应用》
CSCD
北大核心
2024年第1期32-38,共7页
-
基金
国家自然科学基金资助项目(61806101)
-
文摘
社交媒体网站上使用GIF(Graphics Interchange Format)作为消息的回复相当普遍。但目前大多方法针对问题“如何选择一个合适的GIF回复消息”,没有很好地利用社交媒体上的GIF附属标记信息。为此,提出基于对比学习和GIF标记的多模态对话回复检索(CoTa-MMD)方法,将标记信息整合到检索过程中。具体来说就是使用标记作为中间变量,文本→GIF的检索就被转换为文本→GIF标记→GIF的检索,采用对比学习算法学习模态表示,并利用全概率公式计算检索概率。与直接的文本图像检索相比,引入的过渡标记降低了不同模态的异质性导致的检索难度。实验结果表明,CoTa-MMD模型相较于深度监督的跨模态检索(DSCMR)模型,在PEPE-56多模态对话数据集和Taiwan多模态对话数据集上文本图像检索任务的召回率之和分别提升了0.33个百分点和4.21个百分点。
-
关键词
跨模态检索
多模态对话
GIF
对比学习
表示学习
-
Keywords
cross-modal retrieval
multi-modal dialogue
Graphics Interchange Format(GIF)
contrastive learning
representation learning
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-