-
题名基于对比学习的视觉增强多模态命名实体识别
- 1
-
-
作者
于碧辉
谭淑月
魏靖烜
孙林壮
卜立平
赵艺曼
-
机构
中国科学院大学
中国科学院沈阳计算技术研究所
-
出处
《计算机科学》
CSCD
北大核心
2024年第6期198-205,共8页
-
基金
辽宁省应用基础研究计划项目(2022JH2/101300258)。
-
文摘
多模态命名实体识别(MNER)的目的是在给定的图像-文本对中检测实体范围并将其分类为相应的实体类型。尽管现存的MNER方法取得了成功,但它们都集中在使用图像编码器提取视觉特征后,不做增强或过滤处理,直接送入跨模态交互机制。此外,由于文本和图像的表示来自不同的编码器,很难弥合两种模态之间的语义鸿沟,因此,提出了一个基于对比学习的视觉增强多模态命名实体识别模型(MCLAug)。首先,使用ResNet收集图像特征,在此基础上提出金字塔双向融合策略,将低层次高分辨率和高层次强语义的图像信息结合起来,以增强视觉特征。其次,利用CLIP模型中的多模态对比学习思想,计算并最小化对比损失,使两种模态的表示更加一致。最后,利用跨模态注意力机制和门控融合机制获得融合后的图像和文本表示,并通过CRF解码器来执行MNER任务。在两个公开数据集上进行了对比实验并进行消融研究和案例研究,结果证明了所提模型的有效性。
-
关键词
多模态命名实体识别
CLIP
多模态对比学习
特征金字塔
TRANSFORMER
门控融合机制
-
Keywords
Multimodal named entity recognition
CLIP
Multimodal contrastive learning
Feature pyramid
Transformer
Gated fusion mechanism
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-