-
题名基于多尺度跨模态特征融合的图文情感分类模型
- 1
-
-
作者
刘倩
白志豪
程春玲
归耀城
-
机构
南京邮电大学计算机学院、软件学院、网络空间安全学院
南京邮电大学现代邮政学院
-
出处
《计算机科学》
CSCD
北大核心
2024年第9期258-264,共7页
-
基金
江苏省双创博士项目(JSSCBS20210507)。
-
文摘
图文情感分类任务常用早期融合和Transformer模型相结合的跨模态特征融合策略进行图文特征融合,但该策略更倾向于关注模态内部的独有信息,而忽略了模态间的相互联系和共有信息,导致跨模态特征融合效果不理想。针对此问题,提出一种基于多尺度跨模态特征融合的图文情感分类方法。局部尺度方面,基于跨模态注意力机制进行局部特征融合,使模型不仅关注图像和文本的独有信息,而且可以发现图像和文本之间的联系和共有信息。全局尺度方面,基于MLM损失进行全局特征融合,使模型对图像和文本数据进行全局建模,进一步挖掘图像和文本之间的联系,从而促进图像和文本特征的深度融合。在两个公开数据集MVSA-Single和MVSA-Multiple上与10个基线模型进行对比实验,结果表明所提方法在精度、F1值和模型参数量方面均具有明显优势,验证了其有效性。
-
关键词
图文情感分类
跨模态特征融合
Transformer模型
注意力机制
mlm损失
-
Keywords
Image-Text sentiment classification
Cross-modal feature fusion
Transformer model
Attention mechanism
mlm loss
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-