融合自监督和多层交叉注意力的多模态情感分析网络

Multimodal sentiment analysis network with self-supervision and multi-layer cross attention

下载PDF

导出

摘要针对多模态情感分析任务中模态内信息不完整、模态间交互能力差和难以训练的问题,将视觉语言预训练(VLP)模型应用于多模态情感分析领域,提出一种融合自监督和多层交叉注意力的多模态情感分析网络(MSSM)。通过自监督学习强化视觉编码器模块,并加入多层交叉注意力以更好地建模文本和视觉特征,使模态内部信息更丰富完整,同时使模态间的信息交互更充分。此外,通过具有感知意识的快速、内存效率高的精确注意力FlashAttention解决Transformer中注意力计算高复杂度的问题。实验结果表明,与目前主流的基于对比文本-图像对的模型(CLIP)相比,MSSM在处理后的MVSA-S数据集上的准确率提高3.6个百分点,在MVSA-M数据集上的准确率提高2.2个百分点,验证所提网络能在降低运算成本的同时有效提高多模态信息融合的完整性。 Aiming at the problems of incomplete intra-modal information,poor inter-modal interaction,and difficulty in training in multimodal sentiment analysis,a Multimodal Sentiment analysis network with Self-supervision and Multi-layer cross Attention fusion(MSSM)was proposed with Visual-and-Language Pre-training(VLP)model applied to the field of multimodal sentiment analysis.The visual encoder module was enhanced through self-supervised learning,and multi-layer cross attention was added to better model textual and visual features.Thus,the intra-modal information was made more abundant and complete,and the inter-modal information interaction was made more sufficient.Besides,the fast and memoryefficient exact attention with IO-awareness:FlashAttention was adopted in the proposed algorithm to address the high complexity of attention computation in Transformer.Experimental results show that compared with the current mainstream model Contrastive Language-Image Pre-training(CLIP),MSSM improves the accuracy by 3.6 percentage points on the processed MVSA-S dataset and 2.2 percentage points on MVSA-M dataset,proving that the proposed network can effectively improve the integrity of multimodal information fusion while reducing computational cost.

作者薛凯鹏徐涛廖春节 XUE Kaipeng;XU Tao;LIAO Chunjie(Institute of China National Information Technology,Northwest Minzu University,Lanzhou Gansu 730030,China;Key Laboratory of Linguistic and Cultural Computing,Ministry of Education(Northwest Minzu University),Lanzhou Gansu 730030,China)

机构地区西北民族大学中国民族信息技术研究院语言与文化计算教育部重点实验室(西北民族大学)

出处《计算机应用》 CSCD 北大核心 2024年第8期2387-2392,共6页 journal of Computer Applications

基金甘肃省高等学校青年博士基金资助项目(2022QB-016) 中央高校基本科研业务费专项(31920230069) 甘肃省青年科技计划项目(21JR1RA21) 国家档案局科技项目(2021-X-56)。

关键词多模态情感分析自监督注意力机制视觉语言预训练模型 multimodal sentiment analysis self-supervision attention mechanism Visual-and-Language Pre-training(VLP)model

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1李文潇,梅红岩,李雨恬.基于深度学习的多模态情感分析研究综述[J].辽宁工业大学学报（自然科学版）,2022,42(5):293-298. 被引量：2
2郭续,买日旦·吾守尔,古兰拜尔·吐尔洪.基于多模态融合的情感分析算法研究综述[J].计算机工程与应用,2024,60(2):1-18. 被引量：3

二级参考文献5

1Bo Liu,Shijiao Tang,Xiangguo Sun,Qiaoyun Chen,Jiuxin Cao,Junzhou Luo,Shanshan Zhao.Context-Aware Social Media User Sentiment Analysis[J].Tsinghua Science and Technology,2020,25(4):528-541. 被引量：7
2胡新荣,陈志恒,刘军平,彭涛,叶鹏,朱强.基于多模态表示学习的情感分析框架[J].计算机科学,2022,49(S02):631-636. 被引量：4
3张亚洲,戎璐,宋大为,张鹏.多模态情感分析研究综述[J].模式识别与人工智能,2020,33(5):426-438. 被引量：30
4凌海彬,缪裕青,张万桢,周明,武继刚.多特征融合的图文微博情感分析[J].计算机应用研究,2020,37(7):1935-1939. 被引量：8
5孙影影,贾振堂,朱昊宇.多模态深度学习综述[J].计算机工程与应用,2020,56(21):1-10. 被引量：33

共引文献3

1白占俊,司俊勇,付永华.VR教学中学习者多模情感计算研究[J].河南科技,2023,42(12):35-42.
2谢丁峰,周安众,李洁沁,罗金凯.基于多模态数据的个性化学习精准干预研究[J].电脑知识与技术,2024,20(16):98-100.
3欧阳梦妮,樊小超,帕力旦·吐尔逊.基于目标对齐和语义过滤的多模态情感分析[J].计算机技术与发展,2024,34(10):171-177.

1脑机接口技术[J].中学生阅读（中考版）,2024(7):74-75.
2贾杭锦.情感理念在视觉传达设计中的运用分析[J].艺术科技,2024,37(8):189-191.
3刘诗园.传统文化元素在视觉传达设计中的实践[J].鞋类工艺与设计,2024,4(7):30-32. 被引量：3
4李玉杰.报纸版式设计对新闻传播效果影响探究[J].中国报业,2024(10):86-87.
5由晓东,杜可欣.基于适老化需求的老年保健食品包装设计研究[J].食品安全导刊,2024(4):160-162.
6匡文波,姜泽玮.智能媒体新质生产力:理论内涵、运作逻辑与实现路径[J].中国编辑,2024(7):29-35. 被引量：1
7李知政.人工智能的发展对社会工作的影响[J].民风,2024(6):0104-0106.
8高鹏淇,黄鹤鸣,樊永红.融合坐标与多头注意力机制的交互语音情感识别[J].计算机应用,2024,44(8):2400-2406.
9陈杰(撰文/摄影).AITO M5 焕新升级[J].轿车情报,2024(4):74-75.
10张健东,程宏,国伟,庞冬.虚拟领导力对员工角色绩效的影响机制——基于扎根理论的双案例研究[J].管理案例研究与评论,2024,17(4):616-629.

计算机应用

2024年第8期

浏览历史

内容加载中请稍等...

融合自监督和多层交叉注意力的多模态情感分析网络

参考文献2

二级参考文献5

共引文献3

相关作者

相关机构

相关主题

浏览历史