一种基于语音、文本和表情的多模态情感识别算法

A multimodal emotion recognition algorithm basedon speech,text and facial expression

下载PDF

导出

摘要针对当前多模态情感识别算法在模态特征提取、模态间信息融合等方面存在识别准确率偏低、泛化能力较差的问题,提出了一种基于语音、文本和表情的多模态情感识别算法。首先,设计了一种浅层特征提取网络(Sfen)和并行卷积模块(Pconv)提取语音和文本中的情感特征,通过改进的Inception-ResnetV2模型提取视频序列中的表情情感特征;其次,为强化模态间的关联性,设计了一种用于优化语音和文本特征融合的交叉注意力模块;最后,利用基于注意力的双向长短期记忆(BiLSTM based on attention mechanism,BiLSTM-Attention)模块关注重点信息,保持模态信息之间的时序相关性。实验通过对比3种模态不同的组合方式,发现预先对语音和文本进行特征融合可以显著提高识别精度。在公开情感数据集CH-SIMS和CMU-MOSI上的实验结果表明,所提出的模型取得了比基线模型更高的识别准确率,三分类和二分类准确率分别达到97.82%和98.18%,证明了该模型的有效性。 Aiming at the problems of low recognition accuracy and poor generalization ability of current multimodal emotion recognition algorithms in modal feature extraction and information fusion between modalities,a multimodal emotion recognition algorithm based on speech,text and expression is proposed.Firstly,a shallow feature extraction network(Sfen)combined with parallel convolution module(Pconv)is designed to extract the emotional features in speech and text.A modified Inception-ResnetV2 model is adopted to capture the emotional features of expression in video stream.Secondly,in order to strengthen the correlation among modalities,a cross attention module is designed to optimize the fusion between speech and text modalities.Finally,a bidirectional long and short-term memory module based on attention mechanism(BiLSTM-Attention)is used to focus on key information and maintain the temporal correlation between modalities.By comparing the different combinations of the three modalities,it is found that the hierarchical fusion strategy that processes speech and text in advance can obviously improve the accuracy of the model.Experimental results on the public emotion datasets CH-SIMS and CMU-MOSI show that the proposed model achieves higher recognition accuracy than the baseline model,with three-class and two-class accuracy reaching 97.82%and 98.18%respectively,which proves the effectiveness of the model.

作者吴晓牟璇刘银华刘晓瑞 WU Xiao;MOU Xuan;LIU Yinhua;LIU Xiaorui(Automation School,Qingdao University,Qingdao 266071,China;Institute of Future,Qingdao University,Qingdao 266071,China;Shandong Key Laboratory of Industrial Control Technology,Qingdao 266071,China)

机构地区青岛大学自动化学院青岛大学未来研究院山东省工业控制技术重点实验室

出处《西北大学学报（自然科学版）》 CAS CSCD 北大核心 2024年第2期177-187,共11页 Journal of Northwest University（Natural Science Edition）

基金国家重点研发计划“智能机器人”专项资助项目(2020YFB1313600) 青岛市自然科学基金资助项目(23-2-1-126-zyyd-jch) 山东省高等学校优秀青年创新团队支持计划项目(2022KJ142)。

关键词多模态情感识别并行卷积交叉注意力 multimodal emotion recognition parallel convolution cross attention

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1李霞,卢官明,闫静杰,张正言.多模态维度情感预测综述[J].自动化学报,2018,44(12):2142-2159. 被引量：26
2郑剑,郑炽,刘豪,于祥春.融合局部特征与两阶段注意力权重学习的面部表情识别[J].计算机应用研究,2022,39(3):889-894. 被引量：9
3焦亚萌,周成智,李文萍,崔琳,董免.融合多头注意力的VGGNet语音情感识别研究[J].国外电子测量技术,2022,41(1):63-69. 被引量：11
4刘亚姝,侯跃然,严寒冰.基于异质信息网络的恶意代码检测[J].北京航空航天大学学报,2022,48(2):258-265. 被引量：2
5邱世振,白靖文,张晋行,刘晓瑞.基于六轴机械臂驱动的微波球面扫描成像系统[J].电子测量与仪器学报,2023,37(4):98-106. 被引量：3
6梁宏涛,刘硕,杜军威,胡强,于旭.深度学习应用于时序预测研究综述[J].计算机科学与探索,2023,17(6):1285-1300. 被引量：18
7焦义,徐华兴,毛晓波,李楠,姚国梁,倪金红,徐向阳.融合多尺度特征的脑电情感识别研究[J].计算机工程,2023,49(5):81-89. 被引量：1
8Xiaochuan ZHANG,Xipeng QIU,Jianmin PANG,Fudong LIU,Xingwei LI.Dual-axial self-attention network for text classification[J].Science China(Information Sciences),2021,64(12):76-86. 被引量：5
9程子晨,李彦,葛江炜,纠梦菲,张敬伟.利用信息瓶颈的多模态情感分析[J].计算机工程与应用,2024,60(2):137-146. 被引量：2
10祁宣豪,智敏.图像处理中注意力机制综述[J].计算机科学与探索,2024,18(2):345-362. 被引量：9

二级参考文献88

1林依凡,陈彦杰,何炳蔚,黄益斌,王耀南.无碰撞检测RRT^*的移动机器人运动规划方法[J].仪器仪表学报,2020(10):257-267. 被引量：41
2Mondher Bouazizi,Tomoaki Ohtsuki.Multi-Class Sentiment Analysis on Twitter: Classification Performance and Challenges[J].Big Data Mining and Analytics,2019,2(3):181-194. 被引量：8
3严严,章毓晋.基于视频的人脸识别研究进展[J].计算机学报,2009,32(5):878-886. 被引量：84
4刘烨,付秋芳,傅小兰.认知与情绪的交互作用[J].科学通报,2009,54(18):2783-2796. 被引量：64
5谢晶,方平,姜媛.情绪测量方法的研究进展[J].心理科学,2011,34(2):488-493. 被引量：36
6邹吉林,张小聪,张环,于靓,周仁来.超越效价和唤醒——情绪的动机维度模型述评[J].心理科学进展,2011,19(9):1339-1346. 被引量：67
7董妍,王琦,邢采.积极情绪与身心健康关系研究的进展[J].心理科学,2012,35(2):487-493. 被引量：59
8聂聃,王晓韡,段若男,吕宝粮.基于脑电的情绪识别研究综述[J].中国生物医学工程学报,2012,31(4):595-606. 被引量：68
9乐国安,董颖红.情绪的基本结构:争论、应用及其前瞻[J].南开学报（哲学社会科学版）,2013(1):140-150. 被引量：57
10宋亚奇,周国亮,朱永利.智能电网大数据处理技术现状与挑战[J].电网技术,2013,37(4):927-935. 被引量：539

共引文献99

1林海香,赵正祥,陆人杰,卢冉,白万胜,胡娜娜.基于字词融合的高铁道岔多级故障诊断组合模型[J].电子测量与仪器学报,2022,36(10):217-226. 被引量：2
2张晋婧,刘双峰,丰雷,张瑜.融合注意力机制的人脸识别算法研究[J].国外电子测量技术,2023,42(2):107-113. 被引量：7
3湛颖,高妍,谢凌云.中国国画情感—美感数据库[J].中国图象图形学报,2019,24(12):2267-2278. 被引量：4
4何俊,张彩庆,李小珍,张德海.面向深度学习的多模态融合技术研究综述[J].计算机工程,2020,46(5):1-11. 被引量：64
5高庆吉,赵志华,徐达,邢志伟.语音情感识别研究综述[J].智能系统学报,2020,15(1):1-13. 被引量：16
6刘岗,赵轶男,孙裔申,苏艺,陈超.指挥信息系统人机交互设计中的用户研究方法[J].计算机辅助设计与图形学学报,2020,32(11):1765-1772. 被引量：14
7鲁越,郭超,林懿伦,卓凡,王飞跃.绘画艺术图像的计算美学: 研究前沿与展望[J].自动化学报,2020,46(11):2239-2259. 被引量：13
8米珍美,赵恒斌,高攀.基于ConvLSTM网络的维度情感识别模型研究[J].计算机工程与应用,2021,57(18):289-296. 被引量：3
9赵博宇,张长青,陈蕾,刘新旺,李泽超,胡清华.生成式不完整多视图数据聚类[J].自动化学报,2021,47(8):1867-1875. 被引量：14
10张会云,黄鹤鸣,李伟,康杰,无.语音情感识别研究综述[J].计算机仿真,2021,38(8):7-17. 被引量：18

1赵隆,韩小稚,王景人,寇威.基于卷积神经网络的12 Cr1MoV钢金相组织球化级别智能化分析[J].中国特种设备安全,2024,40(3):80-83.
2王旭阳,王常瑞,张金峰,邢梦怡.基于跨模态交叉注意力网络的多模态情感分析方法[J].广西师范大学学报（自然科学版）,2024,42(2):84-93. 被引量：1
3刘青文,买日旦·吾守尔,古兰拜尔·吐尔洪.双元双模态下二次门控融合的多模态情感分析[J].计算机工程与应用,2024,60(8):165-172.
4冼广铭,阳先平,招志锋.基于双编码器表示学习的多模态情感分析[J].计算机系统应用,2024,33(4):13-25.
5李富杰,齐有强,弓昊天.矿物溶解再沉淀过程研究综述[J].矿物岩石地球化学通报,2024,43(1):240-258.
6郭运岭,李蕊,傅聪,褚昆,李会杰.基于Hippo-YAP信号通路探讨黄芩苷干预膝骨关节炎大鼠的疗效和作用机制[J].中医正骨,2024,36(3):15-22.
7WU Lijuan,HAN Cong,WANG Huimei,HE Yuchang,LIN Hai,WANG Lei,CHEN Chen,E Zhiguo.OsbZIP53 Negatively Regulates Immunity Response by Involving in Reactive Oxygen Species and Salicylic Acid Metabolism in Rice[J].Rice science,2024,31(2):190-202.
8Ekanayake Mudiyanselage Chulabhaya Lankanatha Ekanayake,Abubakar Sulaiman Gezawa,Yunqi Lei.Trends in Event Understanding and Caption Generation/Reconstruction in Dense Video:A Review[J].Computers, Materials & Continua,2024,78(3):2941-2965.
9Xingxing Liu,Jishan Liu,Liang Chen,Jinchang Sheng,Huimin Wang.An analytical transient coal permeability model:Sorption non-equilibrium index-based swelling switch[J].Journal of Rock Mechanics and Geotechnical Engineering,2024,16(4):1175-1191.
10Jin-Feng Zhang,Jian-Kui Liu,Kevin DHyde,Ya-Ya Chen,Hai-Yan Ran,Zuo-Yi Liu.Ascomycetes from karst landscapes of Guizhou Province, China[J].Fungal Diversity,2023(5):1-160.

西北大学学报（自然科学版）

2024年第2期

浏览历史

内容加载中请稍等...

一种基于语音、文本和表情的多模态情感识别算法

参考文献14

二级参考文献88

共引文献99

相关作者

相关机构

相关主题

浏览历史