-
题名基于音视频的情感识别方法研究
被引量:6
- 1
-
-
作者
林淑瑞
张晓辉
郭敏
张卫强
王贵锦
-
机构
清华大学电子工程系
清华大学深圳国际研究生院
北京交通大学电子信息工程学院
-
出处
《信号处理》
CSCD
北大核心
2021年第10期1889-1898,共10页
-
基金
NSFC-通用技术基础研究联合基金重点项目(U1836219)。
-
文摘
近年来,情感计算逐渐成为人机交互发展突破的关键,而情感识别作为情感计算的重要部分,也受到了广泛的关注。本文实现了基于ResNet18的面部表情识别系统和基于HGFM架构的语音情感识别模型,通过调整参数,训练出了性能较好的模型。在此基础上,通过特征级融合和决策级融合这两种多模态融合策略,实现了包含视频和音频信号的多模态情感识别系统,展现了多模态情感识别系统性能的优越性。两种不同融合策略下的音视频情感识别模型相比视频模态和音频模态,在准确率上都有一定的提升,验证了多模态模型往往比最优的单模态模型的识别性能更好的结论。本文所实现的模型取得了较好的情感识别性能,融合后的音视频双模态模型的准确率达到了76.84%,与现有最优模型相比提升了3.50%,在与现有的音视频情感识别模型的比较中具有性能上的优势。
-
关键词
情感识别
深度学习
多模态融合
残差网络
分层粒度和特征模型
-
Keywords
emotion recognition
deep learning
multimodal fusion
residual network
hierarchical grained and feature model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-