基于音视频的情感识别方法研究被引量：6

Method Research on Multimodal Emotion Recognition Based on Audio and Video

下载PDF

导出

摘要近年来,情感计算逐渐成为人机交互发展突破的关键,而情感识别作为情感计算的重要部分,也受到了广泛的关注。本文实现了基于ResNet18的面部表情识别系统和基于HGFM架构的语音情感识别模型,通过调整参数,训练出了性能较好的模型。在此基础上,通过特征级融合和决策级融合这两种多模态融合策略,实现了包含视频和音频信号的多模态情感识别系统,展现了多模态情感识别系统性能的优越性。两种不同融合策略下的音视频情感识别模型相比视频模态和音频模态,在准确率上都有一定的提升,验证了多模态模型往往比最优的单模态模型的识别性能更好的结论。本文所实现的模型取得了较好的情感识别性能,融合后的音视频双模态模型的准确率达到了76.84%,与现有最优模型相比提升了3.50%,在与现有的音视频情感识别模型的比较中具有性能上的优势。 In recent years,affective computing has gradually become one of the keys to the development of human-computer interaction.Emotion recognition,as an important part of affective computing,has also received extensive attention.Residual network is one of the most widely used networks and HGFM has better accuracy and robustness.This paper implemented facial expression recognition system based on ResNet18 and speech emotion recognition model based on HGFM.By adjusting the parameters,the model with better performance was trained.On this basis,we realized the multimodal system included video and audio by multimodal fusion strategies,namely feature-level fusion and decision-level fusion.It showed the superiority of the multimodal emotion recognition system performance.The feature-level fusion spliced the features of visual and audio mode into a large feature vector and then sent it into the classifier for classification and recognition.For the decision-level fusion,after the prediction probability of visual and audio mode was obtained through classifiers,the weight of each mode and the fusion strategy were determined according to the reliability of each mode,and the classification result was obtained after fusion.It was found that both two audio-visual emotion recognition models using different fusion strategies had improvements in accuracy compared with video modal model and audio modal model.The conclusion that the multimodal model is better than the optimal single-mode model was verified.The accuracy of the fused audio-visual bimodal model reached 76.84%,which was 3.50%higher than the existing optimal model.The model achieved in this paper has better performance in emotion recognition and has advantages in performance compared with the existing audio-visual emotion recognition models.

作者林淑瑞张晓辉郭敏张卫强王贵锦 LIN Shurui;ZHANG Xiaohui;GUO Min;ZHANG Weiqiang;WANG Guijin(Beijing National Research Center for Information Science and Technology,Department of Electronic Engineering,Tsinghua University,Beijing 100084,China;Shenzhen International Graduate School,Tsinghua University,Shenzhen,Guangdong 518055,China;School of Electronic and Information Engineering,Beijing Jiaotong University,Beijing 100044,China)

机构地区清华大学电子工程系清华大学深圳国际研究生院北京交通大学电子信息工程学院

出处《信号处理》 CSCD 北大核心 2021年第10期1889-1898,共10页 Journal of Signal Processing

基金 NSFC-通用技术基础研究联合基金重点项目(U1836219)。

关键词情感识别深度学习多模态融合残差网络分层粒度和特征模型 emotion recognition deep learning multimodal fusion residual network hierarchical grained and feature model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1潘家辉,何志鹏,李自娜,梁艳,邱丽娜.多模态情绪识别研究综述[J].智能系统学报,2020,15(4):633-645. 被引量：25
2聂聃,王晓韡,段若男,吕宝粮.基于脑电的情绪识别研究综述[J].中国生物医学工程学报,2012,31(4):595-606. 被引量：67
3黄泳锐,杨健豪,廖鹏凯,潘家辉.结合人脸图像和脑电的情绪识别技术[J].计算机系统应用,2018,27(2):9-15. 被引量：9

二级参考文献65

1孙皓莹,蒋静坪.基于参数估计的多传感器数据融合[J].传感器技术,1995,14(6):32-36. 被引量：34
2罗跃嘉,黄宇霞,李新影,李雪冰.情绪对认知加工的影响:事件相关脑电位系列研究[J].心理科学进展,2006,14(4):505-510. 被引量：75
3刘晓旻,谭华春,章毓晋.人脸表情识别研究的新进展[J].中国图象图形学报,2006,11(10):1359-1368. 被引量：61
4刘玉娟,方富熹.情绪的语音交流[J].中国行为医学科学,2007,16(4):374-376. 被引量：4
5胡广书.数字信号处理[M].北京:清华大学出版社,2007.
6James W. What is an emotion [J]. Mind, 1884, 9(34) : 188 - 205.
7Lange CG. The emotions: a psychophysiological study [ J ]. The emotions, 1885, 33 - 90.
8Cannon W. The James-Lunge theory of emotions: a critical examination and an alternative theory [ J]. American Journal of Psychology, 1927, 39:106 - 124.
9James W, Papez MD, A proposed mechanism of emotion [ J]. Arch Neural Psychiatry, 1937, 38(4) : 725 -743.
10Paul D, Maclean MD. Psychosomatic disease and the " Visceral Brain"-recent developments bearing on the Papez theory of emotion [ J]. Psychosomatic Medicine, 1949, 11:338-353.

共引文献98

1王开心,徐秀娟,刘宇,赵哲焕,赵小薇.在线评论的静态多模态情感分析[J].应用科学学报,2022,40(1):25-35. 被引量：2
2Wanrou Hu,Gan Huang,Linling Li,Li Zhang,Zhiguo Zhang,Zhen Liang.Video-triggered EEG-emotion public databases and current methods: A survey[J].Brain Science Advances,2020,6(3):255-287. 被引量：2
3魏欢,韩雪晴.智能语音产品的情感化设计研究[J].设计艺术研究,2021,11(1):56-60. 被引量：1
4尤惠霞,谢雪玲,吴雅云.基于文献查新探讨人体生理信号采集技术进展[J].中国医疗设备,2013,28(8):73-74.
5党宏社,郭楚佳,张娜.信息融合技术在情绪识别领域的研究展望[J].计算机应用研究,2013,30(12):3536-3539. 被引量：6
6李发权,杨立才,颜红博.基于PCA-SVM多生理信息融合的情绪识别方法[J].山东大学学报（工学版）,2014,44(6):70-76. 被引量：2
7张迪,万柏坤,明东.基于生理信号的情绪识别研究进展[J].生物医学工程学杂志,2015,32(1):229-234. 被引量：27
8赵家骏,沈惠璋,王翌清.多路并行心电脑电便携式仪器的设计与实现[J].中国医学物理学杂志,2015,32(3):407-411. 被引量：1
9刘畅格,黄力平,李阔弟,李政,张力文,成雅鑫.通过EEG观察振动训练对机体觉醒状态的影响[J].福建体育科技,2015,34(4):20-21.
10李枫林,陈德鑫,梁少星.基于语义关联和情景感知的个性化推荐方法研究[J].情报杂志,2015,34(10):189-195. 被引量：21

同被引文献74

1杨帆,饶元,丁毅,贺王卜,丁紫凡.面向任务型的对话系统研究进展[J].中文信息学报,2021,35(10):1-20. 被引量：4
2贾蓉.项目制导入式教学与环境设计课程的教学改革——以《商业空间设计》为例[J].中国多媒体与网络教学学报（电子版）,2020(31):93-95. 被引量：2
3熊利婷.基础课程的多模态教学实践[J].电子技术（上海）,2021,50(9):200-201. 被引量：2
4周红标.融合语音和脉搏的多模态情感识别研究[J].微电子学与计算机,2015,32(6):5-9. 被引量：4
5黄崑,赖茂生.图像情感特征的分类与提取[J].计算机应用,2008,28(3):659-661. 被引量：14
6郭雷,常威威,付朝阳.高光谱图像融合最佳波段选择方法[J].宇航学报,2011,32(2):374-379. 被引量：20
7梅少辉,何明一,戴玉超.基于双向信号子空间投影的高光谱图像虚拟维数估计[J].西北工业大学学报,2012,30(5):640-646. 被引量：2
8成卫青,卢艳红.一种基于最大最小距离和SSE的自适应聚类算法[J].南京邮电大学学报（自然科学版）,2015,35(2):102-107. 被引量：43
9秦方普,张爱武,王书民,孟宪刚,胡少兴,孙卫东.基于谱聚类与类间可分性因子的高光谱波段选择[J].光谱学与光谱分析,2015,35(5):1357-1364. 被引量：23
10蔡国永,夏彬彬.基于卷积神经网络的图文融合媒体情感预测[J].计算机应用,2016,36(2):428-431. 被引量：25

引证文献6

1祁铧颖,贺萍.跨模态数据融合综述[J].软件工程,2022,25(10):1-7. 被引量：4
2宋梦媛.一种基于多任务CNN的多模态人脸识别模型[J].云南师范大学学报（自然科学版）,2022,42(5):47-52. 被引量：1
3闫红梅,何明一.基于聚类和联合偏度与峰度指数的高光谱数据波段选择算法[J].信号处理,2023,39(1):1-10. 被引量：1
4吴志游,付晓峰.结合TCN和双向GRU的多模态融合情感空间标注[J].工业控制计算机,2023,36(4):109-111. 被引量：1
5曹荣贺,吴晓龙,冯畅,郑方,徐明星,哈妮克孜·伊拉洪,艾斯卡尔·艾木都拉.基于Wav2vec2.0与语境情感信息补偿的对话语音情感识别[J].信号处理,2023,39(4):698-707.
6秦文姬,赵雪青.多模态反馈数据在线教学和项目导入式混合教学模式设计——以程序设计语言为例[J].创新教育研究,2022,10(1):179-186.

二级引证文献7

1陈锟,裴雷,范涛.基于多模态融合的突发事件分类研究[J].现代情报,2023,43(6):24-34. 被引量：1
2白如江,鞠孜涵,张玉洁,张亚辉,冯梦莹.面向情报感知的多源多模态数据融合方法研究[J].情报杂志,2023,42(10):124-131. 被引量：5
3周宇星,樊丞成,王震,徐信毅,林萍,李晓欧.基于特征层融合的EEG-NIRS识别方法研究[J].软件工程,2024,27(1):1-5.
4安然,储继华,洪先锋.面向非结构化数据的情报分析方法体系框架研究[J].情报理论与实践,2024,47(2):143-150.
5朱潘雨,黄敏,赵鑫.基于SMOTE-UVE-SVM的小麦种子纯度高光谱图像检测[J].激光技术,2024,48(2):281-287.
6莫丽娅,黄铭.基于多传感器数据的虚拟现实翻译机器人交互自动化系统设计[J].自动化与仪器仪表,2024(3):189-192.
7孙小广,万若楠,余光正.基于CNN的人脸年龄与性别检测系统设计[J].现代计算机,2024,30(4):109-112.

1谢晖,詹勇华,曾琦,陈丹,徐欣怡,陈雪利.基于人工智能技术的生命科学类虚拟仿真实验课程学习评价研究[J].高校生物学教学研究（电子版）,2021,11(1):35-41. 被引量：5
2张国标,李洁,胡潇戈.基于多模态特征融合的社交媒体虚假新闻检测[J].情报科学,2021,39(10):126-132. 被引量：6
3李威涛,郭建生.基于变绳长双摆模型的抓斗门座起重机吊重摆动控制研究[J].起重运输机械,2021(18):24-28. 被引量：1
4徐振国,刘志,党同桐,孔玺.教育智能体的发展历程、应用现状与未来展望[J].电化教育研究,2021,42(11):20-26. 被引量：20
5王三娣,杨新玮,韩宏伟,李振,叶菊芬,董倩倩,李佳.埋藏式心脏转复除颤器不恰当放电治疗原因分析及处理[J].中国心脏起搏与心电生理杂志,2021,35(5):420-425.
6刘逸,孟令坤,保继刚,赵创钿.人工计算模型与机器学习模型的情感捕捉效度比较研究--以旅游评论数据为例[J].南开管理评论,2021,24(5):63-72. 被引量：18
7路国娟.输水隧洞与石油管道交叉段爆破施工及监测方案分析[J].黑龙江水利科技,2021,49(11):99-103. 被引量：1
8王联国,刘小娟.基于采蜜机制的正弦余弦算法及其在机械优化设计中的应用[J].中国机械工程,2021,32(21):2577-2589. 被引量：6

信号处理

2021年第10期

浏览历史

内容加载中请稍等...

基于音视频的情感识别方法研究被引量：6

参考文献3

二级参考文献65

共引文献98

同被引文献74

引证文献6

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于音视频的情感识别方法研究 被引量：6

参考文献3

二级参考文献65

共引文献98

同被引文献74

引证文献6

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于音视频的情感识别方法研究被引量：6