音视频双模态情感识别融合框架研究被引量：8

Research on Audio-Visual Dual-Modal Emotion Recognition Fusion Framework

下载PDF

导出

摘要针对双模态情感识别框架识别率低、可靠性差的问题,对情感识别最重要的两个模态语音和面部表情进行了双模态情感识别特征层融合的研究。采用基于先验知识的特征提取方法和VGGNet-19网络分别对预处理后的音视频信号进行特征提取,以直接级联的方式并通过PCA进行降维来达到特征融合的目的,使用BLSTM网络进行模型构建以完成情感识别。将该框架应用到AViD-Corpus和SEMAINE数据库上进行测试,并和传统情感识别特征层融合框架以及基于VGGNet-19或BLSTM的框架进行了对比。实验结果表明,情感识别的均方根误差(RMSE)得到降低,皮尔逊相关系数(PCC)得到提高,验证了文中提出方法的有效性。 Aiming at the problem of low recognition rate and poor reliability of dual-modal emotion recognition framework,the fusion of two most important modal speech and facial expression in dual-modal emotion recognition is studied.Feature extraction method based on prior knowledge and VGGNet-19 network are used to extract features of pre-processed audio and video signals respectively.Feature fusion is achieved by direct cascade and dimensionality reduction through PCA.BLSTM network is used to construct model to complete emotion recognition.The framework is applied to AViD-Corpus and SEMAINE databases for testing,and is compared with the traditional framework of feature level fusion of emotional recognition and the framework based on VGGNet-19 or BLSTM.The experimental results show that the Root Mean Square Error(RMSE)of emotional recognition is reduced and the Pearson Correlation Coefficient(PCC)is improved,which verifies the effectiveness of the proposed method.

作者宋冠军张树东卫飞高 SONG Guanjun;ZHANG Shudong;WEI Feigao(College of Information Engineering,Capital Normal University,Beijing 100048,China)

机构地区首都师范大学信息工程学院

出处《计算机工程与应用》 CSCD 北大核心 2020年第6期140-146,共7页 Computer Engineering and Applications

基金国家重点研发项目（No.2017YFB1400803,No.2018YFB1004103）国家自然科学基金（No.31571563,No.61601310）

关键词音视频双模态特征层融合情感识别 BLSTM audio-visual dual-modal feature-level fusion emotion recognition BLSTM

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1王蓓,王晓兰.基于表情和语音的多模态情感识别研究[J].信息化研究,2014,40(1):48-50. 被引量：3
2闫静杰,卢官明,李海波,王珊珊.基于人脸表情和语音的双模态情感识别[J].南京邮电大学学报（自然科学版）,2018,38(1):60-65. 被引量：12

二级参考文献19

1Gajsek R, Struc V, Mihelic F. Multi-modal emotion recogni- tion using canonical correlations and acoustic features[C]//Pattern recognition(ICPR),2010 20th International confer- ence on. IEEE,2010:4133 - 4136.
2Wang Y, Guan L, Venetsanopoulos A N. Kernel cross-mo- dal factor analysis for information fusion with application to bimodal emotion recognition[J]. Multimedia, IEEE Trans- actions on, 2012,14 (3) : 597 - 607.
3Paleari M, H uet B, Chellali R. Towards multimodal emotion recognition:a new approaeh[C]//Proceedings of the ACM international conference on image and video retrieval. ACM, 2010 : 174 - 181.
4Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International journal of computer vision, 2004,60(2) :91 - 110.
5Yang J, Yu K, Gong Y, et al. Linear spatial pyramid matc- hing using sparse coding for image cIassification[C]//Com- puter vision and pattern recognition, CVPR 2009. IEEE Conference on. IEEE, 2009:1794- 1801.
6Cortes C, Vapnik V. Support-vector networks[J]. Machine learning, 1995,20(3) .. 273 - 297.
7Pao T, Chen Y, Yeh J. Emotion recognition and evaluation from mandarin speech signals[J]. International journal of innovative computing, Information and Control, 2008,4 (7) : 1695 - 1709.
8Eyben F, WOllmer M, Schuller B. Opensmile. the munich versatile and fast open-source audio feature extractor [C]// Proceedings of the international conference on Multimedia. ACM,2010: 1459 - 1462.
9Wright J, Yang A Y, Ganesh A, et al. Robust face recogni- tion via sparse representation[J]. Pattern analysis and ma- chine intelligence, IEEE Transactions on, 2009,31 (2) : 210 - 227.
10Martin O,Kotsia I,Macq B,et al. The enterface'05 audio- visual emotion database [C]//Data engineering work- shops, 2006. Proceedings. 22nd international conference on. IEEE,2006 : 8 - 8.

共引文献13

1闫静杰,卢官明,李海波,王珊珊.基于人脸表情和语音的双模态情感识别[J].南京邮电大学学报（自然科学版）,2018,38(1):60-65. 被引量：12
2万光荣.惊讶程度的多模态研究[J].湖南师范大学社会科学学报,2019,48(2):110-116. 被引量：2
3龚礼林,刘红霞,赵蔚,刘阳.情感导学系统(ATS)的关键技术及其导学模型研究——论智能导学系统走向情感导学系统之意蕴[J].远程教育杂志,2019,37(5):45-55. 被引量：7
4卢官明,程晓,李霞,闫静杰,李海波.基于遗传算法的多模态情感特征融合方法[J].南京邮电大学学报（自然科学版）,2019,39(5):41-47. 被引量：7
5林巧民,潘敏.基于模糊聚类的“愤怒”表情细分方法研究[J].计算机技术与发展,2020,30(1):44-49. 被引量：2
6贾俊佳,蒋惠萍,张廷.多模态情感识别综述[J].中央民族大学学报（自然科学版）,2020,29(1):54-58. 被引量：9
7刘菁菁,吴晓峰.基于长短时记忆网络的多模态情感识别和空间标注[J].复旦学报（自然科学版）,2020,59(5):565-574. 被引量：8
8卢官明,丛文康,魏金生,闫静杰.基于CNN和LSTM的脑电信号情感识别[J].南京邮电大学学报（自然科学版）,2021,41(1):58-64. 被引量：10
9朱龙珠,田诺,张全.基于语义分析的语音情感在线识别方法研究[J].电子设计工程,2021,29(11):151-154. 被引量：1
10王传昱,李为相,陈震环.基于语音和视频图像的多模态情感识别研究[J].计算机工程与应用,2021,57(23):163-170. 被引量：5

同被引文献45

1邓洪波,金连文.一种基于局部Gabor滤波器组及PCA+LDA的人脸表情识别方法[J].中国图象图形学报,2007,12(2):322-329. 被引量：36
2姚伟,孙正兴,张岩.面向脸部表情识别的Gabor特征选择方法[J].计算机辅助设计与图形学学报,2008,20(1):79-84. 被引量：19
3周书仁,梁昔明,朱灿,杨秋芬.基于ICA与HMM的表情识别[J].中国图象图形学报,2008,13(12):2321-2328. 被引量：22
4徐科,杨朝霖,周鹏,梁晶.基于激光线光源的钢轨表面缺陷三维检测方法[J].机械工程学报,2010,46(8):1-5. 被引量：35
5周娟,李勇平,黄跃峰.基于强度图和深度图的多模态人脸识别[J].计算机工程与应用,2012,48(25):5-8. 被引量：5
6黄立鹤.语料库4.0:多模态语料库建设及其应用[J].解放军外国语学院学报,2015,38(3):1-7. 被引量：62
7陈鹏展,张欣,徐芳萍.基于语音信号与文本信息的双模态情感识别[J].华东交通大学学报,2017,34(2):100-104. 被引量：8
8林海波,王可佳.一种新的听觉特征提取算法研究[J].南京邮电大学学报（自然科学版）,2017,37(2):27-32. 被引量：11
9邵虹,王洋,王昳昀.基于AAM和光流法的动态序列表情识别[J].计算机工程与设计,2017,38(6):1642-1646. 被引量：7
10茅正冲,王俊俊.基于耳蜗倒谱系数和Teager能量算子相位融合的说话人识别系统[J].南京理工大学学报,2018,42(1):82-88. 被引量：4

引证文献8

1黄晶云.基于知识管理的企业档案管理发展策略[J].办公自动化,2020(17):48-49. 被引量：1
2葛继科,刘灿.基于情绪识别的课堂氛围评价系统设计与实现[J].办公自动化,2020(17):43-45. 被引量：1
3冯晓静,白静,薛珮芸,戎如意.基于双模态融合特征的模糊语音识别研究[J].电子设计工程,2022,30(2):43-48. 被引量：3
4洪惠群,沈贵萍,黄风华.表情识别技术综述[J].计算机科学与探索,2022,16(8):1764-1778. 被引量：5
5赵宏伟,郑嘉俊,赵鑫欣,王胜春,李浥东.基于双模态深度学习的钢轨表面缺陷检测方法[J].计算机工程与应用,2023,59(7):285-293. 被引量：2
6林大润,陈俊洪,王思涵,钟经谋,刘文印.视频与音频特征融合生成动作指令组的方法研究[J].计算机应用与软件,2023,40(7):132-138.
7刘朋,周娴玮,龚启旭,余松森.基于音视频特征融合的婴幼儿哭泣检测方法研究[J].计算机与数字工程,2023,51(7):1534-1539.
8杨健豪,曾碧卿,邓会敏,裴枫华,姚博文.基于多任务和自注意力机制的文本微情感分析研究[J].计算机与数字工程,2023,51(12):2863-2866.

二级引证文献12

1任莹莹.互联网+时代企业档案管理的难点及对策[J].企业改革与管理,2021(13):68-69. 被引量：2
2刘瑾辉,邓小芳.干部培训心理课程建设初探--以林草行业干部心理健康与调适课程建设为例[J].国家林业和草原局管理干部学院学报,2021,20(2):30-34.
3刘彦.基于压缩域特征的多媒体数字音频检索方法[J].信息记录材料,2022,23(8):229-231.
4徐端倪,胡智林.基于多模态融合的心理测试仪自动评估系统检测研究[J].自动化与仪器仪表,2022(9):156-160. 被引量：4
5张本文,高瑞玮,乔少杰.新型融合注意力机制的遮挡面部表情识别框架[J].重庆理工大学学报（自然科学）,2023,37(9):217-226. 被引量：3
6倪锦园,张建勋.多尺度坐标注意力金字塔卷积的面部表情识别[J].计算机工程与应用,2023,59(22):242-250. 被引量：1
7刘成广,王善敏,刘青山.类别平衡调制的人脸表情识别[J].计算机科学与探索,2023,17(12):3029-3038.
8郑浩,赵光哲.基于改进卷积的多尺度表情识别[J].计算机工程与应用,2024,60(2):231-243.
9姚鑫.基于语音识别的多模态人机交互系统关键技术研究[J].自动化与仪器仪表,2023(11):222-225. 被引量：2
10熊昆洪,贾贞超,高峰,文虹茜,卿粼波,高励.基于真实场景的情绪识别研究[J].现代计算机,2024,30(1):18-25.

1笑话[J].阅读,2019,0(77):32-32.
2胡先锋,李雅梅.基于并行双模态模糊-PI补偿的多电机SMC控制[J].测控技术,2020,39(2):86-90. 被引量：2
3卢官明,程晓,李霞,闫静杰,李海波.基于遗传算法的多模态情感特征融合方法[J].南京邮电大学学报（自然科学版）,2019,39(5):41-47. 被引量：7
4孙虹,周进国,林伟贤.当代大学生体育核心素养框架研究[J].韩山师范学院学报,2019,40(6):98-104. 被引量：2
5李志扬,李泽军,李彩虹.金融支持区域经济高质量发展监测框架研究[J].金融经济,2020,0(3):71-78. 被引量：12
6吴秀兰(摘译),赵敏(校).优科豪马推出Avid Ascend LX升级旅行轮胎[J].轮胎工业,2019,39(12):754-754.
7武向鹏,张峰,尹鹏,庞其城.电梯专用无线视频检验系统研究[J].机械工程与自动化,2019,0(6):162-164. 被引量：1
8王瑶.客户关系管理基础理论体系框架[J].合作经济与科技,2020,0(6):140-141. 被引量：4
9马晓玲,郭胜男,吴永和.基于图像分析的教育视觉情感识别[J].现代教育技术,2020,30(2):118-121. 被引量：6
10任婕.基于向量自回归模型的旅游热门景点预测方法研究[J].现代电子技术,2020,43(3):158-161. 被引量：7

计算机工程与应用

2020年第6期

浏览历史

内容加载中请稍等...

音视频双模态情感识别融合框架研究被引量：8

参考文献2

二级参考文献19

共引文献13

同被引文献45

引证文献8

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

音视频双模态情感识别融合框架研究 被引量：8

参考文献2

二级参考文献19

共引文献13

同被引文献45

引证文献8

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

音视频双模态情感识别融合框架研究被引量：8