基于嵌入注意力机制层级LSTM的音视频情感识别被引量：8

Hierarchical LSTM-Based Audio and Video Emotion Recognition With Embedded Attention Mechanism

导出

摘要对于语音的情感识别,针对单层长短期记忆(LSTM)网络在解决复杂问题时的泛化能力不足,提出一种嵌入自注意力机制的堆叠LSTM模型,并引入惩罚项来提升网络性能。对于视频序列的情感识别,引入注意力机制,根据每个视频帧所包含情感信息的多少为其分配权重后再进行分类。最后利用加权决策融合方法融合表情和语音信号,实现最终的情感识别。实验结果表明,与单模态情感识别相比,所提方法在所选数据集上的识别准确率提升4%左右,具有较好的识别结果。 A single-layer long short term memory(LSTM)network is not generalizable to solve complex speech emotion recognition problems.Therefore,a hierarchical LSTM model with a self-attention mechanism is proposed.Penalty items are introduced to improve network performance.For the emotion recognition of video sequences,the attention mechanism is introduced to assign a weight to each video frame according to its emotional information and then classify these frames.The weighted decision fusion method is used to fuse expressions and speech signals to achieve the final emotion recognition.The experimental results demonstrate that compared with single-modal emotion recognition,the recognition accuracy of the proposed method on the selected data is improved by approximately 4%,thus the proposed method has a better recognition results.

作者刘天宝张凌涛于文涛魏东川范轶军 Liu Tianbao;Zhang Lingtao;Yu Wentao;Wei Dongchuan;Fan Yijun(College of Computer and Information Engineering,Central South University of Forestry and Technology,Changsha,Hunan 410004,China)

机构地区中南林业科技大学计算机与信息工程学院

出处《激光与光电子学进展》 CSCD 北大核心 2021年第2期175-182,共8页 Laser & Optoelectronics Progress

基金国家自然科学基金(61602529)。

关键词图像处理情感识别全卷积神经网络长短期记忆网络注意力机制多模态融合 image processing emotion recognition fully convolutional neural network long short term memory network attention mechanism multimodal fusion

分类号 TP302.1 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献4

1袁配配,张良.基于深度学习的行人属性识别[J].激光与光电子学进展,2020,57(6):53-59. 被引量：5
2刘芾,李茂军,胡建文,肖雨荷,齐战.基于低像素人脸图像的表情识别[J].激光与光电子学进展,2020,57(10):89-96. 被引量：16
3张义超,孙子文.基于优化卷积深度信念网络的智能手机身份认证方法[J].激光与光电子学进展,2020,57(8):84-94. 被引量：6
4张石清,李乐民,赵知劲.基于一种改进的监督流形学习算法的语音情感识别[J].电子与信息学报,2010,32(11):2724-2729. 被引量：21

二级参考文献21

1Zhao Yan Zhao Li Zou Cairong Yu Yinhua.SPEECH EMOTION RECOGNITION USING MODIFIED QUADRATIC DISCRIMINATION FUNCTION[J].Journal of Electronics(China),2008,25(6):840-844. 被引量：9
2王亚伟,雷海娜,卜敏,韩广才.几种典型血细胞的光学相位模型及其分布特征与识别方法[J].中国激光,2009,36(10):2629-2635. 被引量：11
3宋成,张亚东,王磊,刘志中,晁浩.基于DTW交换查询的轨迹隐私保护方案[J].北京邮电大学学报,2018,41(6):97-102. 被引量：2
4高航,薛凌云.基于改进遗传算法的反向传播神经网络拟合LED光谱模型[J].激光与光电子学进展,2017,54(7):288-296. 被引量：24
5李勇,林小竹,蒋梦莹.基于跨连接LeNet-5网络的面部表情识别[J].自动化学报,2018,44(1):176-182. 被引量：99
6姜明星,胡敏,王晓华,任福继,王浩文.视频序列中表情和姿态的双模态情感识别[J].激光与光电子学进展,2018,55(7):161-168. 被引量：11
7何志超,赵龙章,陈闯.用于人脸表情识别的多分辨率特征融合卷积神经网络[J].激光与光电子学进展,2018,55(7):364-369. 被引量：34
8江大鹏,杨彪,邹凌.基于LBP卷积神经网络的面部表情识别[J].计算机工程与设计,2018,39(7):1971-1977. 被引量：19
9郭呈呈,于凤芹,陈莹.基于卷积神经网络特征和改进超像素匹配的图像语义分割[J].激光与光电子学进展,2018,55(8):224-230. 被引量：23
10李亚鹏,万遂人.基于深度学习的行人属性多标签识别[J].中国生物医学工程学报,2018,37(4):423-428. 被引量：3

共引文献44

1张石清,刘瑞欣,赵小明.跨库语音情感识别研究进展[J].计算机系统应用,2022,31(11):31-48.
2李杰,周萍.语音情感识别中特征参数的研究进展[J].传感器与微系统,2012,31(2):4-7. 被引量：2
3许霖庆.高新技术在园艺上的应用（二）[J].花卉,2000(3):10-20.
4李缨,于谦.基于类集和类对的有监督流形学习的肺结节分类[J].科技通报,2012,28(8):29-32.
5徐玉龙,王金明,吴文,陈志伟.一种基于流形与特征融合的说话人识别方法[J].军事通信技术,2012,33(3):7-11.
6张石清,李乐民,赵知劲.人机交互中的语音情感识别研究进展[J].电路与系统学报,2013,18(2):440-451. 被引量：30
7周夕良.语音情感识别的发展与展望[J].信息技术,2013,37(11):19-22. 被引量：1
8李强,皮智谋.基于FastICA-SLLE的转子系统故障诊断研究[J].组合机床与自动化加工技术,2014(8):105-107. 被引量：2
9王小虎,张石清,曹恒瑞.基于多分类器集成的语音情感识别[J].微电子学与计算机,2015,32(7):38-41. 被引量：4
10徐照松,元昌安,覃晓,元建,李双.基于关联规则的语音情感中韵律特征抽取算法研究[J].计算机应用与软件,2015,32(9):42-45. 被引量：1

同被引文献54

1葛雪松.影响注意力的十大因素[J].教学研究,2006,29(6):555-557. 被引量：3
2徐凌宇,方晓君,徐仁杰,沈立炜.基于时序挖掘的时间融合算法及在海表面温度预测中的应用[J].上海大学学报（自然科学版）,2007,13(5):550-553. 被引量：1
3张丽旭,赵敏,蒋晓山.中国赤潮发生频率的变化趋势及其多发年份的R/S预测[J].海洋通报,2010,29(1):72-77. 被引量：19
4张美荣,寸彦铭,赵秀全,刘静.母猪发情鉴定与适时配种[J].养殖与饲料,2011,10(3):9-11. 被引量：4
5毛健,赵红东,姚婧婧.人工神经网络的发展及应用[J].电子设计工程,2011,19(24):62-65. 被引量：179
6石旭东,白彪玲,张金芳,张明.母猪的发情与发情鉴定[J].猪业科学,2013,30(4):56-58. 被引量：10
7李翔,李昕,胡晨,卢夏衍.面向智能机器人的Teager语音情感交互系统设计与实现[J].仪器仪表学报,2013,34(8):1826-1833. 被引量：10
8马伟娜,朱蓓蓓,谢宇.孤独症儿童面部表情识别能力的眼动研究[J].应用心理学,2015,21(1):76-86. 被引量：13
9任宏利,王润,翟盘茂,丁一汇,陆波.超强厄尔尼诺事件海洋学特征分析与预测回顾[J].气象学报,2017,75(1):1-18. 被引量：20
10王海星,田雪晴,游茂,陆雪秋,顾泽龙,程龙.Application status,problems and suggestions of artificial intelligence in medical field[J].卫生软科学,2018,32(5):3-5. 被引量：53

引证文献8

1贺琪,胡泽煜,徐慧芳,宋巍,杜艳玲.基于经验模态分解-门控循环模型的海表温度预测方法[J].激光与光电子学进展,2021,58(24):334-342. 被引量：8
2井佩光,叶徐清,刘昱,苏育挺.基于双向深度编码网络的短视频流行度预测[J].激光与光电子学进展,2022,59(8):290-298. 被引量：5
3居家奇,许珂,王玥,刘聚坤,金妍.不同照明环境对声光融合效应的贡献[J].激光与光电子学进展,2022,59(7):395-402.
4薛鸿翔,沈明霞,刘龙申,陈金鑫,单武鹏,孙玉文.基于改进YOLO v5s的经产母猪发情检测方法研究[J].农业机械学报,2023,54(1):263-270. 被引量：7
5吴志游,付晓峰.结合TCN和双向GRU的多模态融合情感空间标注[J].工业控制计算机,2023,36(4):109-111. 被引量：1
6闫超,贾振堂.基于Transformer与增强信息融合的双源情感识别[J].国外电子测量技术,2023,42(4):187-193. 被引量：3
7于明,刘子微,师硕,吕华.基于残差网络和粗细粒度的音视频情感识别[J].计算机工程与设计,2023,44(7):2192-2199.
8盛诗梦,丁皓,徐欣茹,丁思吉,夏冬阳.注意力机制在医学上的应用综述[J].软件工程与应用,2022,11(6):1223-1232.

二级引证文献24

1韩莹,孙凯强,张栋,王乐豪,谈昊然.一种基于深度学习的海表温度混合预测方法[J].海洋环境科学,2022,41(5):791-798. 被引量：1
2李铭兴,徐成,李学伟,刘宏哲,闫晨阳,廖文森.基于多模态融合的城市道路场景视频描述模型研究[J].计算机应用研究,2023,40(2):607-611. 被引量：3
3李成海,孙隽丰.基于注意力机制的SSA-TCN-GRU的网络安全态势预测[J].兵器装备工程学报,2022,43(S02):178-185.
4韩莹,孙凯强,闫加宁,董昌明.基于变分模态分解-长短时记忆网络-宽度学习系统混合模型的东海海温预测[J].激光与光电子学进展,2023,60(7):49-57.
5季小雨,杜锐,江阿沛.基于Citespace对短视频影响的可视化分析[J].传播力研究,2023,7(13):64-66.
6杨断利,王永胜,陈辉,孙二东,曾丹.基于改进YOLO v6-tiny的蛋鸡啄羽行为识别与个体分类[J].农业机械学报,2023,54(5):268-277. 被引量：5
7刘波,谢波涛,黄必桂,尹训强,王志翔,杨永增.全球高分辨率海洋预报系统中的SST预报偏差校正[J].海洋科学进展,2023,41(3):444-455. 被引量：1
8唐铭泽,杨银科,张菁雯.基于ASWPD-BO-GRU的月径流量预测模型[J].水资源与水工程学报,2023,34(4):84-91. 被引量：2
9张锦荣,王康谊.基于EMD-LSTM的水产养殖水温预测模型[J].计算机与数字工程,2023,51(9):2189-2194.
10秦昌友,杨艳山,顾峰玮,陈盼阳,秦维彩.现代农业领域中计算机视觉技术的运用与发展[J].中国农机化学报,2023,44(12):119-128. 被引量：1

1丁川,崔爱浩,齐林,帖云.基于多模态的人体动作识别研究[J].人工智能,2021(1):50-58. 被引量：3
2李敏.基于大数据的运营商客户投诉热点分析[J].通讯世界,2021,28(2):19-20.
3王维,胡慧君,刘茂福.基于逆类别注意力机制的电商文本分类[J].计算机系统应用,2021,30(5):247-252.
4吕惠炼,胡维平.基于端到端深度神经网络的语音情感识别研究[J].广西师范大学学报（自然科学版）,2021,39(3):20-26. 被引量：11
5陈洁,詹永照.多时间尺度双流CNN与置信融合的视频动作识别[J].江苏大学学报（自然科学版）,2021,42(3):318-324. 被引量：4
6吴立宝,曹雅楠,曹一鸣.人工智能赋能课堂教学评价改革与技术实现的框架构建[J].中国电化教育,2021(5):94-101. 被引量：99
7宋明,刘彦隆.Bert在微博短文本情感分类中的应用与优化[J].小型微型计算机系统,2021,42(4):714-718. 被引量：14
8黄馨瑶,周丽娟,马瑞珩.军队先遣护理人员突发传染病应急救援核心胜任能力体系构建[J].中国实用护理杂志,2021,37(12):887-893. 被引量：6
9李旭,丁萌,魏东辉,吴晓舟,曹云峰.VDAS中基于单目红外图像的深度估计方法[J].系统工程与电子技术,2021,43(5):1210-1217. 被引量：4
10魏静,丁乐蓉,朱恒民,洪小娟,林萍.基于情感和亲密度的社交网络舆情传播模型研究[J].情报科学,2021,39(4):37-46. 被引量：14

激光与光电子学进展

2021年第2期

浏览历史

内容加载中请稍等...

基于嵌入注意力机制层级LSTM的音视频情感识别被引量：8

参考文献4

二级参考文献21

共引文献44

同被引文献54

引证文献8

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于嵌入注意力机制层级LSTM的音视频情感识别 被引量：8

参考文献4

二级参考文献21

共引文献44

同被引文献54

引证文献8

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于嵌入注意力机制层级LSTM的音视频情感识别被引量：8