融合注意力和辅助分类器的膨胀残差网络语音情感识别研究被引量：3

Research on speech emotion recognition based on dilated resnet with attention mechanism and auxiliary classifier

下载PDF

导出

摘要针对现有语音情感数据集中样本数不足以支撑训练深度神经网络以及层数不断加深带来的梯度爆炸问题,在使用高斯白噪声和随机时频掩蔽对数据集进行增强的基础上,提出了一种融合通道、空间注意力和辅助分类器的膨胀残差网络(dilated residual network with auxiliary calssifier and channel,spatial attention,DRN-A-CASA)语音情感识别方法。首先,使用增强后的梅尔谱图数据集作为网络模型的输入,并在残差网络原卷积层中采用膨胀卷积来扩大特征提取感受野;其次,在残差网络layer3层后添加辅助分类器分支,加速网络训练并改进损失函数;最后,在layer4层中添加注意力机制关注情感特征,实现语音情感的分类。实验结果表明,基于DRN-A-CASA的模型在RAVDESS及EMODB两个数据集上分别达到了92.91%和89.15%的识别准确率,验证了所提方法的有效性和泛化性能。 Considering the insufficient sample size in existing speech emotion datasets to support the training of deep neural networks and the gradient explosion problem caused by the increasing depth of the network,this paper proposes a speech emotion recognition method based on a dilated residual network with auxiliary classifier and channel,spatial attention(DRN-A-CASA)that integrates channel and spatial attention fusion and auxiliary classifier.Gaussian white noise and random time-frequency masking are employed to enhance the dataset.First,the enhanced Mel-spectrogram dataset is used as the input of the network model,and dilated convolution is applied to expand the feature extraction receptive field in the residual network's original convolution layers.Second,an auxiliary classifier branch is added after the layer 3 of the residual network to accelerate network training and improve the loss function.Finally,the attention mechanism is introduced in layer 4 to focus on emotional features for speech emotion classification.The experimental results show that the DRN-A-CASA model achieves recognition accuracies of 92.91%and 89.15%on the RAVDESS and EMODB datasets respectively,demonstrating the effectiveness and generalization performance of the proposed method.

作者周佳鑫焦亚萌王彦斌郑燕茹 Zhou Jiaxin;Jiao Yameng;Wang Yanbin;Zheng Yanru(School of Electronices and Information,Xi'an Polytechnic University,Xi'an 710048,China)

机构地区西安工程大学电子信息学院

出处《国外电子测量技术》北大核心 2023年第8期19-25,共7页 Foreign Electronic Measurement Technology

基金国家自然科学基金(61901347) 中国学位与研究生教育学会重点课题(2020ZDB67) 西安市科技局科研计划项目(22GXFW0034)资助。

关键词语音情感识别残差网络注意力数据增强 speech emotion recognition residual network attention data augmentation

分类号 TP391.4 [自动化与计算机技术—计算机应用技术] TN912.3 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献4

1任健,李鸿燕,张昱,邢璐.基于UNet自适应特征融合的语音增强[J].电子测量技术,2022,45(9):76-81. 被引量：6
2苗敏敏,徐宝国,胡文军,王爱民,宋爱国.基于自适应优化空频微分熵的情感脑电识别[J].仪器仪表学报,2021,42(3):221-230. 被引量：16
3陈瑞娟,邓光华,刁小飞,孙智慧,王慧泉.基于MIC心率变异性特征选择的情感识别研究[J].电子测量与仪器学报,2020,32(12):57-65. 被引量：4
4郑艳,陈家楠,吴凡,付彬.基于CGRU模型的语音情感识别研究与实现[J].东北大学学报（自然科学版）,2020,41(12):1680-1685. 被引量：13

二级参考文献18

1陈思佳,罗志增.基于长短时记忆和卷积神经网络的手势肌电识别研究[J].仪器仪表学报,2021,42(2):162-170. 被引量：27
2何群,邵丹丹,王煜文,张园园,谢平.基于多特征卷积神经网路的运动想象脑电信号分析及意图识别[J].仪器仪表学报,2020,41(1):138-146. 被引量：16
3刘辉,曾鹏飞,巫乔顺,陈甫刚.基于改进遗传算法的转炉炼钢过程数据特征选择[J].仪器仪表学报,2019,40(12):185-195. 被引量：17
4陆生礼,时龙兴,余崇智,魏荣爵.听觉模拟的语音增强方法[J].声学学报,1996,21(6):879-883. 被引量：4
5刘文举,聂帅,梁山,张学良.基于深度学习语音分离技术的研究现状与进展[J].自动化学报,2016,42(6):819-833. 被引量：70
6洪翠,付宇泽,郭谋发,白蔚楠.改进多分类支持向量机的配电网故障识别方法[J].电子测量与仪器学报,2019,31(1):7-15. 被引量：41
7张丹,隋文涛,梁钊,王峰.基于VMD和KNN的心电信号分类算法[J].电子测量与仪器学报,2019,31(4):140-145. 被引量：13
8徐桂芝,赵阳,郭苗苗,金铭.基于深度分离卷积的情绪识别机器人即时交互研究[J].仪器仪表学报,2019,40(10):161-168. 被引量：10
9赵紫宁,李智,张绍荣.运动想象脑机接口中两种改进的脑电共空域模式特征提取方法[J].电子测量与仪器学报,2019,31(12):64-70. 被引量：18
10王生霄,侯兴松,黑夏萌.嵌入CBAM结构的改进YOLOV3超宽带雷达生命信号检测算法[J].国外电子测量技术,2020,39(3):1-6. 被引量：15

共引文献35

1常梦容,王海瑞,肖杨.mRMR特征筛选和随机森林的故障诊断方法研究[J].电子测量与仪器学报,2022,36(3):175-183. 被引量：5
2郭亚齐,王鉴,韩星程,韩焱,王中正.基于CDAE-LMSAF的水下目标辐射信号增强[J].电子测量技术,2023,46(19):165-170.
3陈思勤,胡涛,沈玉华,曹阳,李婧.基于MIC和XGBoost的火电厂发电量预测[J].青海电力,2021,40(2):41-45. 被引量：3
4张学军,陈都,孙知信.基于卷积神经网络的脑电信号情绪分类方法[J].电子测量技术,2022,45(1):1-7. 被引量：12
5何群,李冉冉,付子豪,江国乾,谢平.基于改进MEDA算法的脑电情绪识别[J].仪器仪表学报,2021,42(12):157-166. 被引量：2
6焦亚萌,周成智,李文萍,崔琳,董免.融合多头注意力的VGGNet语音情感识别研究[J].国外电子测量技术,2022,41(1):63-69. 被引量：11
7谷学静,宋杨,李峰,李林.基于小波包融合微分熵的运动想象脑电信号处理[J].激光杂志,2022,43(6):126-130. 被引量：5
8张婷婷,王楠,周天彤,王苏弘,邹凌.基于Couple熵的抑郁症相干性反馈指标提取[J].电子测量技术,2022,45(9):160-167.
9郭芳青,赵丽,张志雯,何兴霖,孟铜宁.基于交错组卷积神经网络的脑电信号情绪识别研究[J].国外电子测量技术,2022,41(8):112-117. 被引量：3
10柴立宁,化成城,周占峰.基于脑电样本熵功率谱的VR诱发晕动症分析[J].电子测量技术,2022,45(20):43-52. 被引量：4

同被引文献30

1苗敏敏,徐宝国,胡文军,王爱民,宋爱国.基于自适应优化空频微分熵的情感脑电识别[J].仪器仪表学报,2021,42(3):221-230. 被引量：16
2黄永庆,周强.基于CNN时-空卷积优化的EM-EEG识别方法研究[J].电子测量与仪器学报,2022,36(3):231-240. 被引量：2
3李翔,李昕,胡晨,卢夏衍.面向智能机器人的Teager语音情感交互系统设计与实现[J].仪器仪表学报,2013,34(8):1826-1833. 被引量：10
4张雄,刘蓉,刘明.基于卷积特征提取与融合的语音情感识别研究[J].电子测量技术,2018,41(16):138-142. 被引量：3
5许良凤,刘泳海,胡敏,王晓华,任福继.语谱图改进完全局部二值模式的语音情感识别[J].电子测量与仪器学报,2018,32(5):25-32. 被引量：10
6巨志勇,马素萍.改进的Inceptionv3果蔬识别算法[J].包装工程,2019,40(21):30-35. 被引量：10
7陈玉林,李戈理,杨智新,肖飞,车锐媚,陈彦竹.基于KNN算法识别合水地区长7储层岩性岩相[J].测井技术,2020,44(2):182-185. 被引量：20
8胡瑶,李军,苏俊磊.用地球物理测井方法识别碳酸盐岩储集层的岩性及孔隙结构--以巴西深海J油田案例[J].地球物理学进展,2020,35(2):735-742. 被引量：7
9余鹏,田杰.基于卷积神经网络的多维特征微博文本情感分析[J].计算机与数字工程,2020,48(9):2244-2247. 被引量：5
10杨洋,石万忠,张晓明,王任,徐笑丰,刘俞佐,白卢恒,曹沈厅,冯芊.页岩岩相的测井曲线识别方法——以焦石坝地区五峰组—龙马溪组为例[J].岩性油气藏,2021,33(2):135-146. 被引量：16

引证文献3

1闫舒羽,李小光,顾天昊,徐冠华.基于多通道帧级筛选的LSTM网络脑电情感识别[J].国外电子测量技术,2023,42(12):94-101. 被引量：1
2喻永振,刘大明.基于幅值滤波与分层特征融合策略的语音情感识别[J].国外电子测量技术,2024,43(3):35-42.
3田枫,王鑫,刘芳,刘宗堡,刘涛,唐莎莎,刘悦,张世祺.融合SMGC-ECAs-Resnet的致密砂岩岩相识别方法研究[J].重庆理工大学学报（自然科学）,2024,38(8):164-172.

二级引证文献1

1董胡,彭高丰,陈伟.基于DPCNN-SLSTM的中文儿童语音情感识别[J].通信技术,2024,57(7):666-671.

1吴海婷.《彩虹照耀》:我们都可以好好被爱着[J].中学生博览,2023(30):74-74.
2张宇航,李军锋.基于时频掩蔽的球形阵声源定位系统[J].网络新媒体技术,2023,12(3):43-50.
3刘奕晨,章坚武,胡晶.基于多维注意力融合的驾驶场景分割增强算法[J].计算机应用研究,2023,40(10):3180-3185.
4宋飞,范焜,张昊宇,朱泳翔.数字语音降噪系统实现研究[J].西安航空学院学报,2023,41(5):54-59.
5张博,王罗,邹祖冰,滕伟,邓友汉.基于时频掩蔽和振动特征的齿轮箱振源分离方法[J].振动与冲击,2023,42(15):73-82.
6孟凡会,王玉亮,汪卫霞.基于注意力机制的在线用户痛点信息挖掘[J].情报理论与实践,2023,46(10):192-199.
7李腾,李德玉,翟岩慧,张少霞.介粒度空间中的最优粒度选择和属性约简[J].计算机科学,2023,50(10):71-79.
8宋家骏,刘桂雄,黄家曦,张国才.应用U-HRNet+SoftTripleLoss的HiFi-Net伪造图像检测技术研究[J].中国测试,2023,49(9):37-45.
9冯梅,罗丹,刘茜,刘湘萍.湖北省急诊科护士安宁疗护知识状况与安宁疗护自我感知能力的关系[J].医学与社会,2023,36(10):115-119.
10许萌,韩鹏.面向学前教育对话机器人的多模态情感识别实现关键技术[J].自动化与仪器仪表,2023(9):137-141.

国外电子测量技术

2023年第8期

浏览历史

内容加载中请稍等...

融合注意力和辅助分类器的膨胀残差网络语音情感识别研究被引量：3

参考文献4

二级参考文献18

共引文献35

同被引文献30

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

融合注意力和辅助分类器的膨胀残差网络语音情感识别研究 被引量：3

参考文献4

二级参考文献18

共引文献35

同被引文献30

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

融合注意力和辅助分类器的膨胀残差网络语音情感识别研究被引量：3