基于动态卷积递归神经网络的语音情感识别被引量：2

Speech Emotion Recognition Based on Dynamic Convolution Recurrent Neural Network

下载PDF

导出

摘要动态情感特征是说话人独立语音情感识别中的重要特征。由于缺乏对语音中时频信息的充分挖掘,现有动态情感特征表征能力有限。为更好地提取语音中的动态情感特征,提出一种动态卷积递归神经网络语音情感识别模型。基于动态卷积理论构建一种动态卷积神经网络提取语谱图中的全局动态情感信息,使用注意力机制分别从时间和频率维度对特征图关键情感区域进行强化表示,同时利用双向长短期记忆网络对谱图进行逐帧学习,提取动态帧级特征及情感的时序依赖关系。在此基础上,利用最大密度散度损失对齐新个体特征与训练集特征分布,降低个体差异性对特征分布产生的影响,提升模型表征能力。实验结果表明,该模型在CASIA中文情感语料库、Emo-db德文情感语料库及IEMOCAP英文情感语料库上分别取得59.50%、88.01%及66.90%的加权平均精度,相较HuWSF、CB-SER、RNN-Att等其他主流模型识别精度分别提升1.25~16.00、0.71~2.26及2.16~8.10个百分点,验证了所提模型的有效性。 Dynamic emotion features are important features in speaker independent speech emotion recognition.However,lack of mining on speech time-frequency information limits the representation ability of existing dynamic emotional features.In this study,a dynamic convolution recurrent neural network speech emotion recognition model is proposed to better extract the dynamic emotional features in speech.First,based on the dynamic convolution theory,a dynamic convolution neural network is constructed to extract the global dynamic emotional information in the spectrogram,and the attention mechanism is used to strengthen the representation of the key emotional regions in the feature map in time and frequency dimensions,respectively;simultaneously,the Bi-directional Long Short-Term Memory(BiLSTM)network is used to learn the spectrum frame by frame to extract the dynamic frame level features and the temporal dependence of emotion;finally,the Maximum Density Divergence(MDD)loss is used to align the new individual features with the feature distribution of the training set,and consequently the impact of individual differences on feature distribution is reduced and the representation ability of the model is improved.The experimental results show that the proposed model achieved 59.50%,88.01%,and 66.90%weighted average accuracies on the three databases(CASIA,Emo-db,and IEMOCAP),respectively.Compared with other mainstream models(HuWSF,CB-SER,RNN-Att,et al),the recognition accuracy of the proposed model in the three databases is improved by 1.25-16.00,0.71-2.26,and 2.16-8.10 percentage points,respectively,which verifies the effectiveness of the proposed model.

作者耿磊傅洪亮陶华伟卢远郭歆莹赵力 GENG Lei;FU Hongliang;TAO Huawei;LU Yuan;GUO Xinying;ZHAO Li(Key Laboratory of Food Information Processing and Control,Ministry of Education,Henan University of Technology,Zhengzhou 450001,China;School of Information Science and Engineering,Southeast University,Nanjing 210096,China)

机构地区河南工业大学粮食信息处理与控制教育部重点实验室东南大学信息科学与工程学院

出处《计算机工程》 CAS CSCD 北大核心 2023年第4期125-130,137,共7页 Computer Engineering

基金国家自然科学基金(61901159) 河南省高等学校重点科研项目(22A520004,22A510001)。

关键词语音情感识别特征提取动态特征注意力机制神经网络 speech emotion recognition feature extraction dynamic feature attention mechanism neural network

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1李海峰,陈婧,马琳,薄洪健,徐聪,李洪伟.维度语音情感识别研究综述[J].软件学报,2020,31(8):2465-2491. 被引量：15
2王忠民,刘戈,宋辉.基于多核学习特征融合的语音情感识别方法[J].计算机工程,2019,45(8):248-254. 被引量：16
3张会云,黄鹤鸣.基于异构并行神经网络的语音情感识别[J].计算机工程,2022,48(4):113-118. 被引量：9

二级参考文献13

1韩文静,李海峰,韩纪庆.基于长短时特征融合的语音情感识别方法[J].清华大学学报（自然科学版）,2008,48(S1):708-714. 被引量：20
2汪洪桥,孙富春,蔡艳宁,陈宁,丁林阁.多核学习方法[J].自动化学报,2010,36(8):1037-1050. 被引量：156
3韩文静,李海峰,马琳.考虑情感程度相对顺序的维度语音情感识别[J].信号处理,2011,27(11):1658-1663. 被引量：2
4韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50. 被引量：167
5陈婧,李海峰,马琳,陈肖,陈晓敏.多粒度特征融合的维度语音情感识别方法[J].信号处理,2017,33(3):374-382. 被引量：9
6Filippo Cavallo,Francesco Semeraro,Laura Fiorini,Gergely Magyar,Peter Sincadk,Paolo Dario.Emotion Modelling for Social Robotics Applications： A Review[J].Journal of Bionic Engineering,2018,15(2):185-203. 被引量：4
7卢官明,袁亮,杨文娟,闫静杰,李海波.基于长短期记忆和卷积神经网络的语音情感识别[J].南京邮电大学学报（自然科学版）,2018,38(5):63-69. 被引量：23
8曾润华,张树群.改进卷积神经网络的语音情感识别方法[J].应用科学学报,2018,36(5):837-844. 被引量：12
9陈逸灵,程艳芬,陈先桥,王红霞,李超.PAD三维情感空间中的语音情感识别[J].哈尔滨工业大学学报,2018,50(11):160-166. 被引量：6
10缪裕青,邹巍,刘同来,周明,蔡国永.基于参数迁移和卷积循环神经网络的语音情感识别[J].计算机工程与应用,2019,55(10):135-140. 被引量：29

共引文献37

1张石清,刘瑞欣,赵小明.跨库语音情感识别研究进展[J].计算机系统应用,2022,31(11):31-48.
2褚钰,李田港,叶硕,叶光明.语音情感识别中的特征选择方法[J].应用声学,2020,39(2):216-222. 被引量：4
3余琳,姜囡.基于Gammatone滤波器的混合特征语音情感识别[J].光电技术应用,2020,35(3):50-54. 被引量：7
4高庆吉,赵志华,徐达,邢志伟.语音情感识别研究综述[J].智能系统学报,2020,15(1):1-13. 被引量：15
5党宏社,王淼,张选德.基于深度学习的面部表情识别方法综述[J].科学技术与工程,2020,20(24):9724-9732. 被引量：12
6白茹意,郭小英,贾春花.基于多特征融合的抽象画情感研究[J].计算机应用研究,2021,38(2):587-590. 被引量：2
7孙鹏,彭敦陆.E2E-CER:一种基于端到端的对话情感识别分类模型[J].小型微型计算机系统,2021,42(2):235-240.
8张轩,许国良,魏安,王超,雒江涛.基于多分类器集成和特征融合的用户出境预测[J].电讯技术,2021,61(5):596-602. 被引量：2
9罗春梅,张风雷.基于均值特征和改进深度神经网络的说话人识别算法[J].声学技术,2021,40(4):503-507. 被引量：2
10李小良,何莉,高学,赵丽红.基于数据与业务融合的智慧化综合语音业务管理平台的研究[J].煤炭与化工,2021,44(8):77-79. 被引量：1

同被引文献15

1林君哲,周恩涛,杜林森,闻邦椿.航空发动机管路系统振动机制及故障诊断研究综述[J].机床与液压,2013,41(1):163-164. 被引量：28
2安晶,艾萍,徐森,刘聪,夏建生,刘大琨.一种基于一维卷积神经网络的旋转机械智能故障诊断方法[J].南京大学学报（自然科学版）,2019,55(1):133-142. 被引量：28
3张文,冯洋,刘群.基于简单循环单元的深层神经网络机器翻译模型[J].中文信息学报,2018,32(10):36-44. 被引量：16
4车金立,唐力伟,邓士杰,苏续军.基于BI-GRU-CRF模型的中文分词法[J].火力与指挥控制,2019,44(9):66-71. 被引量：8
5侯强,侯瑞丽.神经机器翻译研究——洞见与前景[J].外语学刊,2021(5):54-59. 被引量：9
6邱丰,刘博志,赵世炜,佟文伟,谭莉.航空发动机引气管卡箍断裂失效分析[J].航空发动机,2022,48(1):116-120. 被引量：4
7雷高伟,张清华,苏乃权,邵龙秋.基于深度学习与电子听诊器的轴承故障诊断[J].机床与液压,2022,50(9):210-214. 被引量：3
8赵志宏,李乐豪,李晴.一种轴承故障诊断的多任务深度学习方法[J].电子测量与仪器学报,2021,35(12):108-115. 被引量：8
9牛锐祥,丁华,施瑞,孟祥龙.改进密集连接卷积网络的滚动轴承故障诊断方法[J].振动与冲击,2022,41(11):252-258. 被引量：8
10陈仁祥,唐林林,胡小林,杨黎霞,赵玲.不同转速下基于深度注意力迁移学习的滚动轴承故障诊断方法[J].振动与冲击,2022,41(12):95-101. 被引量：18

引证文献2

1王铜宇,袁晟友,李开泰,米承权,林洁如,杨同光.基于空时模型的航空管路卡箍故障诊断研究[J].机床与液压,2024,52(7):192-200.
2郭凤婵,吴毅良,罗序良,刘翠媚.基于门控复归单位(GRU)和多头注意机制的语音情感识别模型[J].人工智能与机器人研究,2024,13(2):363-374.

1贾婧雯,蔡英,尔古打机.基于残差网络改进的中文语音情感识别[J].计算机工程与设计,2023,44(3):922-928. 被引量：3
2范存航,刘斌,陶建华,温正棋,易江燕.一种基于卷积神经网络的端到端语音分离方法[J].信号处理,2019,35(4):542-548. 被引量：12
3朱永华,冯天宇,张美贤,张文俊.基于增量方法的卷积语音情感识别网络[J].上海大学学报（自然科学版）,2023,29(1):24-40. 被引量：2
4刘强.“孤独死”的忧思[J].检察风云,2023(6):80-80.
5刘海,张昊,崔国旭,李洪亮,景国玺,何悦波.TGDI汽油机噪声源时域分离方法研究[J].内燃机学报,2023,41(2):158-165. 被引量：1
6夏丽华.巧用小人书培养大班幼儿表征能力[J].动漫界（幼教365）,2023(12):92-93.
7丁泽,程艳云.面向自然街景改进的文本检测[J].计算机技术与发展,2023,33(4):82-88.
8蒋海燕.户外建构游戏中大班幼儿表征能力培养[J].天津教育,2023(8):180-182.
9夏杰长,肖宇.新实体经济赋能中国经济现代化:作用机理与实施路径[J].社会科学战线,2023(3):1-9. 被引量：9
10林莉.学前儿童理解和使用空间表征的特点与教育建议[J].学前教育,2023(7):8-11.

计算机工程

2023年第4期

浏览历史

内容加载中请稍等...

基于动态卷积递归神经网络的语音情感识别被引量：2

参考文献3

二级参考文献13

共引文献37

同被引文献15

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于动态卷积递归神经网络的语音情感识别 被引量：2

参考文献3

二级参考文献13

共引文献37

同被引文献15

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于动态卷积递归神经网络的语音情感识别被引量：2