嵌入注意力机制并结合层级上下文的语音情感识别被引量：9

Speech emotion recognition with embedded attention mechanism and hierarchical context

下载PDF

导出

摘要由于情感语料问题、情感与声学特征之间关联问题、语音情感识别建模问题等因素,语音情感识别一直充满挑战性.针对传统基于上下文的语音情感识别系统仅局限于特征层造成标签层上下文细节丢失以及两层级差异性被忽略的缺陷,本文提出嵌入注意力机制并结合层级上下文学习的双向长短时记忆(BLSTM)网络模型.模型分3个阶段完成语音情感识别任务,第1阶段提取情感语音特征全集后采用SVM-RFE特征排序算法降维得到最优特征子集,并对其进行注意力加权;第2阶段将加权后的特征子集输入BLSTM网络学习特征层上下文获得最初情感预测结果;第3阶段利用情感标签值对另一独立BLSTM网络训练学习标签层上下文信息并据此在第2阶段输出结果基础上完成最终预测.模型嵌入注意力机制使其自动学习调整对输入特征子集的关注度,引入标签层上下文使其联合特征层上下文实现层级上下文信息融合提高鲁棒性,提升了模型对情感语音的建模能力,在SEMAINE和RECOLA数据集上实验结果表明:与基线模型相比RMSE和CCC均得到较好改善. A challenging task remains with regarding to speech emotion recognition due to issues such as emotional corpus problems, association between emotion and acoustic features, and speech emotion recognition modeling. Conventional context-based speech emotion recognition system risks of losing the context details of the label layer and neglecting the difference of the two-level due to solely limited to the feature layer. This paper proposed a Bidirectional Long Short-Term Memory (BLSTM) network with embedded attention mechanism combined with hierarchical context learning model. The model completed the speech emotion recognition task in three phases. The first phase extracted the feature set from the emotional speech, then used the SVM-RFE feature-sorting algorithm to reduce the feature in order to obtain the optimal feature subset and assigned attention weights. The second phase, the weighted feature subset was input into the BLSTM network learning feature layer context to obtain the initial emotional prediction result. The third phase used the emotional value to train another independent BLSTM network for learning label layer context information. According to the information, the final prediction was completed based on the output result of the second phase. The model embedded the attention mechanism to automatically learn to adjust the attention to the input feature subset, introduced the label layer context to associate the feature layer context so as to achieve the hierarchical context information fusion and improve the robustness, and improved the model's ability to model the emotional speech. The experimental results on the SEMAINE and RECOLA datasets showed that both RMSE and CCC were significantly improved than the baseline model.

作者程艳芬陈垚鑫陈逸灵杨益 CHENG Yanfen;CHEN Yaoxin;CHEN Yiling;YANG Yi(School of Computer Science and Technology,Wuhan University of Technology,Wuhan 430063,China;School of Computer,Hubei University of Technology,Wuhan 430068,China)

机构地区武汉理工大学计算机科学与技术学院湖北工业大学计算机学院

出处《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2019年第11期100-107,共8页 Journal of Harbin Institute of Technology

基金国家自然科学基金(51179146)

关键词语音情感识别注意力机制上下文双向长短时记忆网络 speech emotion recognition attention mechanism context BLSTM

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献2

1张宇,张鹏远,颜永红.基于注意力LSTM和多任务学习的远场语音识别[J].清华大学学报（自然科学版）,2018,58(3):249-253. 被引量：29
2张雪英,张婷,孙颖,张卫.基于PAD模型的级联分类情感语音识别[J].太原理工大学学报,2018,49(5):731-735. 被引量：8

二级参考文献6

1张石清,李乐民,赵知劲.人机交互中的语音情感识别研究进展[J].电路与系统学报,2013,18(2):440-451. 被引量：30
2陈雁翔,龙润田.基于PAD情感模型的可训练语音合成研究[J].模式识别与人工智能,2013,26(11):1019-1025. 被引量：1
3韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50. 被引量：171
4张雪英,张婷,孙颖,张卫,畅江.情感语音数据库优化及PAD情感模型量化标注[J].太原理工大学学报,2017,48(3):469-474. 被引量：14
5姜晓庆,夏克文,林永良.使用二次特征选择及核融合的语音情感识别[J].计算机工程与应用,2017,53(3):7-11. 被引量：8
6张雪英,孙颖,张卫,畅江.语音情感识别的关键技术[J].太原理工大学学报,2015,46(6):629-636 643. 被引量：18

共引文献35

1师庆科,郑涛.大型三甲医院患者智能随访语音平台设计与应用[J].中国数字医学,2021,16(8):22-27. 被引量：13
2吴克烈,胡旭微.世界500强的启示[J].统计研究,2000,17(4):20-23. 被引量：4
3潘涛,王胜利.支持向量机在语音情感识别中的应用[J].电子技术与软件工程,2019(6):135-135. 被引量：1
4靳华中,刘潇龙,胡梓珂.一种结合全局和局部特征的图像描述生成模型[J].应用科学学报,2019,37(4):501-509. 被引量：8
5李江,冯存前,王义哲,许旭光.基于AlexNet-BiLSTM网络的锥体目标微动分类[J].信号处理,2019,35(11):1835-1843. 被引量：4
6李树刚,马莉,潘少波,石新莉.基于循环神经网络的煤矿工作面瓦斯浓度预测模型研究[J].煤炭科学技术,2020,48(1):33-38. 被引量：36
7郎伟明,麻向津,周博文,杨东升,罗艳红,刘林奇.基于LSTM和非参数核密度估计的风电功率概率区间预测[J].智慧电力,2020,48(2):31-37. 被引量：25
8娄英丹,徐静林,黄丽霞,张雪英.MLLR和MAP在远场噪声混响下的语音识别研究[J].计算机工程与应用,2020,56(10):122-126. 被引量：7
9韦玉辉,夏敏,苏兆伟,孙龙,吴开明.基于PAD模型的服装图案设计效果影响因素评测[J].服装学报,2020,5(6):507-512. 被引量：3
10王华朋,牛瑾琳,刘元周,张琨瑶.不同语音特征对声音分类的有效性研究[J].中国刑警学院学报,2020(6):122-128. 被引量：3

同被引文献69

1刘艳,顾雪平,李军.用于暂态稳定评估的人工神经网络输入特征离散化方法[J].中国电机工程学报,2005,25(15):56-61. 被引量：24
2苑玮琦,赵彦明,张志佳.基于纹理分布特征的虹膜识别算法[J].仪器仪表学报,2010,31(2):365-370. 被引量：13
3韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50. 被引量：171
4李霞,卢官明,闫静杰,张正言.多模态维度情感预测综述[J].自动化学报,2018,44(12):2142-2159. 被引量：26
5李高玲,帖云,齐林.基于随机森林分类优化的多特征语音情感识别[J].微电子学与计算机,2019,36(1):70-73. 被引量：12
6陶华伟,张昕然,梁瑞宇,查诚,赵力,王青云.面向语音情感识别的改进可辨别完全局部二值模式[J].声学学报,2016,41(6):905-912. 被引量：9
7任浩,叶亮,李月,沙学军.基于多级SVM分类的语音情感识别算法[J].计算机应用研究,2017,34(6):1682-1684. 被引量：26
8周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251. 被引量：1790
9姚远,王秋菊,周伟,鲍程毅,彭磊.改进谱减法结合神经网络的语音增强研究[J].电子测量技术,2017,40(7):75-79. 被引量：12
10王颖.基于改进Elman神经网络的语音情感识别技术研究[J].计算机与数字工程,2017,45(11):2131-2135. 被引量：1

引证文献9

1何俊,张彩庆,李小珍,张德海.面向深度学习的多模态融合技术研究综述[J].计算机工程,2020,46(5):1-11. 被引量：69
2郭勇,赵康,潘力.结合改进Bi-LSTM和CNN的文本情感分析[J].信息技术,2021,45(2):50-55. 被引量：5
3金鹭,张寿明.基于神经网络的语谱图情感分类算法[J].电子测量技术,2020,43(24):57-63. 被引量：4
4朱龙珠,田诺,张全.基于语义分析的语音情感在线识别方法研究[J].电子设计工程,2021,29(11):151-154. 被引量：1
5费鸿博,吴伟官,李平,曹毅.基于梅尔频谱分离和LSCNet的声学场景分类方法[J].哈尔滨工业大学学报,2022,54(5):124-130. 被引量：3
6帖云,程慧杰,靳聪,李小兵,齐林.基于音视频特征融合的情感识别方法研究[J].重庆理工大学学报（自然科学）,2022,36(1):120-127. 被引量：2
7董炳辰,汤鲲.基于深度学习网络的语音情感识别方法研究[J].计算机与数字工程,2022,50(8):1771-1775. 被引量：1
8薛珮芸,师晨康,白静,赵建星,汪思斌.基于自适应门限融合策略的语音去噪算法[J].无线电工程,2024,54(4):1026-1033.
9申雁,李鸿燕,蒙志宏,张丽彩.融合双路CNN-LSTM与注意力机制的语音情感识别模型[J].电子设计工程,2024,32(18):6-11.

二级引证文献85

1邹浩立.基于融合几何特征时空图卷积网络的动作识别[J].计算机系统应用,2022,31(10):261-269. 被引量：1
2汪文隽,王亦天,操玮,任思儒.基于多模态投资者情绪数据的USD/CNY汇率波动率预测研究[J].计算机应用研究,2020,37(S02):152-155. 被引量：2
3周经纬,韩立新,李晓双.基于多模态数据的目标跟踪算法[J].计算机与现代化,2020(11):16-22. 被引量：2
4马玉军,尹科.云端融合的情感交互健康物联网设计与实现研究[J].数码设计,2021,10(2):144-145.
5槐泽鹏,王洪波,龚旻.基于深度卷积神经网络的多飞行器构型保持研究[J].兵器装备工程学报,2021,42(2):15-22.
6王军.黄河流域空天地一体化大数据平台架构及关键技术研究[J].人民黄河,2021,43(4):6-12. 被引量：19
7李洋,桑建兵,敖日汗,马钰,魏新宇.基于仿真和智能算法骨骼肌超弹性本构参数的反演方法研究[J].力学学报,2021,53(5):1449-1456. 被引量：10
8熊亿民.多模态神经网络的网络舆情大数据特征识别[J].信息技术,2021,45(6):114-119. 被引量：1
9邵帮丽,朱寅,朱润,潘晨曦,王坚,奚雪峰,杨颢.一种面向智能家居设备控制的多模态人机智能交互方法[J].林业工程学报,2021,6(4):190-196. 被引量：11
10范裕莹,李成娟,易强,李宝清.基于改进TCN模型的野外运动目标分类[J].计算机工程,2021,47(9):106-112. 被引量：4

1曹欣怡,李鹤,王蔚.基于语料库的语音情感识别的性别差异研究[J].南京大学学报（自然科学版）,2019,55(5):758-764. 被引量：3
2钟琪,冯亚琴,王蔚.跨语言语料库的语音情感识别对比研究[J].南京大学学报（自然科学版）,2019,55(5):765-773. 被引量：4
3刘培玉,任敏,陈小雪,王燕飞.基于相关信息熵和粒子群算法的特征选择方法[J].信息技术与信息化,2018,0(2):88-93. 被引量：1
4刘微,杨慧婕,刘守印.基于ACCA-FCM和SVM-RFE的蓄电池SOH特征选择算法[J].计算机与现代化,2018(1):11-18. 被引量：3
5来丽莹.着眼核心素养,提高建模能力——以“解三角形应用举例一”的设计为例[J].数学学习与研究,2019,0(13):129-129.
6叶小泉,吴云峰.基于支持向量机递归特征消除和特征聚类的致癌基因选择方法[J].厦门大学学报（自然科学版）,2018,57(5):702-707. 被引量：4
7朱琳,李萍,刘美意,梁安庆.拓展训练在小学体育教学中的应用研究[J].青少年日记（教育教学研究）,2019,0(11):157-157.
8郑雪生.如何选购台灯[J].农村百事通,2019,0(16):54-55.
9许莉莉.蛋鸡大肝大脾病的诊断及防治[J].中国畜禽种业,2019,15(8):189-189.
10何保国.新收入会计准则对电信行业影响探究[J].财会通讯（上）,2019(9):61-64. 被引量：5

哈尔滨工业大学学报

2019年第11期

浏览历史

内容加载中请稍等...

嵌入注意力机制并结合层级上下文的语音情感识别被引量：9

参考文献2

二级参考文献6

共引文献35

同被引文献69

引证文献9

二级引证文献85

相关作者

相关机构

相关主题

浏览历史

嵌入注意力机制并结合层级上下文的语音情感识别 被引量：9

参考文献2

二级参考文献6

共引文献35

同被引文献69

引证文献9

二级引证文献85

相关作者

相关机构

相关主题

浏览历史

嵌入注意力机制并结合层级上下文的语音情感识别被引量：9