基于MFCC特征融合的语音情感识别算法被引量：2

Speech emotion recognition algorithm based on MFCC feature fusion

下载PDF

导出

摘要在目前语音情感识别中,采用单一梅尔倒谱系数(MFCC)频谱的方法不能完全体现语音中所包含的情感特性,而多特征融合容易导致维数过大。提出了一种融合MFCC及其差分频谱的双向长短时记忆网络结合卷积神经网络(Bi-LSTM-CNN)的语音情感识别算法。首先提取语音信号的MFCC特征,并进行差分运算得到一阶、二阶差分特征提取频谱,再采用主成分分析法分别获取3个频谱中贡献度较高的维度组成新的频谱,达到降维目的,并将降维后的3个特征频谱从上到下依次进行堆叠,得到动、静结合的MFCC差分融合频谱。训练阶段Bi-LSTM-CNN模型从特征融合频谱中学习语音情感特性,并采用稀疏交叉熵法得到最优结果。实验结果表明在RAVDESS数据集上准确率为81.32%,在EMO-DB数据集上对情感识别的准确率为85.51%,比主流情感识别模型的准确率提高了4.85%。 In the current speech emotion recognition,the single MFCC spectrum method can not fully reflect the emotional characteristics contained in speech,and the multi-feature fusion is easy to lead to too large dimension.To solve the above problems,this paper proposes a speech emotion recognition algorithm which integrates MFCC and its differential spectrum bidirectional short and long time memory network and convolutional neural network(Bi-LSTM-CNN).Firstly,the MFCC features of speech signals are extracted,and the difference operation is carried out to obtain the feature spectrum A and B,and then the PCA method is used to obtain the dimensions of the three spectra with higher contribution to form a new spectrum to achieve the purpose of dimension reduction.The three feature spectra after dimension reduction are stacked horizontally from top to bottom to obtain the MFCC differential fusion spectrum combined with dynamic and static.In the training stage,the Bi-LSTM-CNN model learns the speech emotion characteristics from the feature fusion spectrum,and uses sparse cross entropy method to get the optimal result.The experimental results show that the accuracy of RAVDESS data set is 81.32%,and the accuracy of emotion recognition on EMO-DB data set is 85.51%,which is 4.85% higher than the mainstream emotion recognition model.

作者黄喜阳杜庆治龙华邵玉斌 HUANG Xiyang;DU Qingzhi;LONG Hua;SHAO Yubin(Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650504,China)

机构地区昆明理工大学信息工程与自动化学院

出处《陕西理工大学学报（自然科学版）》 2023年第4期17-25,共9页 Journal of Shaanxi University of Technology:Natural Science Edition

基金云南省媒体融合重点实验室开放项目(320225403)。

关键词语音情感识别主成分分析法双向长短时记忆网络 MFCC差分融合频谱深度学习 speech emotion recognition principal component analysis bidirectional long short-term memory MFCC differential fusion frequency spectrum deep learning

分类号 TN912.34 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献8

1张会云,黄鹤鸣,李伟,康杰,无.语音情感识别研究综述[J].计算机仿真,2021,38(8):7-17. 被引量：18
2韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50. 被引量：169
3罗相林,秦雪佩,贾年.基于MFCC及其一阶差分特征的语音情感识别研究[J].现代计算机,2019,25(11):20-24. 被引量：6
4李强,刘晓峰,贺静.基于语音特征的情感分类[J].小型微型计算机系统,2016,37(2):385-388. 被引量：13
5王玺,闫超,武曲,郭坤.基于PCA-RF分类的语音情感识别研究[J].科学技术创新,2021(29):91-93. 被引量：2
6朱丽,杨青,吴涛,李晨,李铭.基于CNN和Bi-LSTM的脑电波情感分析[J].应用科学学报,2022,40(1):1-12. 被引量：9
7陶砚蕴,岳国旗,王凯欣,张宇祯,蒋彬,黄杏梅.心电图信号双任务学习的时空级联神经网络及心律失常分类模型[J].南京大学学报（自然科学版）,2021,57(2):318-326. 被引量：2
8张钰莎,蒋盛益.基于MFCC特征提取和改进SVM的语音情感数据挖掘分类识别方法研究[J].计算机应用与软件,2020,37(8):160-165. 被引量：26

二级参考文献139

1纪正飚,王吉林,赵力.基于模糊K近邻的语音情感识别[J].微电子学与计算机,2015,32(3):59-62. 被引量：10
2王兴玲,李占斌.基于网格搜索的支持向量机核函数参数的确定[J].中国海洋大学学报（自然科学版）,2005,35(5):859-862. 被引量：127
3周群一,吕旭东,段会龙.ECG心搏模式识别[J].生物医学工程学杂志,2005,22(1):202-206. 被引量：10
4van Bezooijen R,Otto SA,Heenan TA. Recognition of vocal expressions of emotion:A three-nation study to identify universal characteristics[J].{H}JOURNAL OF CROSS-CULTURAL PSYCHOLOGY,1983,(04):387-406.
5Tolkmitt FJ,Scherer KR. Effect of experimentally induced stress on vocal parameters[J].Journal of Experimental Psychology Human Perception Performance,1986,(03):302-313.
6Cahn JE. The generation of affect in synthesized speech[J].Journal of the American Voice Input/Output Society,1990.1-19.
7Moriyama T,Ozawa S. Emotion recognition and synthesis system on speech[A].Florence:IEEE Computer Society,1999.840-844.
8Cowie R,Douglas-Cowie E,Savvidou S,McMahon E,Sawey M,Schro. Feeltrace:An instrument for recording perceived emotion in real time[A].Belfast:ISCA,2000.19-24.
9Grimm M,Kroschel K. Evaluation of natural emotions using self assessment manikins[A].Cancun,2005.381-385.
10Grimm M,Kroschel K,Narayanan S. Support vector regression for automatic recognition of spontaneous emotions in speech[A].IEEE Computer Society,2007.1085-1088.

共引文献229

1董理,谈笑.昆剧小生行当情感念白声学研究[J].中国语音学报,2021(2):52-60.
2郑成杰,郑之.基于最大分类器差异域适应方法的3维点云分类[J].信息与控制,2023,52(5):588-597.
3张石清,刘瑞欣,赵小明.跨库语音情感识别研究进展[J].计算机系统应用,2022,31(11):31-48.
4张会云.语音情感识别研究综述[J].信息通信,2019,0(11):58-60. 被引量：2
5张霞,杨勇,赵力.基于复数帧段特征的语音情感识别方法[J].电子器件,2022,45(2):479-482.
6陈子正,行鸿彦,王瑞,段儒杰.一种铁路隧道衬砌掉块声音检测方法[J].电子测量与仪器学报,2022,36(1):134-140. 被引量：3
7李霞,卢官明,闫静杰,张正言.多模态维度情感预测综述[J].自动化学报,2018,44(12):2142-2159. 被引量：26
8李高玲,帖云,齐林.基于随机森林分类优化的多特征语音情感识别[J].微电子学与计算机,2019,36(1):70-73. 被引量：12
9张福泉.情感建模及情感识别技术研究[J].廊坊师范学院学报（自然科学版）,2014,14(5):23-26. 被引量：4
10孙凌云,何博伟,刘征,杨智渊.基于语义细胞的语音情感识别[J].浙江大学学报（工学版）,2015,49(6):1001-1008. 被引量：2

同被引文献14

1朱韵攸,戴诚,陈聿,卓灵,廖勇,赵明.基于人工智能的在线电力智慧客服系统设计（英文）[J].机床与液压,2018,46(24):9-14. 被引量：17
2叶柏峰,张鹏.关于电力智能客服实现的技术研究[J].科技创新与应用,2020(32):144-145. 被引量：3
3张晓慧,孙德艳,马永波,王明珠,曹璐,李承桓.情绪识别技术在电力智能客服系统中的应用研究[J].电子器件,2020,43(5):1061-1065. 被引量：11
4吴影,徐雅斌,孟晶晶.基于Transformer的汉语歌声识别方法[J].北京信息科技大学学报（自然科学版）,2023,38(3):35-42. 被引量：1
5柳永利,张绍阳,王裕恒,解熠.基于多任务损失附加语言模型的语音识别方法[J].江苏大学学报（自然科学版）,2023,44(5):564-569. 被引量：2
6高耀荣,边巴旺堆.基于端到端深度学习的藏语语音识别研究[J].现代计算机,2023,29(17):25-30. 被引量：2
7王先欢,孙自强.基于QRNN-CTC的中文语音识别声学模型[J].计算机应用与软件,2023,40(12):184-188. 被引量：1
8刘旭.联合时频注意力机制和U-Net的单通道语音增强算法[J].现代信息科技,2023,7(22):52-56. 被引量：1
9张晓莉.改进MFCC特征和MLA模型的语音情感识别[J].福建电脑,2024,40(1):52-56. 被引量：4
10崔丽霞,许利显.基于Bi LSTM-CTC的语音识别系统研究[J].自动化与仪器仪表,2023(10):90-94. 被引量：2

引证文献2

1朱洋,曾庆宁,赵学军.双通道解码的端到端连续语音识别[J].桂林电子科技大学学报,2024,44(2):167-173.
2洪怡婷,黄恺,高怡擘.语音情感识别技术在电力智能客服系统中的应用[J].电声技术,2024,48(9):69-72.

1安金鹏.基于同态加密的电力通信信息差分调度优化方法[J].微型电脑应用,2023,39(6):156-158. 被引量：2
2傅强,李贵民,吴岳洲.基于BP神经网络的管制语音质量评价方法[J].航空计算技术,2023,53(3):1-5. 被引量：1
3杨磊,权伟,李亮,王镜淇,高帆,于轩.基于ITD-MFCC与卷积神经网络的核电电气设备异音检测技术[J].噪声与振动控制,2023,43(4):122-128. 被引量：1
4庄韵怡,欧阳莉.情感体验下的节庆礼品包装研究[J].湖南包装,2023,38(3):10-12. 被引量：1
5马宏军.长输管道输油泵离线监测与诊断关键技术研究及应用[J].水泵技术,2023(3):29-35.
6蒲姗姗,郑恩让,陈蓓.基于1D-CNN的近红外光谱分类算法研究[J].光谱学与光谱分析,2023,43(8):2446-2451. 被引量：2
7李敬兆,何娜,张金伟,王擎,李化顺.基于VMD和CNN-BiLSTM的矿井提升电动机故障诊断方法[J].工矿自动化,2023,49(7):49-59. 被引量：1
8高磊,夏星,闵帆.时域与频域自适应SVD融合去噪算法[J].郑州大学学报（理学版）,2023,55(6):48-54. 被引量：3

陕西理工大学学报（自然科学版）

2023年第4期

浏览历史

内容加载中请稍等...

基于MFCC特征融合的语音情感识别算法被引量：2

参考文献8

二级参考文献139

共引文献229

同被引文献14

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于MFCC特征融合的语音情感识别算法 被引量：2

参考文献8

二级参考文献139

共引文献229

同被引文献14

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于MFCC特征融合的语音情感识别算法被引量：2