自编码器和LSTM在混合语音情感的应用

Application of Autoencoder and LSTM in Mixed Speech Emotion

下载PDF

导出

摘要针对混合语音情感识别中,传统识别方法不能充分考虑语种之间的差异性,导致分类准确率偏低的问题,提出了自编码器(autoencoder)与长短时记忆(Long Short Term Memory,LSTM)模型相结合的方法,通过提取MFCC,MEL Spectrogram Frequency,Chroma三种特征获得180维特征。并利用自编码器获取一个更高维度、更深层次的500维特征,通过LSTM进行建模,提高语音情感分类的准确性。使用德语EMO-DB和中文CASIA语音库进行分类实验,研究表明,自编码器提取出的深度特征更适合混合语音情感分类。较传统分类方法,使用自编码器+LSTM进行分类,最优识别结果可提升7.5%。 In mixed speech emotion recognition,traditional recognition methods can not fully consider the differences between languages,which leads to low classification accuracy.A method combining auto encoder with Long Short Term Memory(LSTM)model is proposed.This method obtains 180 dimensional features by extracting MFCC,MEL Spectrum Frequency and Chroma features.In addition,the method uses autoencoder to obtain a higher dimension and deeper level 500-dimension features,as well as to improve the accuracy of speech emotion classification by modeling through the LSTM.The classification experiments were carried out on German EMO-DB and Chinese CASIA database.The result shows that,the depth features extracted from the autoencoder is more suitable for speech emotion classification.Compared with the traditional classification method,the optimal recognition result can be increased by 7.5%by using Autoencoder-LSTM.

作者张卫贾宇张雪英 ZHANG Wei;JIA Yu;ZHANG Xue-Ying(College of Information,Shanxi University of Finance and Economics,Taiyuan Shanxi 030006,China;College of Information and Computer,Taiyuan University of Technology,Taiyuan Shanxi 030024,China)

机构地区山西财经大学信息学院太原理工大学信息与计算机学院

出处《计算机仿真》北大核心 2022年第11期258-262,共5页 Computer Simulation

基金国家青年科学基金项目(61902226) 山西省青年科技研究基金(201901D211415) 山西省高等学校科技创新项目(2019L0498) 山西财经大学青年科研基金项目(QN-2019017)。

关键词自编码器长短时记忆混合语音情感识别 Autoencoder LSTM Mixed speech emotion recognition

分类号 TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1冯天艺,杨震.采用多任务学习和循环神经网络的语音情感识别算法[J].信号处理,2019,35(7):1133-1140. 被引量：19
2钟琪,冯亚琴,王蔚.跨语言语料库的语音情感识别对比研究[J].南京大学学报（自然科学版）,2019,55(5):765-773. 被引量：4
3宋鹏,郑文明,赵力.基于特征迁移学习方法的跨库语音情感识别[J].清华大学学报（自然科学版）,2016,56(11):1179-1183. 被引量：13
4卢官明,袁亮,杨文娟,闫静杰,李海波.基于长短期记忆和卷积神经网络的语音情感识别[J].南京邮电大学学报（自然科学版）,2018,38(5):63-69. 被引量：25

二级参考文献9

1李爱军,邵鹏飞,党建武.情感表达的跨文化多模态感知研究[J].清华大学学报（自然科学版）,2009(S1):1393-1401. 被引量：6
2孙红进.基于GMM的语音情感信息识别[J].信息技术,2008,32(12):138-140. 被引量：1
3韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述[J].软件学报,2014,25(1):37-50. 被引量：169
4赵力,黄程韦.实用语音情感识别中的若干关键技术[J].数据采集与处理,2014,29(2):157-170. 被引量：36
5庄福振,罗平,何清,史忠植.迁移学习研究进展[J].软件学报,2015,26(1):26-39. 被引量：471
6宋鹏,郑文明,赵力.基于特征迁移学习方法的跨库语音情感识别[J].清华大学学报（自然科学版）,2016,56(11):1179-1183. 被引量：13
7任浩,叶亮,李月,沙学军.基于多级SVM分类的语音情感识别算法[J].计算机应用研究,2017,34(6):1682-1684. 被引量：26
8刘畅,张一珂,张鹏远,颜永红.基于改进主题分布特征的神经网络语言模型[J].电子与信息学报,2018,40(1):219-225. 被引量：10
9薄洪健,马琳,孔祥浩,李海峰.基于卷积神经网络学习的语音情感特征降维方法研究[J].高技术通讯,2017,27(11):889-898. 被引量：4

共引文献53

1张石清,刘瑞欣,赵小明.跨库语音情感识别研究进展[J].计算机系统应用,2022,31(11):31-48.
2王惠.迁移学习研究综述[J].电脑知识与技术（过刊）,2017,23(11X):203-205. 被引量：19
3王忠民,刘戈,宋辉.基于多核学习特征融合的语音情感识别方法[J].计算机工程,2019,45(8):248-254. 被引量：17
4钟琪,冯亚琴,王蔚.跨语言语料库的语音情感识别对比研究[J].南京大学学报（自然科学版）,2019,55(5):765-773. 被引量：4
5陈景霞,王丽艳,贾小云,张鹏伟.基于深度卷积神经网络的脑电信号情感识别[J].计算机工程与应用,2019,55(18):103-110. 被引量：29
6郎伟明,麻向津,周博文,杨东升,罗艳红,刘林奇.基于LSTM和非参数核密度估计的风电功率概率区间预测[J].智慧电力,2020,48(2):31-37. 被引量：25
7钟昕孜,廖闻剑.基于自编码器的语音情感识别方法研究[J].电子设计工程,2020,28(6):69-73. 被引量：5
8高庆吉,赵志华,徐达,邢志伟.语音情感识别研究综述[J].智能系统学报,2020,15(1):1-13. 被引量：16
9李海峰,孙聪珊,马琳,薄洪健,徐忠亮.基于TVF-EMD的乐器音质特征分析方法及其应用[J].信号处理,2020,36(6):932-941. 被引量：2
10李永盛,何佳洲,赵国清,刘义海.关于迁移学习中的负迁移方向研究[J].指挥控制与仿真,2020,42(4):28-33. 被引量：6

1张苏妍,申双喜,王晓冬.基于多源数据的邯郸城市空间结构识别[J].廊坊师范学院学报（自然科学版）,2022,22(4):84-88.
2闵星,黄品文,谭金祥.基于卷积神经网络的地铁保护区风险源识别[J].测绘通报,2022(10):162-165. 被引量：4
3杨毅,高传薪.基于数据挖掘的电缆隧道附属设施故障自动化识别方法[J].自动化技术与应用,2022,41(12):39-42. 被引量：3
4沈骏翱,马梦婷,宋致远,柳汀洲,张微.基于深度学习语义分割模型的高分辨率遥感图像水体提取[J].自然资源遥感,2022,34(4):129-135. 被引量：9
5张梦瑶,安启力,李荣峥,刘逸凡,刘海涛.基于可变阈值的三角形模式识别方法[J].中国科技论文在线精品论文,2020(1):26-32.

计算机仿真

2022年第11期

浏览历史

内容加载中请稍等...

自编码器和LSTM在混合语音情感的应用

参考文献4

二级参考文献9

共引文献53

相关作者

相关机构

相关主题

浏览历史